总蓝图(全貌一份讲全)
想先建立全局就读这一篇:引擎为什么这么设计、由哪些部分组成、怎么测、怎么打分、怎么读结果、现在做到哪一步。各部分的深挖在专文里(已标链接)。看不懂的词查 术语对照。
这是什么
FinTecEval 是一套公共的、可复用的金融 AI 产品测量工具(提供方),给各类金融认知/问答/助手产品(使用方,FinBayes 是第一个)用来回答:"我的产品比未加工的通用大模型强吗、比竞品强吗、哪类场景强弱、该补哪里"。它只测量与复盘,不替任何产品做决策。
§1 从"过不过"升级到"坐标系"
传统评测给一个"过/不过"的关卡。这套引擎的关键升级:把它做成一张贯穿落地→迭代→持续进化的能力坐标系。一次输出落在"底线 × 及格线"平面一个点——坐标比"过不过"信息量大得多:它告诉你往哪个方向、补哪一块。进化 = 这个点持续往右上角移动。
中间是黑箱:引擎不关心被测产品内部怎么实现(Agent 工程、底座模型、路由、画像……都行),只看"喂进什么题、吐出什么答"。换一个产品、换一个竞品、换一个底座模型,引擎不变。FinBayes 只是第一个被装进这个黑箱的产品。
§2 两层打分,分清谁的事
打分分两层,引擎只拥有上面那层:
- 相对层(底线/及格线)是引擎的核心方法,跨产品通用,定义在 方法论。
- 绝对层(单条输出好不好)由被测产品自己定义、放在它自己的工程仓;引擎测它时调用一下即可,外部读者不用懂这层(细则代号见 术语对照)。
- 两层共用同一套场景标签——这样才能做"在哪类场景上强弱"的同源归因。
一个待解决的技术点:未加工的大模型和竞品不会吐出和你产品一样的结构化字段,有些维度它们根本不可观测。所以相对层需要一层"能比的才比"规则——不可观测的维度标记为"不可观测"而不是打 0 分,相减只在"双方都可观测"的维度上做。这条在跑测工具里落地。
§3 一次评测的数据流
§4 怎么测(操作要点)
- 三方:你的产品(完整链路)/ 竞品(可降级)/ 未加工通用大模型(只把用户问题当输入、无任何脚手架)。
- 三种模式(每次必标):回归模式(固定输入输出,验工程稳定)/ 降级对照(竞品降到同基准,比相同条件)/ 满血模式(各自真实形态,比不同条件)。
- 竞品无损降级是硬约束:必须字节级无损恢复竞品配置、绝不污染用户真实工作区(用临时空工作区、每题独立会话)。
- 计量口径:用量一律按"输入+输出"算(网关偶发返回异常总量,弃用);耗时算整条链路。
- 越界检测:扫每方输出有没有给仓位比例/买卖指令/目标价/保证收益/无依据硬给评级。
- 至少两人独立复评,降低单人偏差,并定期用一组已知坐标的题校准复评者、防打分漂移。
§5 用什么尺子、怎么读结果
- 尺子分两层,见 §2(相对层是引擎方法,绝对层是被测产品自己的)。
- 怎么从坐标读出"往哪补"、共性 vs 个别问题、样本量护栏、底座/自研信号——都在 能力坐标(一尾)。
§6 复盘回馈闭环
坐标 + 问题分析 → 三条回馈路径:① 喂回产品迭代(按问题属于哪一层:表达/守纪律/处理机制/认知内核)② 喂回题库(补覆盖缺口)③ 喂回底座选型。产品团队和评测会话通过"需求工单 ↔ 坐标报告"异步协作,模板与状态流转见 怎么用这个引擎。
§7 现在做到哪一步(诚实的实现状态)
这是设计 + 已跑通的部分,不是全自动成品。一张表说清:
| 能力 | 状态 |
|---|---|
| 三方跑测、参数化配置、三种模式 | ✅ 已落地(实现仓 harness/) |
| 自动算两根坐标 + 越界检测 | ✅ 已落地 |
| 场景标签体系 + 覆盖度工具 | ✅ 已落地 |
| 趋势账本 + 底座/自研信号(参考证据) | ✅ 已落地 |
| 绝对层"单条输出好不好"的自动打分 | 🟡 当前靠人/Agent 评审,未全自动 |
| 至少两人独立复评 + 一致性度量 | 🟡 首次评测实际只跑了单评审,是目标非现状 |
| 工单↔报告的标准模板 | 🟡 模板已给(见 using),常设化进行中 |
首次真实评测(FinBayes vs 降级竞品 vs 未加工 gpt-5.5,10 题)的坐标结论,是"小样本、单后端、早期阶段"的快照,不是稳态判定。
§8 演进 + 和实现仓的关系
- 本知识库(治理仓)= 人读的稳定发布版:定义、方法、模板、索引、已评审摘要。改它走变更协议(提案 → 评审 → 合入)。
- 实现仓(工程仓 FinTecEval)= 跑测代码、原始数据、历史账本、草稿迭代,自由迭代。
- 某次评测的具体报告 = 交到发起方产品团队仓库。
- 本仓产出经评审回写治理仓。
- 暂不拆成独立仓(题集字段还在稳、跑测器还没完全定型、目前还只服务少数产品)。
- 诚实边界:绝对层的具体阈值待被测产品那边校准锁定(引擎消费其结论);运行所需的密钥绝不落盘/进仓库/进日志,运行时从系统钥匙串取。
附:各部分专文
| 部分 | 专文 |
|---|---|
| 两根坐标怎么定义、题怎么出 | 方法论 |
| 共用场景标签 | 场景标签体系 |
| 题库 | 题库(一头) |
| 读结果 | 能力坐标(一尾) |
| 怎么发起评测 | 怎么用这个引擎 |
| 看不懂的词 | 术语对照 |