怎么用这个引擎(上手手册)
这页给谁:要发起一次评测的人或 Agent(比如负责某个金融 AI 产品落地的会话)。读完就知道引擎能干什么、怎么发起、结果去哪。看不懂的词查 术语对照。
一句话
拿同一批真实金融场景题,让你的产品 / 竞品 / 未加工的通用大模型在同样条件下各答一遍,打分相减,得到两个坐标——底线(比通用大模型强多少)和及格线(比竞品强多少),并告诉你哪类场景强弱、该补哪里。
五条使用规矩(必守)
- 各管各的:产品团队只发请求、读结论,不碰评测内部;评测会话只测量与复盘,不替产品做决定——坐标是证据,结论由产品团队 + 负责人定。
- 共用场景标签不许偷改;题不能反过来定义产品边界,也不能被硬塞进产品的路由提示词。
- 信号是参考证据、不是自动决策:哪怕引擎说"换个底座模型更好",也要样本量够 + 人复核了才算数。
- 结果交到发起方产品仓库(见下)。
- 碰到没把握的,先发小批量试跑,别一上来全量。
1. 引擎能做什么
| 能力 | 说明 |
|---|---|
| 两根坐标 | 底线(比未加工通用大模型强多少,按维度看)+ 及格线(比竞品强多少,分三层 × 两种条件) |
| 三方同条件比 | 你的产品 / 竞品(降到同条件)/ 未加工通用大模型,同一批题同一基准 |
| 越界检测 | 自动揪出"给了仓位比例 / 买卖指令 / 目标价 / 保证收益 / 无依据硬给评级"等越界 |
| 强弱归因 | 按场景标签切片,断言"在某类场景上强/弱",定位补哪块 |
| 趋势与信号 | 按 (场景 × 底座模型 × 时间) 持续记录 → 给"底座选型 / 要不要自研专家模型"的参考证据 |
2. 现有题库有多少、覆盖什么
| 题集 | 条数 | 在哪 | 干嘛用 |
|---|---|---|---|
| 通用结构化题 | 11 | 本库 结构化题目录 | 跨产品复用:认知快照/线程/决策前检查 + 美股估值 + 宏观跨资产 + "主动追问"对抗题 + 多轮复盘 + 带画像题 |
| 回归基线 | 10 | 实现仓 | 三方回归的标准批 |
| 概念验收题(防过拟合) | 8 | 实现仓 | 概念题的泛化验收 |
| 决策验收题 | 8 | 实现仓 | 决策/交易场景验收 |
人读的出题素材(场景矩阵)在 认知场景矩阵。场景覆盖:场景标签体系 10 个维度,实现仓全量评测集覆盖率 100%(算法与结果在实现仓;本库 11 条示例题标签已迁到 slug,含美股 / 宏观跨资产 / 对话主动性对抗题 / 多轮复盘 / 带画像题)。
3. 怎么发起一次三方评测
跑测工具在实现仓(工程仓 FinTecEval 的 harness/),评测会话在那边执行;本知识库只定义"怎么发起、要什么字段、结果怎么放"。
需求工单模板(复制即用)
## 评测需求工单
- 发起方:<产品 + 阶段,如 FinBayes 第一阶段>
- 想回答:<一句话,如"整改后底线是否从险过变稳过">
- 用哪批题:<引用题 id,或说明新增>
- 跟谁比:被测=<产品> / 竞品=<名字,可空> / 基准=<未加工通用大模型,列模型>
- 比的条件:相同条件 / 不同条件;模式=回归 / 降级对照 / 真实形态
- 要什么结论:底线 / 及格线 / 强弱归因 / 越界检测
- 越界要查:<如 仓位比例 / 目标价 / 无依据评级>
- 状态:requested
坐标报告(交付内容)
每批题三方的输出/耗时/用量汇总表 · 两根坐标 · 越界命中清单 · 共性问题 + 个别问题(带证据 + 改进方向 + 属于哪一层)· 至少两人独立复评。
4. 结果存哪 · 怎么通知
- 坐标报告交到发起方产品团队仓库:
<产品仓库>/evaluation/coordinate-reports/<日期-名称>/。 - 实现仓只留原始跑测数据 + 历史坐标账本,不留成品报告。
- 通知:在产品仓库里回填那张工单——状态改
delivered、附报告路径,对方下次读工单即见。
工单状态怎么流转(避免靠口头约定):
5. 实现仓在哪
跑测代码、原始数据、工单↔报告的详细契约都在实现仓——一个叫 FinTecEval 的团队内部工程仓(私有路径不公开,需要接入时找引擎维护者):harness/(跑三方、算坐标、查越界)、interface/(工单↔报告契约)、runs/(历次原始数据 + 坐标账本)。本知识库只放人读的定义与方法。