怎么用这个引擎（上手手册）

这页给谁：要发起一次评测的人或 Agent（比如负责某个金融 AI 产品落地的会话）。读完就知道引擎能干什么、怎么发起、结果去哪。看不懂的词查术语对照。

一句话

拿同一批真实金融场景题，让你的产品 / 竞品 / 未加工的通用大模型在同样条件下各答一遍，打分相减，得到两个坐标——底线（比通用大模型强多少）和及格线（比竞品强多少），并告诉你哪类场景强弱、该补哪里。

五条使用规矩（必守）

各管各的：产品团队只发请求、读结论，不碰评测内部；评测会话只测量与复盘，不替产品做决定——坐标是证据，结论由产品团队 + 负责人定。
共用场景标签不许偷改；题不能反过来定义产品边界，也不能被硬塞进产品的路由提示词。
信号是参考证据、不是自动决策：哪怕引擎说"换个底座模型更好"，也要样本量够 + 人复核了才算数。
结果交到发起方产品仓库（见下）。
碰到没把握的，先发小批量试跑，别一上来全量。

1. 引擎能做什么

能力	说明
两根坐标	底线（比未加工通用大模型强多少，按维度看）+ 及格线（比竞品强多少，分三层 × 两种条件）
三方同条件比	你的产品 / 竞品（降到同条件）/ 未加工通用大模型，同一批题同一基准
越界检测	自动揪出"给了仓位比例 / 买卖指令 / 目标价 / 保证收益 / 无依据硬给评级"等越界
强弱归因	按场景标签切片，断言"在某类场景上强/弱"，定位补哪块
趋势与信号	按 (场景 × 底座模型 × 时间) 持续记录 → 给"底座选型 / 要不要自研专家模型"的参考证据

更深：总蓝图 · 方法论 · 能力坐标（一尾）

2. 现有题库有多少、覆盖什么

题集	条数	在哪	干嘛用
通用结构化题	11	本库结构化题目录	跨产品复用：认知快照/线程/决策前检查 + 美股估值 + 宏观跨资产 + "主动追问"对抗题 + 多轮复盘 + 带画像题
回归基线	10	实现仓	三方回归的标准批
概念验收题（防过拟合）	8	实现仓	概念题的泛化验收
决策验收题	8	实现仓	决策/交易场景验收

人读的出题素材（场景矩阵）在认知场景矩阵。场景覆盖：场景标签体系 10 个维度，实现仓全量评测集覆盖率 100%（算法与结果在实现仓；本库 11 条示例题标签已迁到 slug，含美股 / 宏观跨资产 / 对话主动性对抗题 / 多轮复盘 / 带画像题）。

3. 怎么发起一次三方评测

跑测工具在实现仓（工程仓 FinTecEval 的 harness/），评测会话在那边执行；本知识库只定义"怎么发起、要什么字段、结果怎么放"。

需求工单模板（复制即用）

## 评测需求工单
- 发起方：<产品 + 阶段，如 FinBayes 第一阶段>
- 想回答：<一句话，如"整改后底线是否从险过变稳过">
- 用哪批题：<引用题 id，或说明新增>
- 跟谁比：被测=<产品> / 竞品=<名字，可空> / 基准=<未加工通用大模型，列模型>
- 比的条件：相同条件 / 不同条件；模式=回归 / 降级对照 / 真实形态
- 要什么结论：底线 / 及格线 / 强弱归因 / 越界检测
- 越界要查：<如 仓位比例 / 目标价 / 无依据评级>
- 状态：requested

坐标报告（交付内容）

每批题三方的输出/耗时/用量汇总表 · 两根坐标 · 越界命中清单 · 共性问题 + 个别问题（带证据 + 改进方向 + 属于哪一层）· 至少两人独立复评。

4. 结果存哪 · 怎么通知

坐标报告交到发起方产品团队仓库：<产品仓库>/evaluation/coordinate-reports/<日期-名称>/。
实现仓只留原始跑测数据 + 历史坐标账本，不留成品报告。
通知：在产品仓库里回填那张工单——状态改 delivered、附报告路径，对方下次读工单即见。

工单状态怎么流转（避免靠口头约定）：

5. 实现仓在哪

跑测代码、原始数据、工单↔报告的详细契约都在实现仓——一个叫 FinTecEval 的团队内部工程仓（私有路径不公开，需要接入时找引擎维护者）：harness/（跑三方、算坐标、查越界）、interface/（工单↔报告契约）、runs/（历次原始数据 + 坐标账本）。本知识库只放人读的定义与方法。

一句话​

五条使用规矩（必守）​

1. 引擎能做什么​

2. 现有题库有多少、覆盖什么​

3. 怎么发起一次三方评测​

需求工单模板（复制即用）​

坐标报告（交付内容）​

4. 结果存哪 · 怎么通知​

5. 实现仓在哪​

一句话