题库(一头 · 输入端)
引擎的一头(输入端)。每条 case = 一道真实用户口吻的金融场景测试题,带场景标签(axes)+ 标答要点 + 通过判据 + 边界。出的题喂给中间的被测系统,结果由一尾·能力坐标量化。
构成
题库分两层——引擎通用层(跨产品复用)+ 被测系统层(当前 FinBayes):
| 内容 | 层 | 说明 |
|---|---|---|
| 认知矩阵与基线 case | 通用 | 跨产品复用的金融认知场景矩阵 + 真实用户语言 + benchmark/多模态/安全适配 + 入口基线(人读出题素材) |
| case 字段规范 | 通用 | 每条 case 的字段结构 + 运行结果格式 |
cases/ | 通用 | 机器可读结构化 YAML 用例(认知矩阵的可执行投影) |
| finbayes/ | 被测系统 | FinBayes 体系题库:Case Library + 工程回归 + 第三方对比 + live 质量门禁 |
通用层承袭自前身 FinClaw 的评测经验(场景矩阵 / 真实用户语言 / 数据降级 / 安全边界),已去掉产品专属命名、升级为跨产品通用层,并用同一套场景标签和读结果对齐。
怎么出题、怎么扩库
- 出题方法:见 methodology · 第二部分 出题法。
- 扩库逻辑:覆盖度驱动 + held-out 纪律,见 场景本体(含覆盖度)。把固定题集变成"按缺口补题"的活库。
使用规则
- case 不能反向定义产品边界,也不能被硬编码进 router prompt。
- case 是评估外环,不是 runtime 内部模块。
- 每次运行必须标注模式:deterministic / degraded / live-quality。
- 不再用"30-case"作正式概念;当前工程 case 只是题库的种子子集。
边界
新产品(Data Horizon / AI Trading Matrix / RLE / FEFM)需要时建自己的题库命名空间;只有跨项目复用验证过的 case 才升为共享。