跳到主要内容

题库(一头 · 输入端)

引擎的一头(输入端)。每条 case = 一道真实用户口吻的金融场景测试题,带场景标签(axes)+ 标答要点 + 通过判据 + 边界。出的题喂给中间的被测系统,结果由一尾·能力坐标量化。

构成

题库分两层——引擎通用层(跨产品复用)+ 被测系统层(当前 FinBayes):

内容说明
认知矩阵与基线 case通用跨产品复用的金融认知场景矩阵 + 真实用户语言 + benchmark/多模态/安全适配 + 入口基线(人读出题素材)
case 字段规范通用每条 case 的字段结构 + 运行结果格式
cases/通用机器可读结构化 YAML 用例(认知矩阵的可执行投影)
finbayes/被测系统FinBayes 体系题库:Case Library + 工程回归 + 第三方对比 + live 质量门禁

通用层承袭自前身 FinClaw 的评测经验(场景矩阵 / 真实用户语言 / 数据降级 / 安全边界),已去掉产品专属命名、升级为跨产品通用层,并用同一套场景标签和读结果对齐。

怎么出题、怎么扩库

使用规则

  1. case 不能反向定义产品边界,也不能被硬编码进 router prompt。
  2. case 是评估外环,不是 runtime 内部模块。
  3. 每次运行必须标注模式:deterministic / degraded / live-quality。
  4. 不再用"30-case"作正式概念;当前工程 case 只是题库的种子子集

边界

新产品(Data Horizon / AI Trading Matrix / RLE / FEFM)需要时建自己的题库命名空间;只有跨项目复用验证过的 case 才升为共享。