术语对照（看不懂的词查这里）

读引擎主线文档时碰到的词，这里用一句大白话解释。正文尽量不用黑话；偶尔出现的，查这张表即可。下半部"内部代号"是被测产品（FinBayes）或我们工程过程的代号——读懂引擎不需要它们，外部读者可直接略过。

一、引擎常用词（人人要懂）

词	一句话意思
底线	你的产品比"用户直接问一个未加工的通用大模型"强多少。强 = 有存在意义；不强 = 没必要做。
及格线	你的产品比"竞品"强多少。强 = 有竞争力；不强 = 在这赛道没戏。
被测系统 / 被测产品	这次要量的那个产品（如 FinBayes）。引擎把它当黑箱，只看进去什么、出来什么。
对照臂	跟被测产品同台比较的对象。两类：未加工的通用大模型（量底线用）、竞品（量及格线用）。
未加工的通用大模型	不加任何工程包装、直接拿用户问题去问的通用大模型（如直接问 GPT）。它是"底线"的参照。
题库	一批真实金融场景测试题（带场景标签 + 该有的认知要点 + 通过判据）。引擎的"进料口"。
场景标签体系	给每道题打标签的一套统一维度词表（市场 / 逻辑类型 / 用户类型…）。让"出了什么题"和"在哪类场景上强弱"用同一套词对得上。
能力坐标 / 坐标报告	评测的产出：把一次输出落在"底线 × 及格线"平面一个点，并说清哪类场景强弱、该往哪补。
需求工单	想测的人发给评测方的请求单（测什么、用哪批题、跟谁比、要什么结论）。
三种运行模式	回归模式（固定输入输出，验工程稳定）/ 降级对照（竞品降到同条件同台裸比）/ 满血模式（各自真实形态，比用户实际会遇到的产品）。
覆盖度	题库把场景标签体系的各种取值覆盖了多少、缺哪些 → 决定下一批补什么题。

二、内部代号（外部读者可略）

下列代号来自被测产品 FinBayes 自身，或我们的工程/决策记录。它们是"被测产品自己的事"，引擎只是在测它的时候调用一下——你不懂这些也能完全读懂引擎在做什么。

被测产品自己的"输出打分细则"（绝对评分层）

这层量的是"输出本身好不好"，标准由被测产品自己定义、放在它自己的工程仓。引擎测某个产品时调用它，但它不是引擎的通用方法。

代号	意思
rate A–D	单条输出的总评级（A 最好，D 不可用）。
D1–D11	FinBayes 自定的 11 个评分维度。
MCA 桶	FinBayes 自定的认知分桶打分。
V1–V3	FinBayes 自定的"立场/价值"维（如不替用户做决定、认知透明）。
P / U 双角度	给一条输出打两个分：P=合不合产品意图，U=对用户有没有用；两者可背离。
IAA	多个评审者打分的一致性程度。

FinBayes 战略 / 决策记录代号

代号	意思
M0 / M1	FinBayes 的里程碑阶段编号。
G0 / G1 / G2	FinBayes 的战略目标编号（表达力 / 数据鲁棒 / 护城河）。
L5 / L7 / L8	FinBayes 验收的硬度层级（功能 / 价值 / 真人体验）。
ADR-xxx	"架构决策记录"，FinBayes 工程仓里某条已拍板决策的编号。
FEFM	自有金融专家模型（规划中）。引擎可作为"要不要自研它"的前置度量。

想追这些代号的出处，去 FinBayes 工程仓（实现仓），不在本知识库。

一、引擎常用词（人人要懂）​

二、内部代号（外部读者可略）​

被测产品自己的"输出打分细则"（绝对评分层）​

FinBayes 战略 / 决策记录代号​

一、引擎常用词（人人要懂）

二、内部代号（外部读者可略）

被测产品自己的"输出打分细则"（绝对评分层）

FinBayes 战略 / 决策记录代号