术语对照(看不懂的词查这里)
读引擎主线文档时碰到的词,这里用一句大白话解释。正文尽量不用黑话;偶尔出现的,查这张表即可。下半部"内部代号"是被测产品(FinBayes)或我们工程过程的代号——读懂引擎不需要它们,外部读者可直接略过。
一、引擎常用词(人人要懂)
| 词 | 一句话意思 |
|---|---|
| 底线 | 你的产品比"用户直接问一个未加工的通用大模型"强多少。强 = 有存在意义;不强 = 没必要做。 |
| 及格线 | 你的产品比"竞品"强多少。强 = 有竞争力;不强 = 在这赛道没戏。 |
| 被测系统 / 被测产品 | 这次要量的那个产品(如 FinBayes)。引擎把它当黑箱,只看进去什么、出来什么。 |
| 对照臂 | 跟被测产品同台比较的对象。两类:未加工的通用大模型(量底线用)、竞品(量及格线用)。 |
| 未加工的通用大模型 | 不加任何工程包装、直接拿用户问题去问的通用大模型(如直接问 GPT)。它是"底线"的参照。 |
| 题库 | 一批真实金融场景测试题(带场景标签 + 该有的认知要点 + 通过判据)。引擎的"进料口"。 |
| 场景标签体系 | 给每道题打标签的一套统一维度词表(市场 / 逻辑类型 / 用户类型…)。让"出了什么题"和"在哪类场景上强弱"用同一套词对得上。 |
| 能力坐标 / 坐标报告 | 评测的产出:把一次输出落在"底线 × 及格线"平面一个点,并说清哪类场景强弱、该往哪补。 |
| 需求工单 | 想测的人发给评测方的请求单(测什么、用哪批题、跟谁比、要什么结论)。 |
| 三种运行模式 | 回归模式(固定输入输出,验工程稳定)/ 降级对照(竞品降到同条件同台裸比)/ 满血模式(各自真实形态,比用户实际会遇到的产品)。 |
| 覆盖度 | 题库把场景标签体系的各种取值覆盖了多少、缺哪些 → 决定下一批补什么题。 |
二、内部代号(外部读者可略)
下列代号来自被测产品 FinBayes 自身,或我们的工程/决策记录。它们是"被测产品自己的事",引擎只是在测它的时候调用一下——你不懂这些也能完全读懂引擎在做什么。
被测产品自己的"输出打分细则"(绝对评分层)
这层量的是"输出本身好不好",标准由被测产品自己定义、放在它自己的工程仓。引擎测某个产品时调用它,但它不是引擎的通用方法。
| 代号 | 意思 |
|---|---|
| rate A–D | 单条输出的总评级(A 最好,D 不可用)。 |
| D1–D11 | FinBayes 自定的 11 个评分维度。 |
| MCA 桶 | FinBayes 自定的认知分桶打分。 |
| V1–V3 | FinBayes 自定的"立场/价值"维(如不替用户做决定、认知透明)。 |
| P / U 双角度 | 给一条输出打两个分:P=合不合产品意图,U=对用户有没有用;两者可背离。 |
| IAA | 多个评审者打分的一致性程度。 |
FinBayes 战略 / 决策记录代号
| 代号 | 意思 |
|---|---|
| M0 / M1 | FinBayes 的里程碑阶段编号。 |
| G0 / G1 / G2 | FinBayes 的战略目标编号(表达力 / 数据鲁棒 / 护城河)。 |
| L5 / L7 / L8 | FinBayes 验收的硬度层级(功能 / 价值 / 真人体验)。 |
| ADR-xxx | "架构决策记录",FinBayes 工程仓里某条已拍板决策的编号。 |
| FEFM | 自有金融专家模型(规划中)。引擎可作为"要不要自研它"的前置度量。 |
想追这些代号的出处,去 FinBayes 工程仓(实现仓),不在本知识库。