跳到主要内容

术语对照(看不懂的词查这里)

读引擎主线文档时碰到的词,这里用一句大白话解释。正文尽量不用黑话;偶尔出现的,查这张表即可。下半部"内部代号"是被测产品(FinBayes)或我们工程过程的代号——读懂引擎不需要它们,外部读者可直接略过

一、引擎常用词(人人要懂)

一句话意思
底线你的产品比"用户直接问一个未加工的通用大模型"强多少。强 = 有存在意义;不强 = 没必要做。
及格线你的产品比"竞品"强多少。强 = 有竞争力;不强 = 在这赛道没戏。
被测系统 / 被测产品这次要量的那个产品(如 FinBayes)。引擎把它当黑箱,只看进去什么、出来什么。
对照臂跟被测产品同台比较的对象。两类:未加工的通用大模型(量底线用)、竞品(量及格线用)。
未加工的通用大模型不加任何工程包装、直接拿用户问题去问的通用大模型(如直接问 GPT)。它是"底线"的参照。
题库一批真实金融场景测试题(带场景标签 + 该有的认知要点 + 通过判据)。引擎的"进料口"。
场景标签体系给每道题打标签的一套统一维度词表(市场 / 逻辑类型 / 用户类型…)。让"出了什么题"和"在哪类场景上强弱"用同一套词对得上。
能力坐标 / 坐标报告评测的产出:把一次输出落在"底线 × 及格线"平面一个点,并说清哪类场景强弱、该往哪补。
需求工单想测的人发给评测方的请求单(测什么、用哪批题、跟谁比、要什么结论)。
三种运行模式回归模式(固定输入输出,验工程稳定)/ 降级对照(竞品降到同条件同台裸比)/ 满血模式(各自真实形态,比用户实际会遇到的产品)。
覆盖度题库把场景标签体系的各种取值覆盖了多少、缺哪些 → 决定下一批补什么题。

二、内部代号(外部读者可略)

下列代号来自被测产品 FinBayes 自身,或我们的工程/决策记录。它们是"被测产品自己的事",引擎只是在测它的时候调用一下——你不懂这些也能完全读懂引擎在做什么。

被测产品自己的"输出打分细则"(绝对评分层)

这层量的是"输出本身好不好",标准由被测产品自己定义、放在它自己的工程仓。引擎测某个产品时调用它,但它不是引擎的通用方法。

代号意思
rate A–D单条输出的总评级(A 最好,D 不可用)。
D1–D11FinBayes 自定的 11 个评分维度。
MCA 桶FinBayes 自定的认知分桶打分。
V1–V3FinBayes 自定的"立场/价值"维(如不替用户做决定、认知透明)。
P / U 双角度给一条输出打两个分:P=合不合产品意图,U=对用户有没有用;两者可背离。
IAA多个评审者打分的一致性程度。

FinBayes 战略 / 决策记录代号

代号意思
M0 / M1FinBayes 的里程碑阶段编号。
G0 / G1 / G2FinBayes 的战略目标编号(表达力 / 数据鲁棒 / 护城河)。
L5 / L7 / L8FinBayes 验收的硬度层级(功能 / 价值 / 真人体验)。
ADR-xxx"架构决策记录",FinBayes 工程仓里某条已拍板决策的编号。
FEFM自有金融专家模型(规划中)。引擎可作为"要不要自研它"的前置度量。

想追这些代号的出处,去 FinBayes 工程仓(实现仓),不在本知识库。