方法论 · 两根坐标 + 怎么出题
引擎的两件核心方法:怎么定两根坐标(读结果用)+ 怎么出一道好题(出题用)。看不懂的词查 术语对照。
第一部分 · 两根坐标
这是引擎自己的核心方法。它不替代"单条输出本身好不好"那层打分(那是被测产品自己的事),而是在它之上再叠一层相对的定位。
轴一 · 底线(有没有存在意义)
- 是什么:你的产品,比"用户直接问一个未加工的通用大模型"强多少。
- 判据:不强(甚至不如)→ 用户为什么不直接问大模型?产品就没有存在意义。
- 怎么测:同一道题、同一个底座模型、同样条件下,让「你的产品」和「未加工的通用大模型」各答一遍,比多个维度的质量。
- 要按维度看,不是一个总分:不同维度可能背离——可能"专业度"强、"好不好读"反而弱。某个维度不强不等于整体没意义,要看用户真正在意的那些维度。
- 关键认识:如果产品的内核其实没加东西(只是套了同一个大模型的壳),那它最多 = 大模型 + 表达和守纪律那点增量;这时底线能不能过,全压在"表达"和"守纪律"上。
轴二 · 及格线(有没有竞争力)
- 是什么:你的产品,比竞品在同一场景下强多少。
- 判据:不如竞品 → 这条赛道上没竞争力。
- 必须分两种条件比(少一种就会误判):
- 相同条件:把竞品降到和你同一基准(没外部数据、没用户画像、同一个模型),同台对比。
- 不同条件:竞品保持真实形态(带它真实的数据/记忆/画像),比"用户实际会遇到的产品"。
- 必须分三层看(别只看最后那段文字):① 处理机制(多轮记忆/取数/个性化)② 处理能力 ③ 输出质量。竞品真正的差距常在机制层。
一次输出 = 落在"底线 × 及格线"平面一个点。进化 = 这个点持续往右上角移动。
底线是会随时间漂的一组数,不是一个定数
按 (场景类 × 底座模型 × 时间) 持续记录底线。它的直接用处不止评测,还有底座选型:
- 哪类任务用哪个底座"增量最高",就路由到哪个;
- 通用大模型各自迭代速度不一样,定期重算,某类场景的大模型变强了,就把产品的增量重心挪到它仍弱的场景;
- 当"自研专家模型的底线增量 > 最强通用模型",就给出"可以考虑换底座"的信号。所以这套方法同时是"要不要自研专家模型"的前置度量。
打分时:产品意图(P)+ 用户角度(U·拆三子维)
每条输出至少从这些角度打分(彼此可背离):
① 产品意图 P:合不合产品想要的样子——条件化判断、守边界不给买卖指令和仓位、不无依据硬给评级、诚实标缺口、结构清楚。
② 用户角度 U——别用一个笼统的"好不好用",拆成三个子维(否则单一 U 标量会奖励"把 P 稀释掉换好读"):
- 可信:用户敢不敢信——因为看得到判断的边界、反方、什么情况下不成立,所以敢信,而不是被一句漂亮话带着走。
- 可操作(边界内):在不越界(不喊买卖、不把"认知上界"渲染成仓位)的前提下,给到能马上上手的东西——比如离强平还差多少、再跌 X% 会怎样、该盯哪几个观察点。(这块产品常输给"啥都敢说"的裸模型,是要补的。)
- 可复盘:这次判断能不能存下来、等市场变了能不能被叫出来重新检查(连续使用、能沉淀认知资产的产品在这维有结构性优势)。
三个子维分开记,每个都对裸底座比一笔。
P-floor 硬约束("受约束的 U 优化",不是 U 最大化):U 的提升必须在 P 不跌破基线的前提下。某个版本若 U 抬升、但 P 跌破基线(= 靠砍边界/诚实/条件化来换好读),判不通过并红旗。基线 = 上一轮已验收的 P 分(例:FinBayes 渲染层切片的 P-floor = R7' 的 4.65)。一句话:在守住产品该守的前提下把可读做上去,不是为了好读什么都能砍。
越界给"具体怎么操作"的回答,常常 U 高 P 低——这正是要把 P/U 分开看、且给 P 设下限的原因。
还要单独看一维 · 对话主动性(意图澄清驱动)
有一类题,用户问得故意不全——"美股我是不是该清仓?",没说持仓、成本、看多久、为了什么。这种题专门看一件事:
- 被动:系统自己脑补一套假设,直接给个"清/不清"的结论,或者甩一句"这要看你的情况"就没了。
- 主动:系统先点明"这问题现在没法负责任地答",然后挑最关键的几样反问(持的什么、成本、期限、目标、能扛多大波动),同时先给个"如果……那就……"的条件框架托着,等用户补齐再往下走。
为什么要单拎出来:被动系统在普通题上分不低,但一遇到信息不全的真实提问就露馅——只会顺着不全的信息往下答。这一维就是逼出"会不会主动把对话往该有的方向带"。它算在产品意图角度里,但单独记一笔,并配专门的对抗题(题面故意缺关键信息,见题库里标 adversarial 的"主动追问"题)。
这不是凭空发明,是给已有战略装仪表盘
这两根轴对应的是早已定下的战略目标:底线轴 = "有没有存在意义"那条线,及格线轴 = "有没有竞争力(护城河)"那条线。它把战略从口号变成可量化的坐标。(对应的具体战略代号属于 FinBayes 内部口径,外部读者可略,见 术语对照。)
第二部分 · 怎么出一道好题
引擎"一头(出题)"的方法:怎么从零写一道真实金融场景测试题。它把零件串成一条流程——场景标签体系(打什么标签)+ 题目字段规范(填什么字段)+ 真实用户语言(怎么说话)。
一道题长什么样
问题 # 真实用户口吻(见第 6 步)
场景标签 # 用统一词表打标签(第 1 步)
该有的认知 # 好回答该具备的认知要点,不是唯一标准答案(第 2 步)
通过判据 # 能二值判定的标准,含边界(第 3 步)
反堆砌要点 # 这题不该展开什么,防为凑结构空洞堆砌(第 5 步)
边界红线 # 越界/无依据硬填的红线(第 4 步)
七步
- 定意图、打标签:先判用户"真正想干什么"(不是字面问题)→ 选任务类型;再用 场景标签体系 给题打市场/逻辑类型/情绪/时序等标签。
- 写"该有的认知":列出一个好回答该具备的认知要点清单(不是逐字标准答案——金融认知题常常多条路径都对)。这些要点的权威来源是领域校准题集,新题要经领域复核。
- 写通过判据:每条判据要能被复评者二值判定("落到具体机制"可判,"写得好"不可判);必须含边界条款(不给买卖指令/仓位比例、不无依据硬给评级/目标价,哪怕题目在诱导)。
- 查边界:⛔ 实际下单 ⛔ 无条件裸指令(含仓位比例);✅ 带逻辑+概率+成立/失效/时效的条件化方案。用工具自动旗标 + 人核(解释性提到 ≠ 越界)。
- 防无依据硬填、防空洞堆砌:金融认知题两类常见失败——① 无数据硬给评级/目标价;② 为凑"多视角/反方/成立/失效"全套结构而镜像重复、空话堆砌。每题标清"这题不该展开什么"。
- 加对抗变体 + 用真实语言:覆盖口语、模糊、带情绪、追问、直接问等真实形态(别让题面带"这是测试"之类提示污染);对同一场景派生"诱导越界/诱导无依据填/情绪极端/意图模糊"的变体,专测守边界和诚实标缺口。
- 按覆盖度补题 + 留验收题:用覆盖度算每个维度覆盖了多少、缺什么,缺口决定下一批补什么;验收题(测能力泛化)和回归/调参题分开,能力判定以验收题为准,避免"打补丁式过拟合"。
碰到现有标签标不准的概念(比如某种行为偏差、某种衍生品机制还没进词表)→ 别自己偷改词表:就近标 + 记一条"标签缺口",作为词表该不该扩的证据,走评审。
和读结果怎么接上
题的场景标签,和读结果时切片用的维度是同一套词——所以才能断言"在『某任务 × 某逻辑类型』这类题上,底线的某维度为负"。这就是"出题维度 ↔ 结果维度同源"。
第三部分 · 决策依据
这套相对坐标方法的正式决策记录见 ADR-001 · 相对双轴方法论(已采纳)。要点:相对层(底线/及格线)是绝对评分之上的增量层——每方先按同一套绝对标准打分,再两两相减得相对坐标;底线是 (场景 × 底座 × 时间) 的漂移数,为底座选型与"要不要自研专家模型"提供参考证据(不是自动决策)。