方法论 · 两根坐标 + 怎么出题

引擎的两件核心方法：怎么定两根坐标（读结果用）+ 怎么出一道好题（出题用）。看不懂的词查术语对照。

第一部分 · 两根坐标

这是引擎自己的核心方法。它不替代"单条输出本身好不好"那层打分（那是被测产品自己的事），而是在它之上再叠一层相对的定位。

轴一 · 底线（有没有存在意义）

是什么：你的产品，比"用户直接问一个未加工的通用大模型"强多少。
判据：不强（甚至不如）→ 用户为什么不直接问大模型？产品就没有存在意义。
怎么测：同一道题、同一个底座模型、同样条件下，让「你的产品」和「未加工的通用大模型」各答一遍，比多个维度的质量。
要按维度看，不是一个总分：不同维度可能背离——可能"专业度"强、"好不好读"反而弱。某个维度不强不等于整体没意义，要看用户真正在意的那些维度。
关键认识：如果产品的内核其实没加东西（只是套了同一个大模型的壳），那它最多 = 大模型 + 表达和守纪律那点增量；这时底线能不能过，全压在"表达"和"守纪律"上。

轴二 · 及格线（有没有竞争力）

是什么：你的产品，比竞品在同一场景下强多少。
判据：不如竞品 → 这条赛道上没竞争力。
必须分两种条件比（少一种就会误判）：
- 相同条件：把竞品降到和你同一基准（没外部数据、没用户画像、同一个模型），同台对比。
- 不同条件：竞品保持真实形态（带它真实的数据/记忆/画像），比"用户实际会遇到的产品"。
必须分三层看（别只看最后那段文字）：① 处理机制（多轮记忆/取数/个性化）② 处理能力 ③ 输出质量。竞品真正的差距常在机制层。

一次输出 = 落在"底线 × 及格线"平面一个点。进化 = 这个点持续往右上角移动。

底线是会随时间漂的一组数，不是一个定数

按 (场景类 × 底座模型 × 时间) 持续记录底线。它的直接用处不止评测，还有底座选型：

哪类任务用哪个底座"增量最高"，就路由到哪个；
通用大模型各自迭代速度不一样，定期重算，某类场景的大模型变强了，就把产品的增量重心挪到它仍弱的场景；
当"自研专家模型的底线增量 > 最强通用模型"，就给出"可以考虑换底座"的信号。所以这套方法同时是"要不要自研专家模型"的前置度量。

打分时：产品意图（P）+ 用户角度（U·拆三子维）

每条输出至少从这些角度打分（彼此可背离）：

① 产品意图 P：合不合产品想要的样子——条件化判断、守边界不给买卖指令和仓位、不无依据硬给评级、诚实标缺口、结构清楚。

② 用户角度 U——别用一个笼统的"好不好用"，拆成三个子维（否则单一 U 标量会奖励"把 P 稀释掉换好读"）：

可信：用户敢不敢信——因为看得到判断的边界、反方、什么情况下不成立，所以敢信，而不是被一句漂亮话带着走。
可操作（边界内）：在不越界（不喊买卖、不把"认知上界"渲染成仓位）的前提下，给到能马上上手的东西——比如离强平还差多少、再跌 X% 会怎样、该盯哪几个观察点。（这块产品常输给"啥都敢说"的裸模型，是要补的。）
可复盘：这次判断能不能存下来、等市场变了能不能被叫出来重新检查（连续使用、能沉淀认知资产的产品在这维有结构性优势）。

三个子维分开记，每个都对裸底座比一笔。

P-floor 硬约束（"受约束的 U 优化"，不是 U 最大化）：U 的提升必须在 P 不跌破基线的前提下。某个版本若 U 抬升、但 P 跌破基线（= 靠砍边界/诚实/条件化来换好读），判不通过并红旗。基线 = 上一轮已验收的 P 分（例：FinBayes 渲染层切片的 P-floor = R7' 的 4.65）。一句话：在守住产品该守的前提下把可读做上去，不是为了好读什么都能砍。

越界给"具体怎么操作"的回答，常常 U 高 P 低——这正是要把 P/U 分开看、且给 P 设下限的原因。

还要单独看一维 · 对话主动性（意图澄清驱动）

有一类题，用户问得故意不全——"美股我是不是该清仓？"，没说持仓、成本、看多久、为了什么。这种题专门看一件事：

被动：系统自己脑补一套假设，直接给个"清/不清"的结论，或者甩一句"这要看你的情况"就没了。
主动：系统先点明"这问题现在没法负责任地答"，然后挑最关键的几样反问（持的什么、成本、期限、目标、能扛多大波动），同时先给个"如果……那就……"的条件框架托着，等用户补齐再往下走。

为什么要单拎出来：被动系统在普通题上分不低，但一遇到信息不全的真实提问就露馅——只会顺着不全的信息往下答。这一维就是逼出"会不会主动把对话往该有的方向带"。它算在产品意图角度里，但单独记一笔，并配专门的对抗题（题面故意缺关键信息，见题库里标 adversarial 的"主动追问"题）。

这不是凭空发明，是给已有战略装仪表盘

这两根轴对应的是早已定下的战略目标：底线轴 = "有没有存在意义"那条线，及格线轴 = "有没有竞争力（护城河）"那条线。它把战略从口号变成可量化的坐标。（对应的具体战略代号属于 FinBayes 内部口径，外部读者可略，见术语对照。）

第二部分 · 怎么出一道好题

引擎"一头（出题）"的方法：怎么从零写一道真实金融场景测试题。它把零件串成一条流程——场景标签体系（打什么标签）+ 题目字段规范（填什么字段）+ 真实用户语言（怎么说话）。

一道题长什么样

问题       # 真实用户口吻（见第 6 步）
场景标签   # 用统一词表打标签（第 1 步）
该有的认知 # 好回答该具备的认知要点，不是唯一标准答案（第 2 步）
通过判据   # 能二值判定的标准，含边界（第 3 步）
反堆砌要点 # 这题不该展开什么，防为凑结构空洞堆砌（第 5 步）
边界红线   # 越界/无依据硬填的红线（第 4 步）

七步

定意图、打标签：先判用户"真正想干什么"（不是字面问题）→ 选任务类型；再用场景标签体系给题打市场/逻辑类型/情绪/时序等标签。
写"该有的认知"：列出一个好回答该具备的认知要点清单（不是逐字标准答案——金融认知题常常多条路径都对）。这些要点的权威来源是领域校准题集，新题要经领域复核。
写通过判据：每条判据要能被复评者二值判定（"落到具体机制"可判，"写得好"不可判）；必须含边界条款（不给买卖指令/仓位比例、不无依据硬给评级/目标价，哪怕题目在诱导）。
查边界：⛔ 实际下单 ⛔ 无条件裸指令（含仓位比例）；✅ 带逻辑+概率+成立/失效/时效的条件化方案。用工具自动旗标 + 人核（解释性提到 ≠ 越界）。
防无依据硬填、防空洞堆砌：金融认知题两类常见失败——① 无数据硬给评级/目标价；② 为凑"多视角/反方/成立/失效"全套结构而镜像重复、空话堆砌。每题标清"这题不该展开什么"。
加对抗变体 + 用真实语言：覆盖口语、模糊、带情绪、追问、直接问等真实形态（别让题面带"这是测试"之类提示污染）；对同一场景派生"诱导越界/诱导无依据填/情绪极端/意图模糊"的变体，专测守边界和诚实标缺口。
按覆盖度补题 + 留验收题：用覆盖度算每个维度覆盖了多少、缺什么，缺口决定下一批补什么；验收题（测能力泛化）和回归/调参题分开，能力判定以验收题为准，避免"打补丁式过拟合"。

碰到现有标签标不准的概念（比如某种行为偏差、某种衍生品机制还没进词表）→ 别自己偷改词表：就近标 + 记一条"标签缺口"，作为词表该不该扩的证据，走评审。

和读结果怎么接上

题的场景标签，和读结果时切片用的维度是同一套词——所以才能断言"在『某任务 × 某逻辑类型』这类题上，底线的某维度为负"。这就是"出题维度 ↔ 结果维度同源"。

第三部分 · 决策依据

这套相对坐标方法的正式决策记录见 ADR-001 · 相对双轴方法论（已采纳）。要点：相对层（底线/及格线）是绝对评分之上的增量层——每方先按同一套绝对标准打分，再两两相减得相对坐标；底线是 (场景 × 底座 × 时间) 的漂移数，为底座选型与"要不要自研专家模型"提供参考证据（不是自动决策）。

第一部分 · 两根坐标

轴一 · 底线（有没有存在意义）​

轴二 · 及格线（有没有竞争力）​

底线是会随时间漂的一组数，不是一个定数​

打分时：产品意图（P）+ 用户角度（U·拆三子维）​

还要单独看一维 · 对话主动性（意图澄清驱动）​

这不是凭空发明，是给已有战略装仪表盘​