跳到主要内容

ADR-001 · 相对双轴方法论(底线 / 及格线)

Context

治理仓既有评测体系是绝对评分(rate A/B/C/D + D1–D11 公式 + MCA 7 桶 + V1/V2/V3 立场维),绑定 FinBayes 认知机制,量"输出本身好不好"。但缺两根相对轴:相对裸底座 LLM 的净增量、相对竞品的相对位。FinTecEval 在引擎蓝图与首个真实三方 run 中验证了这两根轴的方法论。本 ADR 把它正式确立为生态评测的增量层,并定其与绝对层、共享本体的关系。

Decision

  1. 双轴定义
    • 底线轴(存在意义线):被测系统相对其借来的能力底座(通用/第三方专家 LLM)的净增量分维度向量、非标量(某维 ≤0 不整体判死)。
    • 及格线轴(竞争力线):相对竞品在同一场景/意图/连续会话下的相对位,分三层(机制/能力/输出)× 两条件(相同/不同)
  2. 分层关系:相对层消费绝对层——每臂先按同一套绝对标准打分,再两两相减得相对坐标。跨臂可比性投影规则:非结构化臂(裸 LLM/竞品)不产同构字段的维度标"不可观测",相减只在双可观测维成立。
  3. 机制分治、本体合一:绝对层(产品专属)按测量精度演化、相对层(生态横切)按基线/竞品/模型迭代演化;两层共引同一份共享场景本体(见 commons/frameworks/evaluation/shared/)。
  4. 底线是 (场景×底座×时间) 漂移向量:直接产出底座选型/路由策略,并为 FEFM go/no-go 提供候选证据信号(非自动决策,须样本量/置信达标 + owner 复核)。

Rationale

  • 绝对分回答"好不好",相对坐标回答"有没有存在意义 / 有没有竞争力 / 往哪补"——信息量更大,且直接当中间内核进化的适应度函数(对应 ADR-009 §9 / ADR-013)。
  • 增量层而非替代:保留并复用既有绝对 schema,不重造。
  • 首个 run 实证:FinBayes(M0) 底线 split(产品角度正、用户角度负)、相同条件及格线领先——双轴比"过/不过"更早暴露"价值压在纪律层、被表达密度拖累"。

Consequences

  • :可做切片归因(输入维度×结果维度同源)、底座路由信号、FEFM 前置度量;评测从 gate 升为坐标系。
  • 负/成本:需多臂同跑(成本↑);需 judge 防漂移(IAA≥0.7 + 锚点集)+ 最小样本量护栏,否则把战略框架误固化成未校准标准。
  • 下游:FinTecEval harness 实现(coordinates.py 等);本方法论的工程实现仓在 FinTecEval,治理仓持有此 ADR + 共享本体 + case-schema。

关系

  • 深挖与实现:FinTecEval methodology/evaluation-engine-blueprint.md(经 Claude+Codex 双评审)+ methodology/capability-coordinate-framework.md
  • 绝对层 SSOT:projects/finbayes/engineering/engineering-packs/eval-harness-formulas.md(D1–D11)+ projects/finbayes/engineering/subsystems/eval-harness.md(MCA 桶)+ projects/finbayes/engineering/engineering-packs/v-dimension-evaluation.md(V维)。
  • 共享本体:commons/frameworks/evaluation/shared/financial-scenario-ontology.md