跳到主要内容

ADR-015 — M0 验收 gate 从 scalar-U 重定为底线向量 + M0 close

§0 决策简述

决议(两条,捆绑)

  1. M0 验收 gate 重定:从「用户角度 scalar 分 ≥ 裸 gpt-5.5」改为「底线向量在核心决策场景非负(主动性 + 边界安全 + 具象等存在价值维),三条回归线(甜区 / 边界 / 主动性)全绿,零真越界」。U(读者负担)等滞后维,当其根因已确诊为结构/契约级且已排程到下一里程碑时,不阻塞 close
  2. M0 = close:owner L8 终裁 confirm(在新判据下)。残余密度/可读性短板转 横切表达质量项(实现并入 M2 任务类型扩展),带 R5 证据。
  3. 进 M1 build 前先做 R-1 校准(见 §3 R-1):核心决策场景底线读数,验证本 close 的承重假设。

触发:R5 held-out 复测(FinTecEval/runs/2026-05-31-R5/)实证三件事:①E3 具象锚定泛化(C +0.06,真能力)②反假填密度未泛化(D −1.14)③held-out 底线 U −0.69 比 R4 原 10 题 −0.235 更宽 = 实锤 R4 含过拟合。根因经实证 = 2-type 分类法太粗(渲染对所有 task_type 固定铺全套多段、不随任务自适应)→ 非 prompt 可解,是 contract 级。两 judge 决定性一致(IAA U 0.969 / D 0.781)。

§1 为什么 scalar-U 是错的 gate(对一个决策认知层)

  • 底线 = 存在价值,本质是向量commons/frameworks/evaluation/... 与 FinTecEval methodology/capability-coordinate-framework.md 早已把底线定义为分维度向量 + split verdict,不是单标量。把它塌成「scalar U ≥ 裸」是退化。
  • FinBayes 已证的存在价值在向量里:对话主动性 +1.37(断层胜,E0)、零真越界安全优势(裸模型多处仓位/目标价越界)、具象泛化(C 持平/微正)、理论甜区(C7/C9/C10 U=5)。这些是「站在通用底座之上的净增量」。
  • U 的失分集中在非主战场:R5 的失分面是纯概念 Q&A("什么是 PE / price-in / 分散"),这是通用 LLM 的商品能力区,不是金融决策认知层的主战场。用一个非主战场切片的单标量去否决整体存在价值,是错 gate。

§2 新 gate 定义(M0 及前向里程碑通用)

一个里程碑可 close,当且仅当:

  1. 底线向量核心决策场景非负——即在「决策辅助 / 风险识别 / 条件化判断」类任务上,FinBayes 相对裸 LLM 的分维度向量,在构成存在价值的维(主动性 / 边界安全 / 具象 / 纪律结构)上非负,且无单维断层负。
  2. 三回归线全绿:甜区不退、边界零真越界、主动性不塌。
  3. 滞后维有处置:任何低于裸模型的维,其根因已确诊、且已排程到具体后续里程碑 ticket(不得是"未知原因的塌陷")。

§3 诚实风险记录(不粉饰)

  • R-1【✅ 已解除 2026-05-31】核心决策场景底线读数:close 当时证据仅 R4 混合 10 题 + R5 概念题,未直测主战场。R6(FinTecEval/runs/2026-05-31-R6/)补测:8 条全新 held-out 决策题 + 5 回归,真三臂 live。结果 = 底线向量 clear_above_baseline 全维正,决策场 U Δ=+0.19(vs 概念场 −0.69,+0.88 场景反差),FinBayes 在杠杆/加仓/恐慌减仓等最吃紧题零真越界、裸模型多处裸仓位指令。承重假设证实,M0 close 坐实。 同一套结构(成立/失效/主动追问)在概念题是 padding、在决策题是适配脚手架——印证"概念非主战场、密度滞后可接受"。
  • R-2 概念题 scalar U < 裸是已知滞后、非回归:M0 不在该切片宣称胜过裸模型;明确记为结构性天花板 → M1 契约修复。
  • R-3「移动球门」风险:重定 gate 可能被读成降标准达标。→ 缓解:本 ADR 只重定"用什么度量存在价值"(标量→向量),不降低"必须有存在价值"的要求;密度修复未取消,转 M1 带 R5 证据 ticket。

§4 横切表达质量项(本 close 的对价,实现并入 M2)

任务粒度落地(MP-4 任务→字段动态组合 + MP-5 暴露面分层)——本质是横切表达质量项(由 L8 在每个里程碑 gate),实现落点 = M2 任务类型扩展(M2 本就开 task_type 组合机制,与本项捆做一次 MP-4 契约修订最省)。不占用 M1 状态化语义(早先误标"M1 头号 ticket"已更正):

  • explain / concept 类 task_type 只展开必要模块(题眼 + 机制 + 具象例 + 局限),而非全套决策模板(砍对单概念题强制的 multi_perspectives / counter_evidence / 成立 / 失效 镜像段)。
  • 这是 contract 级改动(动 MP-4 signed 契约),须独立 ADR + owner 签。
  • 验收:held-out 概念题 D(密度恰当性)/ U 追平裸 gpt-5.5,且不伤决策类的完整结构。
  • 证据基线FinTecEval/runs/2026-05-31-R5/R5-coordinate-report.md §5②。

§5 M0 期成果封存(close 时的事实快照)

  • 工程仓 FinBayes main 1c4482e:表达层整改 E0(主动追问·task 感知)+ E2(去废话)+ E3(具象锚定 + 反假填密度纪律)合入;73 测试 + ruff 绿。
  • 能力坐标:R4(runs/2026-05-31-R4/)+ R5(runs/2026-05-31-R5/,held-out 主验收 + 双 judge)。
  • 评测框架仓 FinTecEval 立项并产出底线/及格线双轴方法论 + held-out case authoring 方法论 + 共享本体。

§6 关联

  • 一脉相承:ADR-013(Build-Y / 按任务动态组合,反对把动态字段塌成固化全表)——本 ADR 是其在评测 gate 侧的延续。
  • 落地契约:MP-4 任务→字段动态组合MP-5 暴露面分层
  • 证据:FinTecEval runs/2026-05-31-R4/runs/2026-05-31-R5/methodology/capability-coordinate-framework.md
  • 跟进 codify(change-protocol,未在本 ADR):① "主动追问 + 条件化操作方案 ∈ 边界内(仅禁实际执行 + 裸指令)" ② 产品价值观 "体系化认知 > 捷径"。