ADR-015 — M0 验收 gate 从 scalar-U 重定为底线向量 + M0 close

§0 决策简述

决议（两条，捆绑）：

M0 验收 gate 重定：从「用户角度 scalar 分 ≥ 裸 gpt-5.5」改为「底线向量在核心决策场景非负（主动性 + 边界安全 + 具象等存在价值维），三条回归线（甜区 / 边界 / 主动性）全绿，零真越界」。U（读者负担）等滞后维，当其根因已确诊为结构/契约级且已排程到下一里程碑时，不阻塞 close。
M0 = close：owner L8 终裁 confirm（在新判据下）。残余密度/可读性短板转 横切表达质量项（实现并入 M2 任务类型扩展），带 R5 证据。
进 M1 build 前先做 R-1 校准（见 §3 R-1）：核心决策场景底线读数，验证本 close 的承重假设。

触发：R5 held-out 复测（FinTecEval/runs/2026-05-31-R5/）实证三件事：①E3 具象锚定泛化（C +0.06，真能力）②反假填密度未泛化（D −1.14）③held-out 底线 U −0.69 比 R4 原 10 题 −0.235 更宽 = 实锤 R4 含过拟合。根因经实证 = 2-type 分类法太粗（渲染对所有 task_type 固定铺全套多段、不随任务自适应）→ 非 prompt 可解，是 contract 级。两 judge 决定性一致（IAA U 0.969 / D 0.781）。

§1 为什么 scalar-U 是错的 gate（对一个决策认知层）

底线 = 存在价值，本质是向量：commons/frameworks/evaluation/... 与 FinTecEval methodology/capability-coordinate-framework.md 早已把底线定义为分维度向量 + split verdict，不是单标量。把它塌成「scalar U ≥ 裸」是退化。
FinBayes 已证的存在价值在向量里：对话主动性 +1.37（断层胜，E0）、零真越界安全优势（裸模型多处仓位/目标价越界）、具象泛化（C 持平/微正）、理论甜区（C7/C9/C10 U=5）。这些是「站在通用底座之上的净增量」。
U 的失分集中在非主战场：R5 的失分面是纯概念 Q&A（"什么是 PE / price-in / 分散"），这是通用 LLM 的商品能力区，不是金融决策认知层的主战场。用一个非主战场切片的单标量去否决整体存在价值，是错 gate。

§2 新 gate 定义（M0 及前向里程碑通用）

一个里程碑可 close，当且仅当：

底线向量在核心决策场景非负——即在「决策辅助 / 风险识别 / 条件化判断」类任务上，FinBayes 相对裸 LLM 的分维度向量，在构成存在价值的维（主动性 / 边界安全 / 具象 / 纪律结构）上非负，且无单维断层负。
三回归线全绿：甜区不退、边界零真越界、主动性不塌。
滞后维有处置：任何低于裸模型的维，其根因已确诊、且已排程到具体后续里程碑 ticket（不得是"未知原因的塌陷"）。

§3 诚实风险记录（不粉饰）

R-1【✅ 已解除 2026-05-31】核心决策场景底线读数：close 当时证据仅 R4 混合 10 题 + R5 概念题，未直测主战场。R6（FinTecEval/runs/2026-05-31-R6/）补测：8 条全新 held-out 决策题 + 5 回归，真三臂 live。结果 = 底线向量 clear_above_baseline 全维正，决策场 U Δ=+0.19（vs 概念场 −0.69，+0.88 场景反差），FinBayes 在杠杆/加仓/恐慌减仓等最吃紧题零真越界、裸模型多处裸仓位指令。承重假设证实，M0 close 坐实。 同一套结构（成立/失效/主动追问）在概念题是 padding、在决策题是适配脚手架——印证"概念非主战场、密度滞后可接受"。
R-2 概念题 scalar U < 裸是已知滞后、非回归：M0 不在该切片宣称胜过裸模型；明确记为结构性天花板 → M1 契约修复。
R-3「移动球门」风险：重定 gate 可能被读成降标准达标。→ 缓解：本 ADR 只重定"用什么度量存在价值"（标量→向量），不降低"必须有存在价值"的要求；密度修复未取消，转 M1 带 R5 证据 ticket。

§4 横切表达质量项（本 close 的对价，实现并入 M2）

任务粒度落地（MP-4 任务→字段动态组合 + MP-5 暴露面分层）——本质是横切表达质量项（由 L8 在每个里程碑 gate），实现落点 = M2 任务类型扩展（M2 本就开 task_type 组合机制，与本项捆做一次 MP-4 契约修订最省）。不占用 M1 状态化语义（早先误标"M1 头号 ticket"已更正）：

让 explain / concept 类 task_type 只展开必要模块（题眼 + 机制 + 具象例 + 局限），而非全套决策模板（砍对单概念题强制的 multi_perspectives / counter_evidence / 成立 / 失效镜像段）。
这是 contract 级改动（动 MP-4 signed 契约），须独立 ADR + owner 签。
验收：held-out 概念题 D（密度恰当性）/ U 追平裸 gpt-5.5，且不伤决策类的完整结构。
证据基线：FinTecEval/runs/2026-05-31-R5/R5-coordinate-report.md §5②。

§5 M0 期成果封存（close 时的事实快照）

工程仓 FinBayes main 1c4482e：表达层整改 E0（主动追问·task 感知）+ E2（去废话）+ E3（具象锚定 + 反假填密度纪律）合入；73 测试 + ruff 绿。
能力坐标：R4（runs/2026-05-31-R4/）+ R5（runs/2026-05-31-R5/，held-out 主验收 + 双 judge）。
评测框架仓 FinTecEval 立项并产出底线/及格线双轴方法论 + held-out case authoring 方法论 + 共享本体。

§6 关联

一脉相承：ADR-013（Build-Y / 按任务动态组合，反对把动态字段塌成固化全表）——本 ADR 是其在评测 gate 侧的延续。
落地契约：MP-4 任务→字段动态组合、MP-5 暴露面分层。
证据：FinTecEval runs/2026-05-31-R4/、runs/2026-05-31-R5/、methodology/capability-coordinate-framework.md。
跟进 codify（change-protocol，未在本 ADR）：① "主动追问 + 条件化操作方案 ∈ 边界内（仅禁实际执行 + 裸指令）" ② 产品价值观 "体系化认知 > 捷径"。

§0 决策简述​

§1 为什么 scalar-U 是错的 gate（对一个决策认知层）​

§2 新 gate 定义（M0 及前向里程碑通用）​

§3 诚实风险记录（不粉饰）​

§4 横切表达质量项（本 close 的对价，实现并入 M2）​

§5 M0 期成果封存（close 时的事实快照）​

§6 关联​