跳到主要内容

评测体系文档收口工作流

由提案 2026-05-31--evaluation-docs-consolidation(已批准)驱动。目标:把散落在 4 个家的评测文档按分层架构确立各层 SSOT 归属 + 补焊接件 + 归档 superseded,使两端(Case Library 头 / 能力坐标尾)可无歧义共引。

charter

  • 不是把所有文件塞进一个文件夹;按"生态横切 vs 产品专属"分层定 SSOT 归属。
  • commons/frameworks/evaluation/ = 生态横切(相对双轴方法论 + 共享场景本体 + case-schema + case 库 + 指针中枢)。
  • projects/finbayes/engineering/ = 产品专属绝对评分器(D1–D11 公式 / MCA 桶 / V 维)留原位,被 commons 显式指向。
  • 与 FinTecEval 引擎蓝图"相对层(生态)消费绝对层(产品专属)"分层一致。

阶段

阶段内容状态
P0 提案inbox 提案 + owner 批准✅ 2026-05-31
P1 焊接件落位共享场景本体升进 evaluation/shared/(从 FinTecEval 提升)✅ 本轮
P2 分层指针shared/finbayes/root README 加各层 SSOT 指针 + 相对坐标方法论 ADR✅ 本轮
P3 空壳审计逐文件量化核验(见下表)✅ 本轮
P3b 交叉指针补全finclaw→finbayes 下游 + 共享本体;methodology 第三方评测法→评测框架✅ 本轮
P4 多 Agent R1 评审Claude 评 P1/P2(../../../proposals/accepted/2026/...review 思路)+ Codex 评全量(P4-codex-review.md);两轮均无 P0,P1 已逐条修订✅ 本轮
P5 合入收尾更新各 README 指针 + verify:kb 全绿 + 提案已在 accepted✅ 本轮

P3 空壳审计结论(精确量化,纠正提案 §2 不精确处)

目录README非README数据文件结论
finclaw/cases9.2KB0README 丰富(spec),缺真实 YAML 数据——属 finclaw 评测数据生成,非文档收口范围
finclaw/runs1.3KB0占位 README,待真实 run 数据(同上,非收口范围)
finclaw/reports1.6KB1有真实报告,非空
finclaw/seeds4.1KB1(含子目录 market-cognition-snapshot/prompt-template.md;顶层仅 README)有模板,非空
future/0.5KB0有意占位(预留命名空间),保持
shared/2已落本体(本轮)

无真正需"填充"的空壳;唯一缺口是 finclaw cases/runs 的真实数据文件,属独立的评测数据生成工作,不在文档收口工作流内。故 P3 实际动作 = 补两条缺失交叉指针(P3b),非填壳。

诚实修正(执行中发现)

  • 提案 §2 据早期 Explore inventory 称 finclaw/{cases,runs,reports,seeds} 多为空壳——实测 cases/README.md 内容丰富、非空壳finbayes/README §3 已声明 FinClaw 上游关系。故本轮只执行高置信纯附加项(焊接件 + 指针 + ADR),空壳填充/去重声明降级到 P3 逐文件核验后再做。

边界

  • 纯附加、零删除;superseded 走 status: deprecated + Replaced-by:,保留 ≥30 天(change-protocol §5)。
  • Agent 执行需经人评审;本工作流由 owner 已批准的提案授权。
  • L2 分级说明(应 P4 Codex 评审补强):本收口的实质 SSOT 变更落在 commons/frameworks/evaluation/(commons 修订 + 方法论从项目升 commons,change-protocol §1.1 默认 ≥L2)。governance/workstreams/evaluation-consolidation/ 的创建属操作性工作区(与既有 finbayes-arch-rewrite 等同类),非 §1 L4 所指的"治理协议(governance protocol)变更";其内 ADR-001 为 workstream-scoped(非 governance/decisions/ 全局协议 ADR)。未触及 ecosystem/ 对象定义,故不升 L3/L4。若后续深度轮需动 ecosystem 对象口径,就地升级重走。