评测体系文档收口工作流
由提案
2026-05-31--evaluation-docs-consolidation(已批准)驱动。目标:把散落在 4 个家的评测文档按分层架构确立各层 SSOT 归属 + 补焊接件 + 归档 superseded,使两端(Case Library 头 / 能力坐标尾)可无歧义共引。
charter
- 不是把所有文件塞进一个文件夹;是按"生态横切 vs 产品专属"分层定 SSOT 归属。
commons/frameworks/evaluation/= 生态横切(相对双轴方法论 + 共享场景本体 + case-schema + case 库 + 指针中枢)。projects/finbayes/engineering/= 产品专属绝对评分器(D1–D11 公式 / MCA 桶 / V 维)留原位,被 commons 显式指向。- 与 FinTecEval 引擎蓝图"相对层(生态)消费绝对层(产品专属)"分层一致。
阶段
| 阶段 | 内容 | 状态 |
|---|---|---|
| P0 提案 | inbox 提案 + owner 批准 | ✅ 2026-05-31 |
| P1 焊接件落位 | 共享场景本体升进 evaluation/shared/(从 FinTecEval 提升) | ✅ 本轮 |
| P2 分层指针 | shared/finbayes/root README 加各层 SSOT 指针 + 相对坐标方法论 ADR | ✅ 本轮 |
| P3 空壳审计 | 逐文件量化核验(见下表) | ✅ 本轮 |
| P3b 交叉指针补全 | finclaw→finbayes 下游 + 共享本体;methodology 第三方评测法→评测框架 | ✅ 本轮 |
| P4 多 Agent R1 评审 | Claude 评 P1/P2(../../../proposals/accepted/2026/...review 思路)+ Codex 评全量(P4-codex-review.md);两轮均无 P0,P1 已逐条修订 | ✅ 本轮 |
| P5 合入收尾 | 更新各 README 指针 + verify:kb 全绿 + 提案已在 accepted | ✅ 本轮 |
P3 空壳审计结论(精确量化,纠正提案 §2 不精确处)
| 目录 | README | 非README数据文件 | 结论 |
|---|---|---|---|
| finclaw/cases | 9.2KB | 0 | README 丰富(spec),缺真实 YAML 数据——属 finclaw 评测数据生成,非文档收口范围 |
| finclaw/runs | 1.3KB | 0 | 占位 README,待真实 run 数据(同上,非收口范围) |
| finclaw/reports | 1.6KB | 1 | 有真实报告,非空 |
| finclaw/seeds | 4.1KB | 1(含子目录 market-cognition-snapshot/prompt-template.md;顶层仅 README) | 有模板,非空 |
| future/ | 0.5KB | 0 | 有意占位(预留命名空间),保持 |
| shared/ | — | 2 | 已落本体(本轮) |
→ 无真正需"填充"的空壳;唯一缺口是 finclaw cases/runs 的真实数据文件,属独立的评测数据生成工作,不在文档收口工作流内。故 P3 实际动作 = 补两条缺失交叉指针(P3b),非填壳。
诚实修正(执行中发现)
- 提案 §2 据早期 Explore inventory 称
finclaw/{cases,runs,reports,seeds}多为空壳——实测cases/README.md内容丰富、非空壳;finbayes/README §3已声明 FinClaw 上游关系。故本轮只执行高置信纯附加项(焊接件 + 指针 + ADR),空壳填充/去重声明降级到 P3 逐文件核验后再做。
边界
- 纯附加、零删除;superseded 走
status: deprecated+Replaced-by:,保留 ≥30 天(change-protocol §5)。 - Agent 执行需经人评审;本工作流由 owner 已批准的提案授权。
- L2 分级说明(应 P4 Codex 评审补强):本收口的实质 SSOT 变更落在
commons/frameworks/evaluation/(commons 修订 + 方法论从项目升 commons,change-protocol §1.1 默认 ≥L2)。governance/workstreams/evaluation-consolidation/的创建属操作性工作区(与既有 finbayes-arch-rewrite 等同类),非 §1 L4 所指的"治理协议(governance protocol)变更";其内 ADR-001 为 workstream-scoped(非governance/decisions/全局协议 ADR)。未触及ecosystem/对象定义,故不升 L3/L4。若后续深度轮需动 ecosystem 对象口径,就地升级重走。