跳到主要内容

评测体系散落文档收口重构

1. 目标(一句话)

评测相关文档现散落在 4 个家、含重复与空壳;本提案确立各层单一事实源(SSOT)归属、补焊接件、归档 superseded,使生态评测资产可被两端(Case Library 头 / 能力坐标尾)无歧义共引。不是把所有文件塞进一个文件夹,而是按分层架构归位。

2. 现状盘点:4 个家 + 重复 + 空壳

内容问题
commons/frameworks/evaluation/case-schema + finclaw/finbayes case-library + 空 shared/ future/shared/ 空(焊接件缺位);finclaw/{cases,runs,reports,seeds} 多为空壳 README
governance/workstreams/finbayes-cognition-system-research/Phase 4 = 11 维 D1–D11 评测体系定义 + ADR-007 补遗(8 机制/MCA/S1)+ Phase2 case 草稿评测体系定义埋在 workstream(working 区),非稳定 SSOT 位置
projects/finbayes/engineering/eval-harness.md(子系统)+ eval-harness-formulas.md(D1–D11 公式 SSOT)+ v-dimension-evaluation.md(V维)指标计算 SSOT 在产品工程仓——正确,但 commons 未交叉链接,外部找不到
commons/methodology/ + commons/references/第三方评测法 + 认知研究简报(7维/6支柱)位置正确,但与上面三家无显式 SSOT 指针

重复簇:finclaw(成熟 v1.1) ↔ finbayes(草稿) case-library 概念重叠(意图分层,非冗余,但缺显式"上游/下游"声明)。 空壳evaluation/{shared,future}/README.mdfinclaw/{cases,runs,reports,seeds}/README.md

3. 收口论点(按分层架构 + where-to-put-content 决策树)

SSOT 应归属理由(where-to-put-content)
生态横切:相对双轴方法论 + 共享场景本体 + case-schemacommons/frameworks/evaluation/(含填充 shared/Q3 跨项目可复用 → commons/frameworks
产品专属:绝对评分器(D1–D11 公式 / MCA 桶 / V维) projects/finbayes/engineering/(不上移)Q2 某项目自己的 → projects/;FinBayes 专属,非跨项目
第三方评测法 commons/methodology/已正确
认知研究简报(学界 7维/6支柱) commons/references/Q3 references 桶,已正确
认知体系研究 workstream working 区;稳定产出(11维定义)升格指针到 finbayes 评测命名空间workstream = 过程;SSOT = 产出位

→ 收口 = commons/evaluation 做"生态横切 + 焊接件 + 指针中枢",产品专属绝对层留在产品工程仓并被 commons 显式指向。这与 FinTecEval 引擎蓝图的"相对层(生态)消费绝对层(产品专属)"分层一致。

4. 迁移映射(current → target → action)

当前目标动作
FinTecEval ontology/financial-scenario-ontology.md+.jsoncommons/frameworks/evaluation/shared/scenario-ontology.*新增(填空 shared/,焊接件落位)
FinTecEval 双轴方法论(blueprint §2 + capability-coordinate-framework)commons/frameworks/evaluation/ + 新 ADR新增方法论 ADR(相对坐标层)
eval-harness-formulas.md / eval-harness.md / v-dimension-evaluation.md原位不动加交叉指针:commons/evaluation/finbayes/ 显式声明"绝对评分 SSOT 在此"
Phase 4 评测体系定义(workstream drafts)finbayes 评测命名空间加"已稳定→指向产品工程公式表"指针加指针,workstream 留作审计
空壳 finclaw/{cases,runs,reports,seeds}同位填充或标注(有真实产物的填,纯占位的加"待填+触发条件")
finclaw ↔ finbayes case-library 重叠同位加显式上下游声明(finclaw=上游成熟、finbayes=下游吸收)
_archive/ 内 v1 baseline-evaluation 等同位保持归档(已正确,superseded 不删)

5. 执行方式(doc-rewrite playbook + workstream)

建议起 workstream governance/workstreams/evaluation-consolidation/,按 commons/playbooks/document-workflows-meta-playbook.md:跨文档对齐操作(§3)+ 范式3 多 Agent 评审(一致性/上位对齐/工程可承接)。分阶段:① 本提案获批 → ② 建 workstream + 迁移映射定稿 → ③ 分批执行(先填 shared/ 本体、再加指针、再处理空壳、最后 dedup 声明)→ ④ 多 Agent R1 评审 → ⑤ 合入 + 更新各 README 指针。

6. 变更级别与边界

  • 级别 L2:主体是 commons 评测资产修订 + 方法论从 FinTecEval 升 commons(§1.1 默认 ≥L2)。不触发 ecosystem 对象定义变化(不改对象口径/接口契约),故非 L3。若执行中发现需动 ecosystem/,就地升级重走。
  • Agent 边界:本提案由 agent:finteceval 发起,不自行合并(change-protocol §3)。所有文件移动/重写在审批后的 workstream 内、经人 review 进行。
  • 不破坏 SSOT:superseded 一律 status: deprecated + Replaced-by: 指针、保留 ≥30 天再议删除(§5);本提案零删除。
  • 回写位置:过程性结论回写本提案 + workstream status;最终 SSOT 落 commons/frameworks/evaluation/ 各文件头。

7. 请评审决定

请 reviewer 在同目录追加 2026-05-31--evaluation-docs-consolidation.review.md(approve / changes-requested / reject)。接受后由提案方在审批后的 workstream 内执行迁移,并把本文件移入 accepted/2026/