Phase 6 · R-C 评测专家视角 review

立场：模拟具备 LLM 评测系统、学术 benchmark 设计、AB 实验经验的评测专家。仅评 Phase 4 评测体系是否可执行、是否能区分能力、是否可被 game，以及 Phase 5 治理机制对评测产物的回路是否有效。不评金融方法论（留 R-A），不评工程实现（留 R-B）。

一、总体判定

结论：需补强后方可 formalize。Phase 4 7 维度的"主映射机制 + MCA 分桶"架构在 benchmark 设计的"覆盖维度"与"上下文敏感"两项上确实超出业内 3 框架的简单复用，原创性可识别；但指标公式的操作化、标答可靠性来源、gaming 防御、桶间样本平衡、治理门槛五项均存在实质缺陷，直接进入 T0+3 月季度评测会出现"分数虚高但能力未验证"的退化风险。R-C 主张：在 T0 之前必须补 §3-§5 列出的 3 项硬缺陷与 5 项软缺陷。

二、7 维度可执行性逐项审查

D1 本体识别（🔴 + 🟡）

🔴 "M1.3 定性属性字段命中率"分母不闭合——六字段（持有人结构 / 商业模式 / 通用战略 / 实体经济网络节点 / 政策反应函数 / 数据可得性等级）中至少三项（商业模式 / 通用战略 / 政策反应函数）本质是开放式分类，专家之间一致性会显著低于 0.7（同一公司既可贴"成本领先"也可贴"差异化"）。没有 inter-annotator agreement（IAA）的 kappa 门槛，分母里的"应填字段数"不是客观量。

🟡 综合 D1 公式给的权重 0.3 / 0.3 / 0.4 缺乏论证依据，等价于专家直觉。建议改为基于评测 case 难度方差做权重学习，或者明示"v1 凭直觉，T0+6 月重校准"作为审计入口。

🟢 跨市场映射边权重 ×1.5 的因子完全没有出处，是稀缺性的代理但没说稀缺到什么程度。

D2 信源对齐（🔴 + 🟡）

🔴 政策语义解码 4 字段命中率：4 字段（措辞跃迁 / 同台规格 / 时点罕见性 / 对手方目标函数）本身就是 Phase 3 T2 N3 桶下激活的子机制，把"激活"本身当指标即"对自己定义打分"，循环论证。

🟡 Spearman 排序与 Pearson 相关在小样本（每桶 20）下都不稳定，置信区间会跨过 0。指标公式应附"最小样本量"与"显著性门槛"。

D3 跨时钟相位（🔴）

🔴 "相位等级离散化后 MAE"是把连续相位强制压成 1-5 档，离散化粒度本身未定义。同一基准下两个评测员把"产业 mature 中段"打 3 档还是 4 档差异不可控。这是 D3 的核心瑕疵。

🟡 7 类时钟槽位（M3.t1-t7）的并行评估会带来组合爆炸：单 case 至少 7 个标签题，难以做到每桶 20 case × 7 标签的人工 IAA 复审。

D4 场景与传导链路（🔴）

🔴 GED（Graph Edit Distance）作为指标在工程上 NP-hard，对大图（M5 链路常 ≥ 15 节点 + 30 边）评测延迟可达分钟级；更关键的是 GED 没有标准化，max_GED 的取法直接决定分数尺度，不同基准图取法不同会让跨桶比较失真。建议改用 Tree Edit Distance 或仅评"节点子集 F1 + 边子集 F1 + shared-book 形态 4 选 1"三项独立分量。

🟡 反向力量召回率的分母"真实反向力量总数"是事后人工标注，专家之间会出现"漏标 vs 体系漏识别"难以区分的混淆。

D5 金融规律应用（🟡 + 🟢）

🟡 估值 MAPE 反向作为综合分数项 — 当估值标答本身是 Damodaran 7 步骤的人工产物时，MAPE 实际是在测"是否复现专家 DCF 参数选择"，而非"是否懂估值"。这是 FinEval CoT 推理评测的常见陷阱，Phase 4 没显式规避。

🟢 "适用性三态准确率"附"避免全标 not-applicable 偷分"提到混淆矩阵+假阳性率，是 Phase 4 文中唯一显式提到的防 gaming 设计，建议作为模板推广到其余维度。

D6 偏差识别（🔴 + 🟡）

🔴 20 项 Kahneman 偏差多标签 F1 — 20 类多标签问题里，体系"机械列偏差清单"（即每个 case 都打满 20 标签的 1/4）会通过随机猜测得到 recall ~ 0.5、precision ~ 0.05 的组合，但若标答稀疏（平均 3 标签）则机械列清单的 F1 反而接近 0.2，并未爆刷；真正的 gaming 路径是只标安全偏差（损失厌恶 / 锚定 / 代表性这三项触发频次最高），稳拿 70% 命中。无防御。

🟡 双峰后验形态正确率的"双峰权重合理区间"由人工判定，是 Phase 4 自陈的人工评分项，缺一致性测试。建议引入"两位专家独立给区间，重叠率 ≥ 0.8 才计入"门槛。

D7 S1 一致性（🔴）

🔴 "叙事-数字耦合方向"的标答——S1 是 Phase 3 T3 新立的横切子流程，没有任何 case 之外的独立 ground truth；Phase 4 用 14 case 自带的事后标注作为基准，等于"自己给自己出题、自己批改"。这种自指评测在 LLM benchmark 里属于经典 contamination。

🟡 模式 b（源端缺失）样本必须来自跨市场翻译 case，但 14 case 中仅 A-4 单 case 触发，单 case 不构成评测分布。

三、Gaming 风险与防御缺口（必读）

R-C 总结评测可被刷分的 6 条路径：

D1 穷举本体：实体识别 F1 在多标签题里给体系全标会刷高 recall 拉爬 F1。缺防御。建议引入"无关实体扣分"项。
D2 形式化引用占位：体系输出"参考 SEC 文件 / IEA 报告"占位字符串，分母里政策语义 4 字段会蒙对 1-2 项。缺防御。建议加"引用必须含可验证 URL + 时间戳 + 关键字段抽取"。
D5 按指标教学：训练或 prompt 调到"凡是 meme / 主题股一律 not-applicable"，D5 适用性三态准确率会刷到 0.7+。✅ Phase 4 已识别此项并加假阳性率防御，是亮点。
D6 机械列偏差：上述只标 top-3 高频偏差刷 70%。缺防御。建议改为加权多标签（高频偏差权重 ×0.5，低频偏差权重 ×2），强制覆盖长尾。
D7 固定模板：S1 三模式中"远期外推"在 14 case 中触发频次最高（C1/C5/C6/C8/A-2），体系默认输出"远期外推"就稳拿模式 b 之外的命中。缺防御。
MCA 桶位归类：把 case 强归类到"L1+D1+F1+N1+C1+I1"基线桶，跳过 N3 / I3 桶下激活的子机制评测从而避免被扣分。缺防御。建议 MCA 桶位标签由评测系统强制下发，不由被测体系自报。

四、MCA 7 桶设计的评测合理性

🔴 桶间样本极不均衡：B1（发达机构基线）能从 C1/C7/C8 直接搬来，B7（EM 主权 / 货币危机扩展）目前 14 case 中零样本，全部依赖 L2/L3/L7 扩展。Phase 4 §3 给"每桶 20 case 起步"的目标，B7 桶要补 20 case 即等于补完 Phase 2 L1-L8 全部高优先级 case，工作量与时间表不匹配。

🔴 桶内同质性未论证：B5（A 股散户急性）把 A-1 + A-3 合并，但 A-1（政策点火）与 A-3（场外配资踩踏）的反身性触发机制差异显著，"同桶可比"的前提不成立。建议 v1 把 B5 拆 B5a / B5b。

🟡 桶间归一化用"桶内百分位"是合理的，但 Phase 4 未给出"百分位计算所需的最小样本量"——典型 percentile 需要 ≥ 30 样本才稳定，每桶 20 样本会让百分位带宽 ±5%，跨桶比较仍噪声大。

🟡 跨桶 MCA 漂移监测"每年一次"频率偏低。A 股衍生品成熟度从 D3 → D2 是 3-5 年尺度的事件，1 年一次校准会错过"桶定义本身变化"的中间过程。建议每半年一次。

五、评测样本管理

🔴 开发集 / 测试集划分缺失——Phase 4 §3 全文未区分"用于 prompt 调优的开发样本"与"评测专用 holdout 样本"，14 case 在 Phase 2 已全部公开于本工作流文档中，实质等于评测样本污染源。任何后续模型读到本仓库的 14 case 都会有数据泄漏。建议立刻把 14 case 的"专家洞察+期望激活清单"两项从公开 markdown 撤回到工程仓内部存储，公开版只保留事实层。

🟡 每季度补 5-10 case 的规模相对每季度全量评测的样本量是不够的——一年 20-40 case 增量、覆盖率仅维持现状（72%），无法承载 7 维度 × 7 桶 × 多模式的统计显著性需求。建议提到 15-20 case / 季度。

🟢 Phase 5 §7 的"holdout ≥ 20% case 仅作年度抽检"是好的防退化方向，但需补"holdout 桶位均匀分布"约束，避免 holdout 全在 B1 桶。

六、Phase 5 治理决策门槛评估

机制扩展门槛（≥ 5 case 跨 ≥ 3 MCA 桶）— 🟡 看似严，但因 B6/B7 桶起步零样本，跨 3 桶门槛在 v1 → v2 窗口内事实上不可达，等于"不可能扩展"。建议 v1 → v2 窗口的过渡门槛降级为"≥ 4 case 跨 ≥ 2 桶 + 1 个 pending 桶证据"。

子机制扩展门槛（≥ 2 case）— 🟡 偏松，会引发子机制清单膨胀，与 Phase 5 §7"防机制清单膨胀"自相矛盾。建议提到 ≥ 3 case。

C → B → A pending 升级路径 — 🔴 升级路径写得清晰，但 "降级路径连续 ≥ 4 季度无新证据则冷藏"对应到当前 4 个 pending（S19 / S3 / S6 / 峰终）会在 T0 + 12 月几乎全部冷藏（因为对应 B7 桶样本来不及补齐），等于结构性地把 pending 项清零。建议降级判定加"且不能因桶位样本不足导致"的兜底。

三方联合签署（生态发起人 + ≥ 2 reviewer + 工程团队负责人）+ 7 天公示 + reviewer 3:1 否决 — 🟡 串联节点过多，对个人投资者团队规模会成为瓶颈。建议改为并行评审 + 单点签署 + 异议期 14 天。

七、audit trail + 防退化机制评估

🟢 audit trail ≥ 8 季度的存储覆盖期是合理的（对应 2 个 v1 → v2 窗口）。

🔴 "上轮 vN 体系冷启评测"作为基线对照条款写得简洁，但实操上"冷启"意味着把同一 case 用 vN 体系重跑——若 vN 的工程 artifact 已被 vN+1 覆盖（典型 Git history 重写或 prompt 模板覆写），冷启不可重现。建议明示"vN 体系工程 artifact 必须打 release tag 冻结，冷启使用 tagged binary 而非 main 分支"。

🟡 "双重分层（MCA 6 轴 + 时间窗）"防退化是好的，但时间窗的窗宽（季度 / 年 / 多年）未定义。

八、与业内 3 框架对比表的真实性

对 Phase 4 §7 的 7×3 对比表的逐项审查：

🟡 **D6 / D7 对应到"UniFinEval 未直接对应"**是事实陈述，但表里同时说 D7 对应"多约束决策一致性 + 多跳推理"——内部矛盾。要么是 UniFinEval 覆盖 D7，要么是不覆盖；不能两者都写。建议明确"FinBayes D6 / D7 是相对 UniFinEval 的净新增维度"并删除矛盾对应。

🟡 D5 "金融规律应用 + 不适用识别"声称对应 FinEval"金融学术知识 + 金融严谨性"——FinEval"金融严谨性"是抗幻觉模块，与"规律不适用识别"是相邻概念但不等同，对应稍勉强。

🟢 MCA 分桶作为评测元维度业内空白这一原创性主张属实——3 套业内框架确实未引入市场结构上下文作为评测分桶。这是 Phase 4 最有学术价值的产物。

🟢 "FinBayes 不评测点估计准确率"作为根本差异点写得到位，与 Bloomberg 50B / FinGPT 这类"信号准确率"评测显式拉开距离。

九、其他暴露的不确定性（🟢 清单）

评测样本难度分布"成功 40% / 失败 30% / 边界 30%"是经验比例，对应到统计上的能力区分度未论证。
月度 30-50 个新样本与季度全量评测的样本独立性 / 同分布性没有约束。
用户反馈样本"结构化反馈通道"的具体表单字段未列出，存在实施层把 5 类用户场景压成 1 类的风险。
评测样本标注规范第 5 项"关键洞察清单"参照 Phase 2 "14 项洞察"是好的，但"洞察"本身在 LLM 评测里是没有客观尺度的对象。

十、Phase 5 治理决策门槛建议调整值（汇总）

门槛项	Phase 5 v1	R-C 建议
机制扩展	≥ 5 case 跨 ≥ 3 桶	v1→v2 过渡：≥ 4 case 跨 ≥ 2 桶 + 1 pending 桶证据；v2 之后回到 ≥ 5/3
子机制扩展	≥ 2 case	≥ 3 case
pending 降级（冷藏）	≥ 4 季度无新证据	同左 + "且不能因桶位样本不足导致" 兜底
三方联合签署	串联 + 7 天公示 + 3:1 否决	并行评审 + 单点签署 + 14 天异议期 + 3:1 否决
MCA 漂移校准频率	每年一次	每半年一次
月增量样本	30-50 个	维持
季度补 case	5-10	15-20

关联

Phase 4 评测体系 drafts/2026-05-28-phase4-evaluation-system.md
Phase 5 治理 drafts/2026-05-28-phase5-iteration-governance.md
Phase 3 T1-T4 drafts/2026-05-28-phase3-*.md
业内 3 框架调研 commons/references/finbayes-cognition-system-research-briefs/README.md

Simbrief（≤500 字）

🔴 评测不可执行 / 实质 gaming 风险清单：

D7 S1 标答完全来自 Phase 2 14 case 自标，自指评测、contamination 风险。
14 case 期望激活清单已公开在 markdown 仓库，开发集 / 测试集划分缺失，所有后续模型读到本仓库即数据泄漏。
D4 GED 指标 NP-hard、max_GED 取法未定义，跨桶比较失真。
D3 相位"MAE"是连续值离散化产物，离散化粒度未定义。
D6 20 项偏差多标签 F1 可被"只标 top-3 高频偏差"刷到 0.7+，无防御。
D1 M1.3 六字段中三项是开放分类，缺 IAA kappa 门槛，分母不闭合。
MCA B5 桶把异质 case 合并（A-1 政策点火 + A-3 散户踩踏），桶内同质性不成立。
MCA B7 桶起步零样本，跨 3 桶门槛在 v1 → v2 窗口内事实不可达。

🟡 建议增强项：D5 假阳性率防御推广到 D1/D6；引入加权多标签防 D6 gaming；MCA 桶位标签由评测系统强制下发；引用必须含可验证 URL + 时间戳；vN 工程 artifact 强制 release tag 冻结防"冷启不可重现"；B5 拆 B5a/B5b；MCA 漂移每半年校准。

Phase 5 治理决策门槛建议：v1→v2 过渡机制扩展门槛降至 ≥ 4 case 跨 ≥ 2 桶；子机制扩展提到 ≥ 3 case；pending 冷藏加"非样本不足"兜底；三方签署改为并行 + 单点 + 14 天异议；季度补 case 从 5-10 提到 15-20。

总体判定：需补强后方可 formalize。架构创新（MCA 分桶 + 非点估计定位）可识别且有学术价值，但操作化、防 gaming、桶位平衡、治理门槛四项均有实质缺陷，直接进入 T0+3 月季度评测会出现"分数虚高但能力未验证"的退化。Phase 6 综合阶段应优先补 §3 与 §5 列出的 3 项硬缺陷（标答自指 / 样本污染 / 指标定义）+ 5 项软缺陷。

落盘路径：governance/workstreams/finbayes-cognition-system-research/reviews/2026-05-28-phase6-r-c-evaluation.md

一、总体判定​

二、7 维度可执行性逐项审查​

D1 本体识别（🔴 + 🟡）​

D2 信源对齐（🔴 + 🟡）​

D3 跨时钟相位（🔴）​

D4 场景与传导链路（🔴）​

D5 金融规律应用（🟡 + 🟢）​

D6 偏差识别（🔴 + 🟡）​

D7 S1 一致性（🔴）​

三、Gaming 风险与防御缺口（必读）​

四、MCA 7 桶设计的评测合理性​

五、评测样本管理​

六、Phase 5 治理决策门槛评估​

七、audit trail + 防退化机制评估​

八、与业内 3 框架对比表的真实性​

九、其他暴露的不确定性（🟢 清单）​

十、Phase 5 治理决策门槛建议调整值（汇总）​

关联​

Simbrief（≤500 字）​