Phase 6 · R-C 评测专家视角 review
立场:模拟具备 LLM 评测系统、学术 benchmark 设计、AB 实验经验的评测专家。仅评 Phase 4 评测体系是否可执行、是否能区分能力、是否可被 game,以及 Phase 5 治理机制对评测产物的回路是否有效。不评金融方法论(留 R-A),不评工程实现(留 R-B)。
一、总体判定
结论:需补强后方可 formalize。Phase 4 7 维度的"主映射机制 + MCA 分桶"架构在 benchmark 设计的"覆盖维度"与"上下文敏感"两项上确实超出业内 3 框架的简单复用,原创性可识别;但指标公式的操作化、标答可靠性来源、gaming 防御、桶间样本平衡、治理门槛五项均存在实质缺陷,直接进入 T0+3 月季度评测会出现"分数虚高但能力未验证"的退化风险。R-C 主张:在 T0 之前必须补 §3-§5 列出的 3 项硬缺陷与 5 项软缺陷。
二、7 维度可执行性逐项审查
D1 本体识别(🔴 + 🟡)
🔴 "M1.3 定性属性字段命中率"分母不闭合——六字段(持有人结构 / 商业模式 / 通用战略 / 实体经济网络节点 / 政策反应函数 / 数据可得性等级)中至少三项(商业模式 / 通用战略 / 政策反应函数)本质是开放式分类,专家之间一致性会显著低于 0.7(同一公司既可贴"成本领先"也可贴"差异化")。没有 inter-annotator agreement(IAA)的 kappa 门槛,分母里的"应填字段数"不是客观量。
🟡 综合 D1 公式给的权重 0.3 / 0.3 / 0.4 缺乏论证依据,等价于专家直觉。建议改为基于评测 case 难度方差做权重学习,或者明示"v1 凭直觉,T0+6 月重校准"作为审计入口。
🟢 跨市场映射边权重 ×1.5 的因子完全没有出处,是稀缺性的代理但没说稀缺到什么程度。
D2 信源对齐(🔴 + 🟡)
🔴 政策语义解码 4 字段命中率:4 字段(措辞跃迁 / 同台规格 / 时点罕见性 / 对手方目标函数)本身就是 Phase 3 T2 N3 桶下激活的子机制,把"激活"本身当指标即"对自己定义打分",循环论证。
🟡 Spearman 排序与 Pearson 相关在小样本(每桶 20)下都不稳定,置信区间会跨过 0。指标公式应附"最小样本量"与"显著性门槛"。
D3 跨时钟相位(🔴)
🔴 "相位等级离散化后 MAE"是把连续相位强制压成 1-5 档,离散化粒度本身未定义。同一基准下两个评测员把"产业 mature 中段"打 3 档还是 4 档差异不可控。这是 D3 的核心瑕疵。
🟡 7 类时钟槽位(M3.t1-t7)的并行评估会带来组合爆炸:单 case 至少 7 个标签题,难以做到每桶 20 case × 7 标签的人工 IAA 复审。
D4 场景与传导链路(🔴)
🔴 GED(Graph Edit Distance)作为指标在工程上 NP-hard,对大图(M5 链路常 ≥ 15 节点 + 30 边)评测延迟可达分钟级;更关键的是 GED 没有标准化,max_GED 的取法直接决定分数尺度,不同基准图取法不同会让跨桶比较失真。建议改用 Tree Edit Distance 或仅评"节点子集 F1 + 边子集 F1 + shared-book 形态 4 选 1"三项独立分量。
🟡 反向力量召回率的分母"真实反向力量总数"是事后人工标注,专家之间会出现"漏标 vs 体系漏识别"难以区分的混淆。
D5 金融规律应用(🟡 + 🟢)
🟡 估值 MAPE 反向作为综合分数项 — 当估值标答本身是 Damodaran 7 步骤的人工产物时,MAPE 实际是在测"是否复现专家 DCF 参数选择",而非"是否懂估值"。这是 FinEval CoT 推理评测的常见陷阱,Phase 4 没显式规避。
🟢 "适用性三态准确率"附"避免全标 not-applicable 偷分"提到混淆矩阵+假阳性率,是 Phase 4 文中唯一显式提到的防 gaming 设计,建议作为模板推广到其余维度。
D6 偏差识别(🔴 + 🟡)
🔴 20 项 Kahneman 偏差多标签 F1 — 20 类多标签问题里,体系"机械列偏差清单"(即每个 case 都打满 20 标签的 1/4)会通过随机猜测得到 recall ~ 0.5、precision ~ 0.05 的组合,但若标答稀疏(平均 3 标签)则机械列清单的 F1 反而接近 0.2,并未爆刷;真正的 gaming 路径是只标安全偏差(损失厌恶 / 锚定 / 代表性 这三项触发频次最高),稳拿 70% 命中。无防御。
🟡 双峰后验形态正确率的"双峰权重合理区间"由人工判定,是 Phase 4 自陈的人工评分项,缺一致性测试。建议引入"两位专家独立给区间,重叠率 ≥ 0.8 才计入"门槛。
D7 S1 一致性(🔴)
🔴 "叙事-数字耦合方向"的标答——S1 是 Phase 3 T3 新立的横切子流程,没有任何 case 之外的独立 ground truth;Phase 4 用 14 case 自带的事后标注作为基准,等于"自己给自己出题、自己批改"。这种自指评测在 LLM benchmark 里属于经典 contamination。
🟡 模式 b(源端缺失)样本必须来自跨市场翻译 case,但 14 case 中仅 A-4 单 case 触发,单 case 不构成评测分布。
三、Gaming 风险与防御缺口(必读)
R-C 总结评测可被刷分的 6 条路径:
- D1 穷举本体:实体识别 F1 在多标签题里给体系全标会刷高 recall 拉爬 F1。缺防御。建议引入"无关实体扣分"项。
- D2 形式化引用占位:体系输出"参考 SEC 文件 / IEA 报告"占位字符串,分母里政策语义 4 字段会蒙对 1-2 项。缺防御。建议加"引用必须含可验证 URL + 时间戳 + 关键字段抽取"。
- D5 按指标教学:训练或 prompt 调到"凡是 meme / 主题股一律 not-applicable",D5 适用性三态准确率会刷到 0.7+。✅ Phase 4 已识别此项并加假阳性率防御,是亮点。
- D6 机械列偏差:上述只标 top-3 高频偏差刷 70%。缺防御。建议改为加权多标签(高频偏差权重 ×0.5,低频偏差权重 ×2),强制覆盖长尾。
- D7 固定模板:S1 三模式中"远期外推"在 14 case 中触发频次最高(C1/C5/C6/C8/A-2),体系默认输出"远期外推"就稳拿模式 b 之外的命中。缺防御。
- MCA 桶位归类:把 case 强归类到"L1+D1+F1+N1+C1+I1"基线桶,跳过 N3 / I3 桶下激活的子机制评测从而避免被扣分。缺防御。建议 MCA 桶位标签由评测系统强制下发,不由被测体系自报。
四、MCA 7 桶设计的评测合理性
🔴 桶间样本极不均衡:B1(发达机构基线)能从 C1/C7/C8 直接搬来,B7(EM 主权 / 货币危机扩展)目前 14 case 中零样本,全部依赖 L2/L3/L7 扩展。Phase 4 §3 给"每桶 20 case 起步"的目标,B7 桶要补 20 case 即等于补完 Phase 2 L1-L8 全部高优先级 case,工作量与时间表不匹配。
🔴 桶内同质性未论证:B5(A 股散户急性)把 A-1 + A-3 合并,但 A-1(政策点火)与 A-3(场外配资踩踏)的反身性触发机制差异显著,"同桶可比"的前提不成立。建议 v1 把 B5 拆 B5a / B5b。
🟡 桶间归一化用"桶内百分位"是合理的,但 Phase 4 未给出"百分位计算所需的最小样本量"——典型 percentile 需要 ≥ 30 样本才稳定,每桶 20 样本会让百分位带宽 ±5%,跨桶比较仍噪声大。
🟡 跨桶 MCA 漂移监测"每年一次"频率偏低。A 股衍生品成熟度从 D3 → D2 是 3-5 年尺度的事件,1 年一次校准会错过"桶定义本身变化"的中间过程。建议每半年一次。
五、评测样本管理
🔴 开发集 / 测试集划分缺失——Phase 4 §3 全文未区分"用于 prompt 调优的开发样本"与"评测专用 holdout 样本",14 case 在 Phase 2 已全部公开于本工作流文档中,实质等于评测样本污染源。任何后续模型读到本仓库的 14 case 都会有数据泄漏。建议立刻把 14 case 的"专家洞察+期望激活清单"两项从公开 markdown 撤回到工程仓内部存储,公开版只保留事实层。
🟡 每季度补 5-10 case 的规模相对每季度全量评测的样本量是不够的——一年 20-40 case 增量、覆盖率仅维持现状(72%),无法承载 7 维度 × 7 桶 × 多模式的统计显著性需求。建议提到 15-20 case / 季度。
🟢 Phase 5 §7 的"holdout ≥ 20% case 仅作年度抽检"是好的防退化方向,但需补"holdout 桶位均匀分布"约束,避免 holdout 全在 B1 桶。
六、Phase 5 治理决策门槛评估
机制扩展门槛(≥ 5 case 跨 ≥ 3 MCA 桶)— 🟡 看似严,但因 B6/B7 桶起步零样本,跨 3 桶门槛在 v1 → v2 窗口内事实上不可达,等于"不可能扩展"。建议 v1 → v2 窗口的过渡门槛降级为"≥ 4 case 跨 ≥ 2 桶 + 1 个 pending 桶证据"。
子机制扩展门槛(≥ 2 case)— 🟡 偏松,会引发子机制清单膨胀,与 Phase 5 §7"防机制清单膨胀"自相矛盾。建议提到 ≥ 3 case。
C → B → A pending 升级路径 — 🔴 升级路径写得清晰,但 "降级路径连续 ≥ 4 季度无新证据则冷藏"对应到当前 4 个 pending(S19 / S3 / S6 / 峰终)会在 T0 + 12 月几乎全部冷藏(因为对应 B7 桶样本来不及补齐),等于结构性地把 pending 项清零。建议降级判定加"且不能因桶位样本不足导致"的兜底。
三方联合签署(生态发起人 + ≥ 2 reviewer + 工程团队负责人)+ 7 天公示 + reviewer 3:1 否决 — 🟡 串联节点过多,对个人投资者团队规模会成为瓶颈。建议改为并行评审 + 单点签署 + 异议期 14 天。
七、audit trail + 防退化机制评估
🟢 audit trail ≥ 8 季度的存储覆盖期是合理的(对应 2 个 v1 → v2 窗口)。
🔴 "上轮 vN 体系冷启评测"作为基线对照条款写得简洁,但实操上"冷启"意味着把同一 case 用 vN 体系重跑——若 vN 的工程 artifact 已被 vN+1 覆盖(典型 Git history 重写或 prompt 模板覆写),冷启不可重现。建议明示"vN 体系工程 artifact 必须打 release tag 冻结,冷启使用 tagged binary 而非 main 分支"。
🟡 "双重分层(MCA 6 轴 + 时间窗)"防退化是好的,但时间窗的窗宽(季度 / 年 / 多年)未定义。
八、与业内 3 框架对比表的真实性
对 Phase 4 §7 的 7×3 对比表的逐项审查:
🟡 **D6 / D7 对应到"UniFinEval 未直接对应"**是事实陈述,但表里同时说 D7 对应"多约束决策一致性 + 多跳推理"——内部矛盾。要么是 UniFinEval 覆盖 D7,要么是不覆盖;不能两者都写。建议明确"FinBayes D6 / D7 是相对 UniFinEval 的净新增维度"并删除矛盾对应。
🟡 D5 "金融规律应用 + 不适用识别"声称对应 FinEval"金融学术知识 + 金融严谨性"——FinEval"金融严谨性"是抗幻觉模块,与"规律不适用识别"是相邻概念但不等同,对应稍勉强。
🟢 MCA 分桶作为评测元维度业内空白这一原创性主张属实——3 套业内框架确实未引入市场结构上下文作为评测分桶。这是 Phase 4 最有学术价值的产物。
🟢 "FinBayes 不评测点估计准确率"作为根本差异点写得到位,与 Bloomberg 50B / FinGPT 这类"信号准确率"评测显式拉开距离。
九、其他暴露的不确定性(🟢 清单)
- 评测样本难度分布"成功 40% / 失败 30% / 边界 30%"是经验比例,对应到统计上的能力区分度未论证。
- 月度 30-50 个新样本与季度全量评测的样本独立性 / 同分布性没有约束。
- 用户反馈样本"结构化反馈通道"的具体表单字段未列出,存在实施层把 5 类用户场景压成 1 类的风险。
- 评测样本标注规范第 5 项"关键洞察清单"参照 Phase 2 "14 项洞察"是好的,但"洞察"本身在 LLM 评测里是没有客观尺度的对象。
十、Phase 5 治理决策门槛建议调整值(汇总)
| 门槛项 | Phase 5 v1 | R-C 建议 |
|---|---|---|
| 机制扩展 | ≥ 5 case 跨 ≥ 3 桶 | v1→v2 过渡:≥ 4 case 跨 ≥ 2 桶 + 1 pending 桶证据;v2 之后回到 ≥ 5/3 |
| 子机制扩展 | ≥ 2 case | ≥ 3 case |
| pending 降级(冷藏) | ≥ 4 季度无新证据 | 同左 + "且不能因桶位样本不足导致" 兜底 |
| 三方联合签署 | 串联 + 7 天公示 + 3:1 否决 | 并行评审 + 单点签署 + 14 天异议期 + 3:1 否决 |
| MCA 漂移校准频率 | 每年一次 | 每半年一次 |
| 月增量样本 | 30-50 个 | 维持 |
| 季度补 case | 5-10 | 15-20 |
关联
- Phase 4 评测体系
drafts/2026-05-28-phase4-evaluation-system.md - Phase 5 治理
drafts/2026-05-28-phase5-iteration-governance.md - Phase 3 T1-T4
drafts/2026-05-28-phase3-*.md - 业内 3 框架调研
commons/references/finbayes-cognition-system-research-briefs/README.md
Simbrief(≤500 字)
🔴 评测不可执行 / 实质 gaming 风险清单:
- D7 S1 标答完全来自 Phase 2 14 case 自标,自指评测、contamination 风险。
- 14 case 期望激活清单已公开在 markdown 仓库,开发集 / 测试集划分缺失,所有后续模型读到本仓库即数据泄漏。
- D4 GED 指标 NP-hard、max_GED 取法未定义,跨桶比较失真。
- D3 相位"MAE"是连续值离散化产物,离散化粒度未定义。
- D6 20 项偏差多标签 F1 可被"只标 top-3 高频偏差"刷到 0.7+,无防御。
- D1 M1.3 六字段中三项是开放分类,缺 IAA kappa 门槛,分母不闭合。
- MCA B5 桶把异质 case 合并(A-1 政策点火 + A-3 散户踩踏),桶内同质性不成立。
- MCA B7 桶起步零样本,跨 3 桶门槛在 v1 → v2 窗口内事实不可达。
🟡 建议增强项:D5 假阳性率防御推广到 D1/D6;引入加权多标签防 D6 gaming;MCA 桶位标签由评测系统强制下发;引用必须含可验证 URL + 时间戳;vN 工程 artifact 强制 release tag 冻结防"冷启不可重现";B5 拆 B5a/B5b;MCA 漂移每半年校准。
Phase 5 治理决策门槛建议:v1→v2 过渡机制扩展门槛降至 ≥ 4 case 跨 ≥ 2 桶;子机制扩展提到 ≥ 3 case;pending 冷藏加"非样本不足"兜底;三方签署改为并行 + 单点 + 14 天异议;季度补 case 从 5-10 提到 15-20。
总体判定:需补强后方可 formalize。架构创新(MCA 分桶 + 非点估计定位)可识别且有学术价值,但操作化、防 gaming、桶位平衡、治理门槛四项均有实质缺陷,直接进入 T0+3 月季度评测会出现"分数虚高但能力未验证"的退化。Phase 6 综合阶段应优先补 §3 与 §5 列出的 3 项硬缺陷(标答自指 / 样本污染 / 指标定义)+ 5 项软缺陷。
落盘路径:governance/workstreams/finbayes-cognition-system-research/reviews/2026-05-28-phase6-r-c-evaluation.md