Phase 4 · FinBayes 认知体系评测体系定义（v1）

本文件是 Phase 4 起草任务的产出。基于 Phase 3 升级后的 8 机制 + S1 横切子流程 + MCA 6 分轴，参照业内 3 套评测框架（UniFinEval / FinEval / Cognitive Complexity Benchmark）综合后给 FinBayes 定制评测体系。本版本仍处于「经过研究产出、但仍在持续构建」的状态——所有指标公式标注「建议 v1，待 Phase 6 R2 校准」，所有 MCA 分桶等级阈值留 Phase 5 治理流程二次确认。

R1 修订说明：经 Phase 6 R-A 金融专家 / R-C 评测专家 review，本版本针对 P0-3 评测体系 8 项硬缺陷做修订（D1 / D3 / D4 / D6 / D7 + 样本治理 + MCA B5 / B7 桶），并按 P1-2 扩展 D8-D11 四个金融差异化维度。评测维度由 7 维扩到 11 维。详见文末「Phase 6 R1 修订记录」。

一、评测目标

评测什么：

机制覆盖度——8 机制在给定输入下是否被正确激活、子机制是否按 Phase 3 升级定义的子结构展开、横切层接入点是否按 MCA 桶位读取正确参数。
输出质量——M1 对象图谱完整性、M2 信源加权合理性、M3 时钟相位识别准确性、M4-M5 场景与传导链路完整性、M6 三支柱适用性标签正确性、M7 偏差识别与不确定性量化（双峰后验 / 凯利上限）合规性、M8 反事实归因精度，以及 S1 横切子流程「叙事-数字耦合判定」的命中率与误报率。
跨 MCA 桶稳健性——同一指标在 L1-N1 桶与 L3-N3 桶之间的方差是否在可解释范围内，是否存在因 MCA 桶切换导致机制激活坍塌的盲点。

不评测什么：

不评测产品价值（用户付费意愿、留存、NPS），留 L2 产品定义层。
不评测商业指标（订阅转化、内容分发），留产品运营层。
不评测预测准确率本身（FinBayes 不预测价格，输出的是「认知结构」而非「点估计」），评测的是认知结构是否完整、是否能解释事后观察到的市场演化路径。

评测对象：8 机制 + S1 横切子流程 + MCA 6 分轴输入参数共同组成的「联合系统」。任何单机制评测必须在指定 MCA 桶位下进行，禁止「跨桶平均」掩盖结构性失败。

二、11 大评测维度（R1 修订：原 7 维 + 新增 D8-D11 金融差异化维度）

业内 3 套评测框架综合后，FinBayes 定制 11 维度。前 7 维（D1-D7）覆盖通用「感知 - 推理 - 认知元」纵轴，后 4 维（D8-D11）是 R-A 金融专家提出的「懂金融 vs 通用 LLM + 金融提示词」差异化护城河维度。每维度承担「评测什么能力」+「主映射机制」+「样本类型」+「指标公式 v1」+「MCA 分桶要求」五项规约。所有指标公式标注「建议 v1，待 Phase 6 R2 校准」。

维度 1 · 本体识别准确率（D1）

定义：在给定市场快照（实体集合 + 关系信号 + 跨市场关联线索）下，认知体系正确识别金融对象、关系边、定性属性字段的能力。

主映射机制：M1 全部子机制（M1.1 实体识别 / M1.2 关系建模 / M1.3 定性属性字段 / M1.4 心理账户违例标签）。

样本类型：实体识别选择题 + 关系边补全题 + M1.3 六类定性属性字段填充题（持有人结构 / 商业模式 / 通用战略 / 实体经济网络节点 / 政策反应函数 / 数据可得性等级）+ 跨市场映射边识别题（A-4 类样本）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

实体识别 F1 = 2 × precision × recall / (precision + recall)，对无关实体（即体系穷举型多标的）施加 precision 惩罚项，防 D1 穷举 gaming
关系边补全准确率 = 正确补全边数 / 应补全边总数
M1.3 定性属性字段命中率 = Σ 正确字段数 / Σ 应填字段数，分母闭合规则如下：
- 六字段分两类：闭合类（持有人结构 / 实体经济网络节点 / 数据可得性等级，标答可由公开数据客观抽取）与 开放分类类（商业模式 / 通用战略 / 政策反应函数，存在多个合法标签的开放分类）
- 闭合类直接计入分母；开放分类类需通过 inter-annotator agreement（IAA）Cohen's kappa ≥ 0.7 门槛：≥ 2 位金融专家独立标注，kappa 达标的标签纳入分母作为「已校准标答」，未达标的标签暂不计入分母（保留为下一轮重新标注样本），避免分母被开放分类含糊性虚高
- 跨市场映射边权重 ×1.5（稀缺性代理，v1 凭直觉，待 Phase 6 R2 重校准）
综合 D1 分数 = 0.3 × 实体 F1 + 0.3 × 关系准确率 + 0.4 × 定性属性命中率（权重组合凭专家直觉，标注「v1 凭直觉，T0+6 月重校准」）

MCA 分桶要求：必须按轴 1（投资者结构）× 轴 6（信息可得性）二维分桶单独报告。L1-I1 桶（机构主导 + 高透明）作为基线；L3-I3 桶（散户 / 量化高敏感 + 低透明）必须单独评，因为 M1.3 的「数据可得性等级」字段在该桶位下从可选变为强制。轴 4（非市场参与者注入）合并入轴 1 报告，不单独分桶。MCA 桶位标签由评测系统强制下发，不允许被测体系自报（防 §三 gaming 路径 6）。

维度 2 · 信息源对齐质量（D2）

定义：异构信源（财报 / 高频价格 / 链上 / 监管文件 / 社交叙事 / 政策语义）的可靠性建模、跨源对齐、政策语义解码、分歧诊断能力。

主映射机制：M2 全部子机制。重点考核 M2.2 账号 × 渠道双轴可靠性、M2.4 政策语义解码、M2.5 分歧诊断。

样本类型：信源可靠性排序题 + 跨源时间戳对齐题 + 政策文件 → 可执行参数解码题 + 多源同质性诊断题（Kahneman 群体思维场景）+ 被黑账号识别题（Case 9 SEC 1/9 假推文型）。

指标公式 v1：

信源排序 Spearman 相关系数（与专家基准排序的秩相关）
政策语义解码字段命中率 = 正确解码字段数 /（措辞跃迁 + 同台规格 + 时点罕见性 + 对手方目标函数 4 字段）
分歧诊断召回率 = 识别出的群体同质化案例数 / 真实同质化案例总数
综合 D2 = 0.25 × 信源排序 + 0.35 × 政策解码 + 0.25 × 分歧诊断 + 0.15 × 双轴可靠性识别

MCA 分桶要求：必须按轴 4（非市场参与者注入）单独分桶。N3 桶（高注入）下 M2.4 政策语义解码必须激活并单独评分；N1 桶（低注入）下 M2.4 应保持休眠，激活即扣分。

维度 3 · 跨时钟相位识别（D3）

定义：在多时钟并行运行下识别每个时钟当前阶段，输出跨时钟相位差矩阵，识别矛盾相位（如公司在 growth、产业在 mature）。

主映射机制：M3 全部子机制（M3.t1–M3.t9 9 类时钟槽位，R1 修订前为 M3.t1–M3.t7，新增 M3.t8 Koo 资产负债表衰退时钟 / M3.t9 Minsky 时钟，详见 ADR-007 supplement §2.1）+ M4 场景识别中以时钟为先验的部分。

样本类型：单时钟阶段标签题 + 跨时钟相位差矩阵补全题 + 矛盾相位识别题 + M3.t7 市场特异性相位轴识别题（同一全球周期在 A 股 vs 美股 vs Crypto 的相位偏移）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

单时钟标签准确率 = 正确标签数 /（注册的时钟总数 × 样本数）
相位差矩阵 MAE（与专家基准矩阵的元素级平均绝对误差），离散化粒度明确为「季度」作为一个相位单元——长债 / 短债 / 产业 / 事件 / 政策 / 估值 / 市场特异性 7 类时钟一律以季度为最小相位刻度，矩阵元素为整数季度数。这一刻度选择基于：(a) Phase 2 14 case 中事件演化均以季度尺度可识别；(b) LLM 输出"产业 mature 中段"vs"产业 mature 晚段"在月度刻度上不可靠（专家间 IAA 不足），季度刻度上稳定。Minsky 子相位（hedge / speculative / Ponzi）按子相位标签独立计 IAA，不与季度刻度叠加
矛盾相位识别召回率 = 识别出的矛盾相位对数 / 真实矛盾相位对数
综合 D3 = 0.4 × 单时钟标签 + 0.3 × 相位差 MAE 反向 + 0.3 × 矛盾识别召回

最小样本量与 IAA 要求：9 时钟槽位并行评测引发组合爆炸（R1 修订前为 7 槽位），每桶 20 case × 9 标签的人工 IAA 复审在 v1 不可行；v1 起步阶段每桶仅强制评 M3.t1（长债）+ M3.t2（短债）+ M3.t5（事件）三槽位，其余 6 槽位采用抽样 IAA（每季度从全样本随机抽 30% case 做 IAA 复审），待 v2 工程能力提升后再覆盖全 9 槽位

MCA 分桶要求：按轴 3（制度性摩擦）单独分桶。F3 桶（高摩擦）下 M3.t5 事件冲击时钟必须叠加「制度摩擦相位」（T+1 / 涨跌停延迟价格出清），相位识别要求更严；F1 桶（低摩擦）下该子项缺省不评。

维度 4 · 场景命中与传导链路完整性（D4）

定义：把市场快照映射到正确场景模板（含多场景叠加），生成完整传导链路图（节点 + 边 + 反向力量 + 制度摩擦层），区分内生反身性 vs 外生政策注入。

主映射机制：M4 全部子机制 + M5 全部子机制（重点考核 M5.3 shared-book contagion 4 形态、M5.4 制度摩擦层、M5.5 反向力量子机制、M5.6 内生/外生区分）。

样本类型：场景模板多选题（允许多场景叠加）+ 传导链路图补全题（节点 + 边 + 边类型标签）+ shared-book contagion 形态识别题（4 形态二选一或四选一）+ 反向力量识别题（Case 9 GBTC 折价收敛套利型）+ 内生 vs 外生冲击归类题。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

场景命中 F1（多标签）
传导链路图相似度（R1 修订：放弃 GED 改用三分量替代，原 GED 在 M5 链路 ≥ 15 节点 + 30 边时 NP-hard 且 max_GED 取法未标准化）：
- (a) 节点子集 F1 = 与基准图节点集合的 F1（precision = 正确节点 / 体系输出节点；recall = 正确节点 / 基准节点）
- (b) 边子集 F1 = 与基准图边集合（含边类型标签）的 F1
- (c) 子图同构匹配率 = 在节点对齐后，基准图中预定义的「关键子图模式」（如「政策点火 → 流动性吸收 → 反身性自我增强」三节点链）在体系输出图中被同构识别的比例。子图模式集合在 Phase 5 治理流程中由专家维护，v1 起步约 8-10 个关键子图模式
- 链路相似度合成 = 0.35 × 节点 F1 + 0.35 × 边 F1 + 0.30 × 子图同构匹配率
- 替代选项：若工程实现需进一步降复杂度，可改用「编辑距离上界近似」算法（基于 Hungarian 算法的 O(n³) 近似，Riesen-Bunke 2009），返回标准化分数 ∈ [0,1]
shared-book 4 形态分类准确率
反向力量召回率 = 识别出的反向力量数 / 真实反向力量总数
综合 D4 = 0.25 × 场景 F1 + 0.3 × 链路相似度 + 0.25 × shared-book 形态准确率 + 0.2 × 反向力量召回

MCA 分桶要求：跨多个 MCA 轴位分桶。轴 1（L 级）+ 轴 2（D 级）+ 轴 3（F 级）+ 轴 5（C 级）四轴组合作为场景检索的关键键值。建议在「核心桶」表中归并到 5 个组合上（见第四节）。

维度 5 · 金融规律应用准确性 + 规律不适用识别（D5）

定义：M6 三支柱（估值 / 因子 / 衍生品）在适用样本上的应用准确性，以及在不适用样本（meme / 无基本面锚 / 衍生品市场缺失）上正确输出「不适用」标签的能力。

主映射机制：M6 全部子机制，重点 M6.4「规律不适用」显式输出、M6.5 周期 PE 错觉提示、M6.3 衍生品支柱的 D 轴依赖。

样本类型：DCF 估值计算题（含 Damodaran 7 步骤） + 因子归因题 + 期权 IV 隐含概率读题 + 适用性三态标签题（适用 / 部分适用 / 不适用）+ 周期 PE 陷阱识别题（Case 6 锂电型）+ 衍生品支柱可用性判定题。

指标公式 v1：

估值数值 MAPE（相对专家基准）
因子归因 Kendall τ（与基准排序的秩相关）
适用性三态标签准确率（必须包含混淆矩阵 + 假阳性率，避免「全标 not-applicable 偷分」）
综合 D5 = 0.3 × 估值 MAPE 反向 + 0.2 × 因子 τ + 0.4 × 适用性三态准确率 + 0.1 × 周期 PE 陷阱召回

MCA 分桶要求：按轴 2（衍生品成熟度）单独分桶。D1 桶下 M6.3 衍生品支柱必须有效输出隐含概率；D3 桶下 M6.3 必须标记「不可用」并降权至 0，激活即扣分。轴 1 = L3（散户 / 量化高敏感）+ 主题股场景下，必须与 B-3「规律不适用」联动评测。

维度 6 · 偏差识别 + 不确定性量化（D6）

定义：M7a 个体即时偏差识别（20 项 Kahneman 全谱）+ M7b 群体偏差识别（含 shared-book 同质持仓 / 共识反转叙事对称 / funding-到-peak 群体窗口）+ M7.meta 元认知触发 + M7.uq 不确定性量化（双峰重尾默认先验 / 双峰后验 / 凯利上限）。

主映射机制：M7 四子层全部。

样本类型：偏差标签多选题（20 项 M7a 全谱）+ 群体同质化诊断题 + 慢思考触发场景识别题 + 双峰后验输出形态题（Case 5 / Case 8 型）+ 凯利上限计算题（Case 10 型 attention market）+ 双峰重尾先验校准题（避免正态先验在金融场景的尾部低估）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

M7a 偏差识别加权多标签 F1（20 类，R1 修订）：原朴素多标签 F1 可被「只标 top-3 高频偏差（损失厌恶 / 锚定 / 代表性）」刷至 0.7+。R1 改为：
- 每个偏差标签按 14 case 历史出现频率反向加权：频率高的偏差权重 ×0.5，频率低的偏差权重 ×2.0，强制覆盖长尾。频率统计以 Phase 2 + 后续扩展的全 case 池为准，每季度更新
- 同时计算 macro-F1（每类等权平均）作为对照指标：macro-F1 与加权 F1 同时报告，若两者差距 > 0.15 视为存在标签偏向 gaming，触发人工复审
- calibration 指标：要求体系对每个偏差标签同时输出 confidence（[0,1]），评测时计算 Expected Calibration Error (ECE) = Σ |confidence - 实际正确率|，ECE ≤ 0.15 视为校准合格。这一指标防止「全标 + 高 confidence」的低成本 gaming
M7b 群体偏差识别 F1（同样加权 + macro-F1 + ECE 三件套）
双峰后验形态正确率（是否输出双峰、双峰权重是否在合理区间、是否被强制压均值）。合理区间由 ≥ 2 位专家独立给出，重叠率 ≥ 0.8 才计入评测（R-C P0-3 附加建议）
凯利上限合规率 = 输出仓位 ≤ 凯利上限的样本数 / 应触发凯利约束的样本数
综合 D6 = 0.20 × M7a 加权 F1 + 0.10 × M7a macro-F1 + 0.20 × M7b 加权 F1 + 0.10 × M7b macro-F1 + 0.10 × ECE 反向 + 0.20 × 双峰形态 + 0.10 × 凯利合规

MCA 分桶要求：按轴 1（投资者结构）+ 轴 4（非市场参与者注入）联合分桶。L3 桶下 M7a 个体偏差权重提升（散户情绪指标进入主因子），L1 桶下 M7b 机构同质化（carry unwind / shared book）权重提升，两桶下评测加权方式不同，禁止跨桶平均。

维度 7 · S1 叙事-数字一致性识别（D7，横切维度）

定义：S1 横切子流程对三种失败模式（远期外推 / 源端缺失 / 数据脱节）+ 二阶退化分支（attention market）+ 正向耦合（Case 7 教科书型）的识别能力。跨 M5 + M6 + M7 三机制联合评测。

主映射机制：S1 子流程主体 + 反向触发到 M5 / M6 / M7 的链路。

样本类型：三种失败模式分类题 + 多模式并发题（Case 8 Tesla 双层脱节型）+ 正向耦合识别题（Case 7 型）+ 二阶分支启用判定题（M6 不适用 → S1 是否切换二阶）+ 共识反转双向脱节题（Case 6 顶 + 底）+ s1.mode 多选输出题。

标答源（R1 修订核心：必须外部独立，禁用 14 case 自标）：原 v0 用 14 case 自带的事后标注作为基准，等于「自己给自己出题、自己批改」（R-C P0-3-1 评测自指），属于经典 LLM benchmark contamination。R1 强制改为下列外部独立标答源：

Damodaran "Narrative & Numbers"（2017）+ Damodaran Blog 历年实证 case：含 Uber / Tesla / Twitter / Aramco / Zoom 等十余个完整的「叙事 → 数字 → 估值」匹配复盘，含其后市场演化的事后验证。每 case 自带「叙事 - 数字耦合判定」专家标注，是 D7 模式 a / 模式 c 的金本位标答源。
Howard Marks 历年 memo（橡树资本 1990 - 2025）：含 60+ 篇关于「过度乐观叙事」、「风险定价错配」、「周期顶 / 底叙事 - 数字脱节」的实时点评。Marks memo 在事件发生当下做出判断，事后可验证，是 D7 模式 a / 模式 e（远期外推 / 时间错位）的强标答源。
Stratechery 原文复盘库（Ben Thompson 2013 - 2025）：科技股「叙事 - 商业模式 - 数字」匹配的同时段公开记录，含 Apple / Amazon / Meta / Snap 等数十个完整叙事生命周期记录。是 D7 二阶 attention 分支与模式 b（源端缺失）的关键标答源。
FT Alphaville 历年 case 复盘：含 Wirecard / Greensill / Archegos / SVB / Credit Suisse 等「数字本身造假 / 不可比 / 数据脱节」的金牌外部独立调查，是 D7 模式 b（源端缺失）+ R1 后续 P1-1 拟立模式 d（计量单位不可比）的标答源。
Damodaran Story / Numbers Connect 课程作业库（NYU Stern 公开课）：约 100 个学生作业 + 教师标答的「叙事 - 数字一致性诊断」样本，每样本附标准答案，是 D7 大规模训练 / 验证集补充源。

外部标答源使用规约：

5 源同时纳入，每个 D7 评测样本至少有 1 个独立外部标答（不可仅依赖 14 case 自标）。
外部源标注与 FinBayes 14 case 自标交叉一致时（IAA kappa ≥ 0.7）方可使用外部源作为该 case 的最终标答。
14 case 自带「叙事 - 数字耦合判定」原标注降为「内部参考标注」，不进入评测打分分母，仅作 IAA 比较参照。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

三模式分类 F1（多标签，含 positive 与 degraded-attention 共 5 类），对默认输出「远期外推」的高频 gaming 路径加 base-rate 校正——若样本测试集中模式 a 占比 30%，体系对模式 a 的命中率高于 base-rate × 1.5 时触发可疑标记，要求人工抽查
多模式并发识别率 = 正确识别多模式并发的样本数 / 真实多模式并发样本数
s1.coupling-strength 与外部标答源（Damodaran / Marks 量化判定）的 Spearman 秩相关（小样本下 Spearman 比 Pearson 稳健）
反向触发命中率 = 正确触发 M5/M6/M7 的次数 / 应触发总次数
综合 D7 = 0.3 × 模式分类 F1 + 0.2 × 多模式并发 + 0.2 × 耦合强度秩相关 + 0.3 × 反向触发命中

最小样本量与 IAA：每模式 ≥ 15 case（5 模式 × 15 = 75 case 起步），所有外部标答源标注必须经 ≥ 2 位金融专家独立 IAA 复审，kappa ≥ 0.7 方可入评测池。

MCA 分桶要求：D7 是横切维度，与 MCA 正交，但模式 b（源端数字缺失）的评测样本必须来自 L3 + I3 桶或跨市场翻译 case；S1 在跨市场翻译 case 中的输出必须显式联动 MCA 轴位读取。建议单独保留一个「跨市场 S1」桶以专门评测模式 b。

维度 8 · 金融历史可比性（D8，R1 新增）

定义：体系是否能给当前 case 找到合适的历史可比对照、识别错误类比、提取关键相同点与关键不同点、并量化可比度。是 Damodaran / Howard Marks / Druckenmiller 长期反复强调的核心金融能力——通用 LLM 在此维度普遍弱（容易做表面类比、忽略 base-rate 差异）。

主映射机制：M3（时钟相位匹配以确定可比时段）+ M4（场景模板匹配）+ M8（反事实归因，用历史对照验证当前判断）+ MCA（确保跨时段可比时市场结构差异被显式标注）。

样本类型：

历史可比检索题（"当前 NVDA 估值最可比的历史 case 是 1999 Cisco、1995 Intel、2007 Apple 还是 2020 Zoom"，含 base-rate 解释）。
错误类比识别题（"将 2024 AI 资本开支套 2000 互联网泡沫 capex 哪里对、哪里不对"）。
相同点 / 不同点抽取题（给定 case A 与历史 case B，要求体系输出至少 3 个结构同构点 + 至少 3 个结构差异点，并标注每点的可比方向与权重）。
可比度量化题（给定当前 case + 候选历史 case 集合，输出每个候选的相似度分数 [0,1]，与外部专家排序比较）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

可比 case 选择准确率 = 与外部专家共识首选可比 case 一致的样本数 / 总样本数（外部源：Howard Marks memo 引用的历史可比 + Damodaran 复盘明示的对标 case）
相同点 / 不同点抽取 F1（多标签）
可比度排序 Spearman 秩相关（与专家排序）
错误类比识别准确率（"哪里不对"识别 F1）
综合 D8 = 0.3 × 可比选择 + 0.3 × 相同 / 不同 F1 + 0.2 × 可比度秩相关 + 0.2 × 错误类比识别

MCA 分桶要求：D8 跨桶评测——同一 case 在不同 MCA 桶位下的可比对照不同（如 2015 A 股股灾 vs 1929 美股大萧条，跨桶可比要求体系显式标注「轴 1 / 轴 3 / 轴 4 不同」的可比限制）。建议保留「跨时段同桶」与「跨桶同时段」两类样本，分别评测。

维度 9 · 跨市场对照推理（D9，R1 新增）

定义：同一事件 / 信号在 A 股 / 美股 / 日股 / 港股 / EM 不同市场的差异化传导推理能力——这是 MCA 设立的根本目的，但原 D7 模式 b 只覆盖了一个侧面（跨市场翻译损耗），D9 独立成维专门评测「同源信号 → 跨市场差异化路径推演」。

主映射机制：MCA 全部 7 轴（R-A P0-2 已落地，R1 修订前为 6 轴；详见 ADR-007 supplement §2.2）+ M5（传导链路）+ M1.2（跨市场映射边）+ S1（跨市场翻译 case 的叙事 - 数字耦合）。

样本类型：

跨市场同源事件传导差异题（"美联储 50bp 降息在美股 / A 股 / 日股 / 阿根廷股市的不同传导链路"，体系输出 4 条链路 + 每条链路的 MCA 桶位标注）。
跨市场反身性强度对比题（"特斯拉股价反身性 vs 比亚迪反身性，两市场散户结构差异导致的反身性强度差"）。
跨市场政策传导对比题（"中国房地产调控 vs 加拿大房地产调控，因 MCA 轴 4 / 轴 5 差异导致的传导链路差"）。
跨市场套利 / 价差识别题（H 股 - A 股折溢价、ADR 与本地股价差、GBTC 折价收敛等）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

多市场传导链路 F1（每市场独立计算链路准确性，再做 macro 平均）
市场间差异点抽取准确率（"为什么不同"识别 F1）
MCA 轴位归因准确率（体系输出的差异点能否正确映射回 MCA 轴）
跨市场套利 / 价差方向预测准确率（仅评方向，不评幅度）
综合 D9 = 0.3 × 多市场链路 F1 + 0.3 × 差异点 F1 + 0.25 × MCA 归因准确率 + 0.15 × 价差方向

MCA 分桶要求：D9 必须跨 ≥ 2 个 MCA 桶才有效——单桶内的"跨市场推理"是退化为同桶推理。建议核心样本类型为 B1 + B5（发达机构 vs A 股散户急性）、B1 + B7（发达机构 vs EM 主权危机）、B5 + B6（A 股散户 vs A 股跨市场翻译）三对跨桶对照。

维度 10 · 数据可靠性鉴别（D10，R1 新增）

定义：独立于 D2「信源对齐」，专门评测体系对数据本身的可信度鉴别能力——即不评信源排序、不评政策语义、专评「这个数字 / 这份披露 / 这条卖方一致预期是否被预期管理 / 是否被 PR 化 / 是否技术造假」。是 Greenwald 价值投资学派 + Muddy Waters / Hindenburg 卖空机构的核心能力，通用 LLM 在此维度极弱。

主映射机制：M1.3「数据可得性等级」+ M2.2 账号 × 渠道双轴可靠性的延伸 + M7a 锚定 / 过度自信偏差检测（用于识别"预期管理"中的市场锚定）+ M6 三支柱适用性（用于识别"准则套利"型数据扭曲）。

样本类型：

异常应计识别题（应计利润 vs 经营性现金流背离，Beneish M-score 等技术）。
关联交易 / 表外负债识别题（A-2 房地产 case 城投表外、Greensill 应收账款融资 case）。
卖方一致预期被预期管理识别题（公司"指导"卖方上下调预期的痕迹检测）。
公司披露 PR 化识别题（管理层语言 vs 财报数字背离，电话会措辞情绪变化）。
准则套利识别题（IFRS vs US GAAP、扣非 vs 非经常、研发资本化 vs 费用化等切换的影响）。
重大造假事前 / 事后识别题（Wirecard / Luckin / Enron / Lehman repo 105 等，含事前蛛丝马迹 + 事后复盘）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

数据可靠性分级准确率（高 / 中 / 低 / 不可信四态，对照外部独立调查结论）
关键风险信号召回率（应计异常 / 关联交易 / 表外 / 预期管理 / 准则套利 5 类信号的召回）
误报率（健康公司被错误标记为"低可信"的比例，防过度悲观 gaming）
综合 D10 = 0.35 × 分级准确率 + 0.4 × 风险信号召回 + 0.25 × 误报率反向

最小样本量：5 类风险信号每类 ≥ 10 case，含 ≥ 5 个事后被证实造假 case（Wirecard / Luckin / Enron / Hindenburg 报告标的 / Muddy Waters 报告标的等）+ ≥ 15 个健康公司对照样本（防过度悲观 gaming）。

MCA 分桶要求：按轴 6（信息可得性）+ 轴 5（信用环境）联合分桶。I3 + C3 桶（低透明 + 政府节奏出清）下数据可靠性鉴别强度要求最高（A-2 房地产 case 标准桶）。I1 + C1 桶（高透明 + 商业债务出清）下评测重点转向"准则套利"与"卖方一致预期管理"。

维度 11 · 风险预算与组合层（D11，R1 新增）

定义：评测体系在「已有组合上加入这个标的」时的边际贡献能力——单标的认知（D1-D10）的下游应用。组合层是当前 D1-D10 全部未覆盖的层，但机构客户最关心这一层。对应 R-A §1.4 量化金融缺口（MPT 协方差矩阵 + 风险平价 + 风险因子轮动）。

主映射机制：M6.2 因子支柱的协方差矩阵延伸（待 P0-1 落实 M6.2.x 相关性结构稳定性子机制后激活）+ M5.3 shared-book contagion（组合层相关性跃迁）+ M7.uq 凯利上限（仓位约束）。

样本类型：

边际风险贡献计算题（给定 60/40 组合 + 候选新增标的，输出"加入后组合波动率变化 + VaR 变化 + 在尾部场景下的边际损失"）。
相关性跃迁前夜识别题（识别"现在组合各资产相关性还低、但已具备跃迁前提"的预警信号）。
风险平价配置题（多策略 / 多资产配置下，每个 sleeve 的风险预算分配）。
因子风险暴露分解题（组合层 Fama-French 因子暴露 + 行业暴露 + 国别暴露）。
凯利上限组合层应用题（多标的同时凯利约束下的总仓位上限）。

指标公式 v1（建议 v1，待 Phase 6 R2 校准）：

边际风险贡献数值 MAPE（与专家基准）
相关性跃迁预警召回率（事后发生跃迁的样本中事前正确预警的比例）
风险预算分配 KL 散度（体系输出分配 vs 专家分配）
因子暴露分解准确率
凯利组合上限合规率
综合 D11 = 0.25 × 边际风险 MAPE 反向 + 0.25 × 相关性跃迁召回 + 0.2 × KL 散度反向 + 0.2 × 因子分解 + 0.1 × 凯利组合合规

MCA 分桶要求：D11 与 MCA 轴 1（投资者结构）+ 拟立轴 7（货币与跨境约束）强相关。L1 桶（机构主导）下 D11 是核心评测项；L3 桶（散户 / 量化高敏感）下 D11 退化为单标的层（散户无组合层意识，评测重点回到 D6 凯利上限）。v1 起步阶段 D11 仅在 B1 / B2 / B3 三个发达机构桶强制评，B4 / B5 / B6 / B7 桶 D11 暂为可选项，待 P0-1 M6.2.x 落地后再扩展。

三、评测样本设计

样本规模建议（v1）：每核心 MCA 桶最少 20 个样本，覆盖 11 维度全部样本类型；其中至少 5 个为非显然洞察类（要求体系输出「强于标答」的洞察）+ 5 个边界样本 + 10 个常态样本。8 个核心桶（B1-B7 + B5 拆 B5a / B5b 后总数）× 20 = 160 个起步样本规模。R-C 评测建议季度补 case 量从 5-10 提至 15-20。

开发集 / 测试集 / holdout 划分（R1 核心修订，原 v0 缺失即数据泄漏）：

原 v0 未区分「用于 prompt 调优的开发样本」与「评测专用 holdout 样本」，14 case 在 Phase 2 已全部公开于本工作流文档中，其期望激活清单 + 关键洞察清单 + 事后市场演化路径实质等于评测样本污染源——任何后续模型读到本仓库的 14 case 均构成数据泄漏。R1 强制划分：

开发集（dev set）：70%——可公开在本仓库 + agent pack，用于 prompt 工程 / 子机制阈值校准 / 维度权重调试。开发集样本可被 LLM 训练 / 微调读到，但标答不进入训练样本（标答本身保留在工程仓内部）。
测试集（test set）：20%——半公开，仅 case 事实层公开，标答 + 期望激活清单 + 关键洞察清单 + 事后演化路径撤回到工程仓内部存储，本仓库公开版只保留事实层。
holdout 集：10%——完全私密，仅评测系统内部可读，用于年度抽检 + 防退化基线对照。holdout 桶位分布要求均匀，避免全在 B1 桶（R-C P0-3 附加约束）。

14 case 处置：Phase 2 14 case 按 10 / 3 / 1 比例分配进 dev / test / holdout 三集。14 case 的「关键洞察清单」与「期望激活清单」从本仓库公开 markdown 立即撤回到工程仓内部存储，公开版只保留事实层（市场快照 + 时间戳 + 关键数字 + MCA 桶位标签）。

样本来源：

种子层：Phase 2 已校准的 14 case（10 全球 + 4 A 股）作为 v1 评测基础种子，已带「事后标准答案 + 14 项洞察清单 + 累积证据强度分级」，按上述 70/20/10 分集。
扩展层：参照 §6.1 列出的 8 个未覆盖场景（L1–L8：日本通缩 / 阿根廷土耳其恶性通胀 / 1998 LTCM / 印度 demonetization / 2010 欧债 / 2008 GFC / 1997 亚洲风暴 / 大宗超级周期），每季度补 15-20 case（R-C 建议），半年内覆盖 L1 / L5 / L6 三类高优先级 case。扩展层 case 新增时同样按 70 / 20 / 10 分集。
D7 / D8 外部标答源层：D7 五大外部标答源（Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 课程作业）+ D8 历史可比专用样本（Howard Marks memo 引用历史可比 case 库）独立于 14 case 体系，本身即外部独立标答。
采样层：日常评测可对接 FinTeam / UniFinEval 等公开数据集做随机抽样作为常态样本补充，但常态样本不替代 case 级评测。

样本平衡：

成功 case（体系输出完整且与专家共识接近）占 ~40%。
失败 case（体系应识别但实际遗漏）占 ~30%——用于评测覆盖度。
边界 case（机制本身边界，如 M6 不适用 / S1 二阶分支启用 / S19 制度摩擦）占 ~30%——用于评测「不该输出时是否克制」与「该切换路径时是否切换」。

样本标注规范：每样本至少包含——

市场快照（事实层，含信源列表 + 时间戳 + 关键数字）。仅此项对开发集公开。
MCA 6 轴轴位标签（L/D/F/N/C/I 各一档）+ 桶 ID。（R1 修订后升为 7 轴，含 K 货币与跨境约束轴，详见 ADR-007 supplement §2.4）评测时由评测系统强制下发给被测体系，不允许被测体系自报（防 §三 gaming 路径 6）。
8 机制的期望激活清单（必激活 / 可选激活 / 应保持休眠）+ 子机制级期望。保留在工程仓内部，不进开发集公开层。
S1 期望模式 + 期望反向触发清单。保留在工程仓内部。
关键洞察清单（参照 Phase 2 「体系强于标答的 14 项洞察」模板）。保留在工程仓内部。
事后观察到的市场演化路径（用于 M8 反事实评测的对照）。保留在工程仓内部。
引用规约：体系输出涉及外部信源（SEC 文件 / IEA 报告 / 政策文件等）时，必须含可验证 URL + 时间戳 + 关键字段抽取，仅给占位字符串视为引用无效（R-C §三 gaming 路径 2 防御）。

四、MCA 分桶评测要求

避免 MCA 6 轴 × 3 等级的组合爆炸（理论上 3^6 = 729 桶），v1 建议先定 8 个核心桶（R1 修订：原 7 桶基础上 B5 拆为 B5a / B5b），覆盖 Phase 2 14 case 的实际触发结构 + 未来 L1–L8 扩展的主要落点。（R1 修订后升为 7 轴，含 K 货币与跨境约束轴，详见 ADR-007 supplement §2.4；6 轴评测桶 ID 设计本身不重写，留 R2 review 校准。）

桶 ID	桶名	MCA 6 轴位	代表 case
B1	发达机构基线桶	L1 + D1 + F1 + N1 + C1 + I1	C1 / C7 / C8
B2	发达机构 + 主权基金桶	L1 + D1 + F1-F2 + N2 + C1-C2 + I1	C2 / C3
B3	发达 + 链上原生桶	非传统 L（结构性置换）+ D1 + F1 + N1 + C1 + I1	C9 / C10
B4	A 股政策出清桶	L2-L3 + D2 + F2-F3 + N3 + C3 + I3	A-2
B5a	A 股政策点火桶（R1 拆分）	L3 + D2 + F3 + N3 + C2-C3 + I2	A-1
B5b	A 股散户踩踏桶（R1 拆分）	L3 + D2 + F3 + N3 + C2 + I2	A-3
B6	A 股跨市场翻译桶	L3（小微盘量化）+ D2 + F2-F3 + N2-N3 + C2 + I2-I3	A-4
B7	EM 主权 / 货币危机扩展桶	L2 + D2-D3 + F2 + N2-N3 + C2-C3 + I2-I3	L2 / L3 / L7（扩展）

B5 拆分理由（R1 新增）：原 B5 把 A-1（政策点火，反身性自我增强阶段）与 A-3（场外配资踩踏，funding liquidity 急性收缩）合并，但两者反身性触发机制差异显著——A-1 是「外生政策注入 → 内生反身性自增强」，A-3 是「内生杠杆斜率 → 外部 funding 断裂」，主映射机制不同（A-1 强 M5.6 内生 / 外生区分 + M2.4 政策语义；A-3 强 M5.3 shared-book acute + M7b 群体同质化）。"同桶可比"前提不成立，故 v1 起步即拆分。

B7 零样本桶处理（R1 新增）：B7 在 14 case 中零样本，依赖 L2 / L3 / L7 等扩展 case 才能填充，要求每桶 20 起步则 B7 等于必须补完 Phase 2 L1-L8 全部高优先级 case，工作量与时间表不匹配。v1 起步规约：

v1 起步阶段以 1-2 个 case 作 anchor——优先补 L7 1997 亚洲风暴 + L2 阿根廷 / 土耳其恶性通胀，作为 B7 桶位的最小可用样本。
v1 阶段 B7 单独基线——不参与与其他桶的「桶内百分位」对照（因为基数不足以做百分位），单独报告绝对分数趋势。
v1→v2 窗口不强制跨 B7 桶——P0-1 / P0-2 涉及的机制 / MCA 轴扩展门槛在 v1→v2 过渡期不要求 B7 必须达标。
v2 起补足至 ≥ 10 case 后纳入正式百分位对照体系。

桶间结果归一化：同一指标在 B1 桶（发达机构基线）vs B5a / B5b 桶（A 股政策点火 / 散户踩踏）的 D2（信源对齐）分数不能用同一基线比较——B1 桶 M2.4 政策语义解码应休眠，B5a 桶必激活，两桶的指标计算公式不同（B5a 桶下分母含 M2.4 字段，B1 桶下分母不含）。归一化方式建议 v1：每桶独立维护自身的「桶内满分」基准，跨桶比较时只比较「桶内分数百分位」，不直接比较绝对分数。百分位计算所需最小样本量 ≥ 30（R-C 建议）：单桶 < 30 样本时用 bootstrap 重采样估带宽，并在报告中显式标注「百分位带宽 ± X%」。

桶间漂移监测：同一市场不同时间段的 MCA 标签可能漂移（如 2015 A 股 vs 2024 A 股，后者衍生品成熟度从 D3 进入 D2、机构占比上升）。R1 调整：MCA 标签校准频率从「每年一次」提至「每半年一次」（R-C 建议），标签变化时同步更新该桶的代表 case 集合，避免「旧桶用新数据」或「新桶用旧基线」。

轴位标签自身的评测：MCA 标签是评测分桶的元数据，其本身可靠性需独立评测——给定新市场快照，体系是否能正确归类到 6 轴各自的等级。（R1 修订后升为 7 轴，含 K 货币与跨境约束轴，详见 ADR-007 supplement §2.4）建议 v1 把 MCA 归类作为 D1 维度的子项「市场结构标签准确率」单独计分。评测时 MCA 桶位由评测系统强制下发，被测体系不允许自报（防 §三 gaming 路径 6）。

五、评测周期与责任

评估周期：

季度全量评测：所有核心桶 × 7 维度跑一次，产出完整评测报告 + 与上季度对比的漂移分析。
月度增量 sample：每月 30–50 个新样本（从最近一个月的真实市场事件抽样），抽样侧重当月新出现的市场结构特征或新出现的失败模式。
触发式专项评测：每当一个新的「未覆盖场景」case 加入种子集（如 L1 日本通缩补入），触发对该场景所属桶位的全量重测。

评估责任方（三轨）：

工程团队——负责自动化评测管线、指标计算、桶位标签维护、回归测试。
金融专家 reviewer——负责样本标注、关键洞察清单审核、双峰后验「合理区间」的人工判定、跨市场 case 的轴位标签校准。专家 reviewer 至少 2 人独立标注后做交叉验证（盲交叉，仿 UniFinEval 做法）。
用户反馈——产品上线后通过结构化反馈通道（用户对认知结论的「是否同意 / 缺哪个反方证据 / 哪个失效条件不成立」）回收为评测样本候选，进入下一季度评测池。

评估结果产出形态：

季度评测报告（含每桶 × 每维度的分数 + 漂移分析 + 失败 case 归因）。
报告作为反向输入，触发：(a) 机制定义层修订（走 Phase 5 治理流程）；(b) MCA 桶位 / 轴位等级阈值调整（走治理流程）；(c) pending 项升级或否决决议（S19 / S3 / S6 / 双峰后验作为标准输出形态等）。

六、与 Phase 5 治理机制的接口

评测发现「机制不足以覆盖某 case」时的治理触发路径：

单 case 失败：归类为「样本扩展」而非机制扩展，进入下一季度种子池。
同一桶位连续 ≥ 3 个 case 失败且失败模式同构：触发「桶位级机制不足」预警，进入 Phase 5 治理评估。
跨 ≥ 2 个桶位出现同构失败：触发「机制级不足」预警，进入 Phase 5 治理评估，可能引发 8 机制结构变更（新增子机制 / 拆分机制 / 新增横切层）。机制层结构变更必须走 governance/change-protocol.md 体系级流程。

pending 项升级为正式机制的评测证据门槛：参照 Phase 2 累积证据强度分级方法 ——

A 级：≥ 4 个 case 强触发 + 跨 ≥ 2 桶位 → 升级为正式子机制。
B 级：≥ 3 个 case 强触发 + 单桶位为主 → 升级为正式子机制但保留「pending 评估期」一季度。
C 级：单 case 触发或证据弱 → 维持 pending，留下季度评测再观察。

当前 pending 项的初始评测重点：

S19 跨资产避险分化 + 制度性摩擦（C3 + A-3 触发，目前 C 级）→ 评测优先级：在 B5 + B7 桶补齐 ≥ 2 个 case 强触发。
S3 宏观-社会结构（C3 / C4 / A-1 / A-2 触发，目前 C 级）→ 评测优先级：在 B7 扩展桶补齐欧债 / 阿根廷 case 后再决议。
S6 无形价值识别（C8 + C10 反向触发，目前 C 级）→ 评测优先级：补齐 NFT / 数据资产估值 case 后再决议。
峰终 / 记忆自我扭曲（M7.meta pending）→ 评测优先级：需要专项行为偏差 case 设计。

评测体系自身的迭代：评测维度变更（如新增 D8）/ 指标公式变更 / 桶位拆分合并 / 等级阈值校准——以上 4 类变更均必须走 governance/change-protocol.md 治理流程。评测体系迭代证据来源：(a) 季度评测报告暴露的盲区；(b) 业内新评测框架（如 UniFinEval 后续版本）出现的新维度。

七、与业内 3 框架的对比表

FinBayes 11 维度	UniFinEval 7 维度对应	FinEval 6 支柱对应	Cognitive Complexity Benchmark 对应
D1 本体识别准确率	细粒度感知 + 信息对齐	金融学术知识 + 多模态读图	事实记忆 / 实体抽取层
D2 信息源对齐质量	信息对齐与语义同步 + 环境扰动鲁棒性	金融严谨性 + 金融多模态	异构源整合层
D3 跨时钟相位识别	时序建模 + 长程逻辑归纳	（未直接对应）	时序推理层
D4 场景命中与传导链路	多跳推理 + 长程逻辑归纳	金融行业知识（投研场景）	因果链推理层
D5 金融规律应用 + 不适用识别	多约束决策一致性	金融学术知识 + 金融严谨性	定量推理层 + 抗幻觉
D6 偏差识别 + 不确定性量化	（净新增维度，UniFinEval 未覆盖）	金融严谨性	认知元层（贝叶斯 / 反事实）
D7 S1 叙事-数字一致性	（净新增维度，UniFinEval 未覆盖）	金融严谨性 + 抗幻觉	认知元层（自洽性检查）
D8 金融历史可比性（R1 新增）	（净新增）	（净新增）	（净新增，金融领域特有）
D9 跨市场对照推理（R1 新增）	（净新增）	（净新增）	（净新增，与 MCA 配对）
D10 数据可靠性鉴别（R1 新增）	（部分对应「信息对齐」但更深）	金融严谨性（抗幻觉延伸）	异构源整合层（数据真伪层延伸）
D11 风险预算与组合层（R1 新增）	（净新增）	（净新增）	定量推理层（组合层延伸）

差异说明：

UniFinEval 主要评测「感知-推理-决策」纵轴，FinBayes 在此基础上加横切的 D6 + D7 两维（认知元层）+ R1 新增 D8 / D9 / D11 三维（金融差异化护城河）——以上 5 维相对 UniFinEval 是净新增维度（R-C 指出原对比表 D7 同时声称对应 UniFinEval"多约束决策一致性 + 多跳推理"是内部矛盾，R1 修订为"净新增"）。FinBayes 把 UniFinEval 的「时序建模」吸收为 D3「跨时钟相位识别」并扩展为 7 类可注册时钟（M3.t1-t7），粒度比 UniFinEval 时序粒度更细。
FinEval 主要评测「金融知识 + 业务场景 + 安全严谨」，FinBayes 不评测「金融安全合规」（留 FinVault 类专项评测），也不评测「金融多模态读图」（留具体工程化阶段评测）；但吸收了 FinEval 的「金融严谨性 + 抗幻觉」思路，散布在 D5 适用性三态识别 + D6 凯利上限合规 + D7 反向触发命中 + D10 数据可靠性鉴别四处。FinEval 的「金融智能体」（工具调用 / 规划 / 长程记忆）不在 Phase 4 认知体系评测范围内，留工程评测层。
Cognitive Complexity Benchmark 提供「认知复杂度层级」方法论，FinBayes 11 维度可视为这一方法论在金融场景下的实例化——D1-D2 + D10 对应感知层 / D3-D5 + D8 + D9 + D11 对应推理层 / D6-D7 对应认知元层。FinBayes 的特殊性在于 D6 / D7 必须显式输出「双峰后验」「凯利上限」「叙事-数字耦合方向」等结构化字段，D8 / D9 必须输出「可比度量化分数」「跨市场差异点 + MCA 轴归因」，D11 必须输出「边际风险贡献 + 相关性跃迁预警」，比 Cognitive Complexity Benchmark 的「能否正确推理」更具体。
MCA 分桶要求是 FinBayes 独有的——3 套业内框架均未引入「市场结构上下文」作为评测分桶维度。FinBayes 把 MCA 作为评测分桶的元参数，是 Phase 2 14 case 反向校准（特别是 A-4 跨市场翻译损耗）暴露后的原创吸收，业内空白。R1 新增 D9 跨市场对照推理与 MCA 直接配对评测。
FinBayes 不评测「点估计准确率」——这是与所有 3 套框架的根本差异。FinBayes 输出的是认知结构（多机制 + 多场景 + 双峰后验 + 适用性标签 + 可比度量化 + 跨市场归因 + 边际风险贡献），而非「股价预测」「估值点值」。评测的核心问题不是「预测对不对」，而是「结构是否完整 + 是否输出足够多的失效条件与反方证据」——这一定位需要在评测样本标注阶段被金融专家 reviewer 持续校准，避免无意识地回到「点估计准确率」的传统范式。
D8 / D9 / D10 / D11 是 R-A 金融专家提出的「懂金融 vs 通用 LLM + 金融提示词」差异化护城河（R1 新增）——R-A 指出原 7 维中 D1 / D3 / D4 通用 LLM 经金融提示词可达 70-80% 完成度，难以拉开差距；要拉开差距必须加金融历史可比性 / 跨市场对照 / 数据可靠性 / 组合层四维。这四维是 Damodaran / Howard Marks / Druckenmiller / Greenwald / Markowitz 长期反复强调的能力，通用 LLM 在此维度普遍弱，构成 FinBayes 第一版的差异化锚。

八、Phase 6 R1 修订记录

修订范围：本次 R1 修订针对 Phase 6 R-A 金融专家 + R-C 评测专家 review 暴露的 P0-3 评测体系 8 项硬缺陷 + P1-2 D8-D11 四维扩展。

P0-3 评测体系 8 项硬缺陷修订完成度：

#	缺陷	修订方式	完成度
1	D7 S1 标答自指（14 case 自标 contamination）	引入 5 个外部独立标答源（Damodaran "Narrative & Numbers" / Marks memo / Stratechery / FT Alphaville / NYU Stern 课程库）+ 外部源标注必须 IAA kappa ≥ 0.7；14 case 原标注降为内部参考	✅
2	14 case 期望激活清单数据泄漏	70/20/10 开发集 / 测试集 / holdout 三集划分；标答 + 期望激活 + 关键洞察 + 事后演化撤回工程仓内部；holdout 桶位均匀分布	✅
3	D4 GED NP-hard	改为「节点子集 F1（0.35）+ 边子集 F1（0.35）+ 子图同构匹配率（0.30）」三分量替代；可选 Riesen-Bunke 编辑距离上界近似（O(n³)）	✅
4	D3 相位 MAE 离散化粒度未定	明确「季度」作为相位最小单元；7 时钟槽位 v1 起步仅强制评 M3.t1 / M3.t2 / M3.t5 三槽位，其余抽样 IAA	✅
5	D6 多标签 F1 防 top-3 gaming	按 14 case 历史频率反向加权（高频 ×0.5 / 低频 ×2.0）+ 同时报告 macro-F1（差距 > 0.15 触发复审）+ 新增 ECE 校准指标	✅
6	D1 M1.3 开放分类 IAA 门槛 + 分母闭合	六字段拆「闭合类」与「开放分类类」；开放分类类必须经 ≥ 2 专家 IAA kappa ≥ 0.7 方入分母	✅
7	MCA B5 桶拆 B5a / B5b	B5a（A 股政策点火，A-1）vs B5b（A 股散户踩踏，A-3），主映射机制差异显式拆分	✅
8	MCA B7 零样本桶	v1 起步 1-2 case anchor（L7 + L2）+ 单独基线（不参与百分位对照）+ v1→v2 不强制跨 B7 桶 + v2 起补足 ≥ 10 case 后纳入正式百分位	✅

P1-2 评测体系扩 D8-D11 四维定义完成度：

维度	名称	定义 / 主映射 / 样本 / 公式 / MCA 分桶五项规约	完成度
D8	金融历史可比性	完整：5 类样本 + 4 项指标 + 跨时段 / 跨桶两类 MCA 分桶	✅
D9	跨市场对照推理	完整：4 类样本 + 4 项指标 + 必须跨 ≥ 2 MCA 桶约束	✅
D10	数据可靠性鉴别	完整：6 类样本（含 ≥ 5 个事后被证实造假 case + ≥ 15 健康对照）+ 3 项指标 + I3+C3 桶强制评	✅
D11	风险预算与组合层	完整：5 类样本 + 5 项指标 + v1 仅在 B1 / B2 / B3 桶强制评	✅

评测维度从 7 → 11 是否暴露新的内部不一致：

经盘查，11 维度结构上一致，无新增内部矛盾。需在 Phase 6 R2 进一步处理的潜在交叉：

D2 与 D10 边界：D2 评信源可靠性建模 + 跨源对齐，D10 评数据本身可信度（异常应计 / 关联交易等）。R-A §6.3 已建议 D2 进一步拆分（信源元数据 / 政策语义 / 分歧诊断三子层），R1 未处理该拆分（留 Phase 6 R2 或 Phase 7 ADR-007 supplement 决定），D2 / D10 交叉边界 R2 需明示。
D4 子图同构 vs D8 可比度量化：D4 评单 case 内部传导链路；D8 评跨 case / 跨时段的链路结构相似度。两者算法可共享子图同构方法，建议在 R2 时统一工程实现栈，避免重复实现两套同构匹配。
D8 / D9 与 MCA 分桶元数据的耦合：D8 / D9 大量依赖 MCA 轴位作为分析对象。P0-2 拟立的 MCA 轴 7（货币与跨境约束）落地后，D8 / D9 评测样本与指标需同步扩展，R2 评估时一并处理。
D11 依赖 M6.2.x 相关性结构稳定性子机制：M6.2.x 是 P0-1 拟立的金融方法论补位（R-A §2.2），未落地前 D11 的「相关性跃迁预警召回」无机制支撑，R1 已显式标注「v1 起步仅在 B1 / B2 / B3 强制评，待 P0-1 落地后扩展」。

落盘路径：governance/workstreams/finbayes-cognition-system-research/drafts/2026-05-28-phase4-evaluation-system.md

Simbrief（≤500 字）

修订范围：R1 修订针对 Phase 6 R-A + R-C review 暴露的 P0-3 评测体系 8 项硬缺陷 + P1-2 D8-D11 四维扩展。评测维度从 7 → 11。

P0-3 8 项硬缺陷修订完成度：✅ D7 标答自指（引入 Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 5 个外部独立标答源 + IAA kappa ≥ 0.7）；✅ 14 case 数据泄漏（70/20/10 dev / test / holdout 三集划分，标答撤回工程仓）；✅ D4 GED NP-hard（改三分量「节点 F1 + 边 F1 + 子图同构匹配率」）；✅ D3 相位 MAE 离散化（明确「季度」为相位单元）；✅ D6 多标签 gaming（按频率反向加权 + macro-F1 对照 + ECE 校准）；✅ D1 M1.3 开放分类（拆闭合 / 开放两类 + IAA kappa ≥ 0.7 门槛）；✅ B5 桶拆 B5a / B5b（政策点火 vs 散户踩踏）；✅ B7 零样本桶（v1 起步 1-2 case anchor + 单独基线 + 不强制跨桶）。

P1-2 D8-D11 四维定义完成度：✅ D8 金融历史可比性（4 类样本 + 4 项指标 + 跨时段 / 跨桶分桶）；✅ D9 跨市场对照推理（4 类样本 + 4 项指标 + 必须跨 ≥ 2 桶）；✅ D10 数据可靠性鉴别（6 类样本含造假 case + 健康对照 + 3 项指标 + I3+C3 桶强制）；✅ D11 风险预算与组合层（5 类样本 + 5 项指标 + 仅 B1-B3 强制评待 M6.2.x 落地后扩展）。

评测维度从 7 → 11 是否暴露新的内部不一致：结构上无新增矛盾，4 个潜在交叉留 Phase 6 R2 处理——D2 与 D10 边界（R-A §6.3 拟拆 D2）；D4 子图同构与 D8 可比度量化的算法栈统一；D8 / D9 与 MCA 轴 7（P0-2）落地后的同步扩展；D11 依赖 P0-1 M6.2.x 子机制落地。

落盘路径：governance/workstreams/finbayes-cognition-system-research/drafts/2026-05-28-phase4-evaluation-system.md

一、评测目标​

二、11 大评测维度（R1 修订：原 7 维 + 新增 D8-D11 金融差异化维度）​

维度 1 · 本体识别准确率（D1）​

维度 2 · 信息源对齐质量（D2）​

维度 3 · 跨时钟相位识别（D3）​

维度 4 · 场景命中与传导链路完整性（D4）​

维度 5 · 金融规律应用准确性 + 规律不适用识别（D5）​

维度 6 · 偏差识别 + 不确定性量化（D6）​

维度 7 · S1 叙事-数字一致性识别（D7，横切维度）​

维度 8 · 金融历史可比性（D8，R1 新增）​

维度 9 · 跨市场对照推理（D9，R1 新增）​

维度 10 · 数据可靠性鉴别（D10，R1 新增）​

维度 11 · 风险预算与组合层（D11，R1 新增）​

三、评测样本设计​

四、MCA 分桶评测要求​

五、评测周期与责任​

六、与 Phase 5 治理机制的接口​

七、与业内 3 框架的对比表​

八、Phase 6 R1 修订记录​

Simbrief（≤500 字）​

一、评测目标

二、11 大评测维度（R1 修订：原 7 维 + 新增 D8-D11 金融差异化维度）

维度 1 · 本体识别准确率（D1）

维度 2 · 信息源对齐质量（D2）

维度 3 · 跨时钟相位识别（D3）

维度 4 · 场景命中与传导链路完整性（D4）

维度 5 · 金融规律应用准确性 + 规律不适用识别（D5）

维度 6 · 偏差识别 + 不确定性量化（D6）

维度 7 · S1 叙事-数字一致性识别（D7，横切维度）

维度 8 · 金融历史可比性（D8，R1 新增）

维度 9 · 跨市场对照推理（D9，R1 新增）

维度 10 · 数据可靠性鉴别（D10，R1 新增）

维度 11 · 风险预算与组合层（D11，R1 新增）

三、评测样本设计

四、MCA 分桶评测要求

五、评测周期与责任

六、与 Phase 5 治理机制的接口

七、与业内 3 框架的对比表

八、Phase 6 R1 修订记录

Simbrief（≤500 字）