Phase 4 · FinBayes 认知体系评测体系定义(v1)
本文件是 Phase 4 起草任务的产出。基于 Phase 3 升级后的 8 机制 + S1 横切子流程 + MCA 6 分轴,参照业内 3 套评测框架(UniFinEval / FinEval / Cognitive Complexity Benchmark)综合后给 FinBayes 定制评测体系。本版本仍处于「经过研究产出、但仍在持续构建」的状态——所有指标公式标注「建议 v1,待 Phase 6 R2 校准」,所有 MCA 分桶等级阈值留 Phase 5 治理流程二次确认。
R1 修订说明:经 Phase 6 R-A 金融专家 / R-C 评测专家 review,本版本针对 P0-3 评测体系 8 项硬缺陷做修订(D1 / D3 / D4 / D6 / D7 + 样本治理 + MCA B5 / B7 桶),并按 P1-2 扩展 D8-D11 四个金融差异化维度。评测维度由 7 维扩到 11 维。详见文末「Phase 6 R1 修订记录」。
一、评测目标
评测什么:
- 机制覆盖度——8 机制在给定输入下是否被正确激活、子机制是否按 Phase 3 升级定义的子结构展开、横切层接入点是否按 MCA 桶位读取正确参数。
- 输出质量——M1 对象图谱完整性、M2 信源加权合理性、M3 时钟相位识别准确性、M4-M5 场景与传导链路完整性、M6 三支柱适用性标签正确性、M7 偏差识别与不确定性量化(双峰后验 / 凯利上限)合规性、M8 反事实归因精度,以及 S1 横切子流程「叙事-数字耦合判定」的命中率与误报率。
- 跨 MCA 桶稳健性——同一指标在 L1-N1 桶与 L3-N3 桶之间的方差是否在可解释范围内,是否存在因 MCA 桶切换导致机制激活坍塌的盲点。
不评测什么:
- 不评测产品价值(用户付费意愿、留存、NPS),留 L2 产品定义层。
- 不评测商业指标(订阅转化、内容分发),留产品运营层。
- 不评测预测准确率本身(FinBayes 不预测价格,输出的是「认知结构」而非「点估计」),评测的是认知结构是否完整、是否能解释事后观察到的市场演化路径。
评测对象:8 机制 + S1 横切子流程 + MCA 6 分轴输入参数共同组成的「联合系统」。任何单机制评测必须在指定 MCA 桶位下进行,禁止「跨桶平均」掩盖结构性失败。
二、11 大评测维度(R1 修订:原 7 维 + 新增 D8-D11 金融差异化维度)
业内 3 套评测框架综合后,FinBayes 定制 11 维度。前 7 维(D1-D7)覆盖通用「感知 - 推理 - 认知元」纵轴,后 4 维(D8-D11)是 R-A 金融专家提出的「懂金融 vs 通用 LLM + 金融提示词」差异化护城河维度。每维度承担「评测什么能力」+「主映射机制」+「样本类型」+「指标公式 v1」+「MCA 分桶要求」五项规约。所有指标公式标注「建议 v1,待 Phase 6 R2 校准」。
维度 1 · 本体识别准确率(D1)
定义:在给定市场快照(实体集合 + 关系信号 + 跨市场关联线索)下,认知体系正确识别金融对象、关系边、定性属性字段的能力。
主映射机制:M1 全部子机制(M1.1 实体识别 / M1.2 关系建模 / M1.3 定性属性字段 / M1.4 心理账户违例标签)。
样本类型:实体识别选择题 + 关系边补全题 + M1.3 六类定性属性字段填充题(持有人结构 / 商业模式 / 通用战略 / 实体经济网络节点 / 政策反应函数 / 数据可得性等级)+ 跨市场映射边识别题(A-4 类样本)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 实体识别 F1 = 2 × precision × recall / (precision + recall),对无关实体(即体系穷举型多标的)施加 precision 惩罚项,防 D1 穷举 gaming
- 关系边补全准确率 = 正确补全边数 / 应补全边总数
- M1.3 定性属性字段命中率 = Σ 正确字段数 / Σ 应填字段数,分母闭合规则如下:
- 六字段分两类:闭合类(持有人结构 / 实体经济网络节点 / 数据可得性等级,标答可由公开数据客观抽取)与 开放分类类(商业模式 / 通用战略 / 政策反应函数,存在多个合法标签的开放分类)
- 闭合类直接计入分母;开放分类类需通过 inter-annotator agreement(IAA)Cohen's kappa ≥ 0.7 门槛:≥ 2 位金融专家独立标注,kappa 达标的标签纳入分母作为「已校准标答」,未达标的标签暂不计入分母(保留为下一轮重新标注样本),避免分母被开放分类含糊性虚高
- 跨市场映射边权重 ×1.5(稀缺性代理,v1 凭直觉,待 Phase 6 R2 重校准)
- 综合 D1 分数 = 0.3 × 实体 F1 + 0.3 × 关系准确率 + 0.4 × 定性属性命中率(权重组合凭专家直觉,标注「v1 凭直觉,T0+6 月重校准」)
MCA 分桶要求:必须按轴 1(投资者结构)× 轴 6(信息可得性)二维分桶单独报告。L1-I1 桶(机构主导 + 高透明)作为基线;L3-I3 桶(散户 / 量化高敏感 + 低透明)必须单独评,因为 M1.3 的「数据可得性等级」字段在该桶位下从可选变为强制。轴 4(非市场参与者注入)合并入轴 1 报告,不单独分桶。MCA 桶位标签由评测系统强制下发,不允许被测体系自报(防 §三 gaming 路径 6)。
维度 2 · 信息源对齐质量(D2)
定义:异构信源(财报 / 高频价格 / 链上 / 监管文件 / 社交叙事 / 政策语义)的可靠性建模、跨源对齐、政策语义解码、分歧诊断能力。
主映射机制:M2 全部子机制。重点考核 M2.2 账号 × 渠道双轴可靠性、M2.4 政策语义解码、M2.5 分歧诊断。
样本类型:信源可靠性排序题 + 跨源时间戳对齐题 + 政策文件 → 可执行参数解码题 + 多源同质性诊断题(Kahneman 群体思维场景)+ 被黑账号识别题(Case 9 SEC 1/9 假推文型)。
指标公式 v1:
- 信源排序 Spearman 相关系数(与专家基准排序的秩相关)
- 政策语义解码字段命中率 = 正确解码字段数 /(措辞跃迁 + 同台规格 + 时点罕见性 + 对手方目标函数 4 字段)
- 分歧诊断召回率 = 识别出的群体同质化案例数 / 真实同质化案例总数
- 综合 D2 = 0.25 × 信源排序 + 0.35 × 政策解码 + 0.25 × 分歧诊断 + 0.15 × 双轴可靠性识别
MCA 分桶要求:必须按轴 4(非市场参与者注入)单独分桶。N3 桶(高注入)下 M2.4 政策语义解码必须激活并单独评分;N1 桶(低注入)下 M2.4 应保持休眠,激活即扣分。
维度 3 · 跨时钟相位识别(D3)
定义:在多时钟并行运行下识别每个时钟当前阶段,输出跨时钟相位差矩阵,识别矛盾相位(如公司在 growth、产业在 mature)。
主映射机制:M3 全部子机制(M3.t1–M3.t9 9 类时钟槽位,R1 修订前为 M3.t1–M3.t7,新增 M3.t8 Koo 资产负债表衰退时钟 / M3.t9 Minsky 时钟,详见 ADR-007 supplement §2.1)+ M4 场景识别中以时钟为先验的部分。
样本类型:单时钟阶段标签题 + 跨时钟相位差矩阵补全题 + 矛盾相位识别题 + M3.t7 市场特异性相位轴识别题(同一全球周期在 A 股 vs 美股 vs Crypto 的相位偏移)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 单时钟标签准确率 = 正确标签数 /(注册的时钟总数 × 样本数)
- 相位差矩阵 MAE(与专家基准矩阵的元素级平均绝对误差),离散化粒度明确为「季度」作为一个相位单元——长债 / 短债 / 产业 / 事件 / 政策 / 估值 / 市场特异性 7 类时钟一律以季度为最小相位刻度,矩阵元素为整数季度数。这一刻度选择基于:(a) Phase 2 14 case 中事件演化均以季度尺度可识别;(b) LLM 输出"产业 mature 中段"vs"产业 mature 晚段"在月度刻度上不可靠(专家间 IAA 不足),季度刻度上稳定。Minsky 子相位(hedge / speculative / Ponzi)按子相位标签独立计 IAA,不与季度刻度叠加
- 矛盾相位识别召回率 = 识别出的矛盾相位对数 / 真实矛盾相位对数
- 综合 D3 = 0.4 × 单时钟标签 + 0.3 × 相位差 MAE 反向 + 0.3 × 矛盾识别召回
最小样本量与 IAA 要求:9 时钟槽位并行评测引发组合爆炸(R1 修订前为 7 槽位),每桶 20 case × 9 标签的人工 IAA 复审在 v1 不可行;v1 起步阶段每桶仅强制评 M3.t1(长债)+ M3.t2(短债)+ M3.t5(事件)三槽位,其余 6 槽位采用抽样 IAA(每季度从全样本随机抽 30% case 做 IAA 复审),待 v2 工程能力提升后再覆盖全 9 槽位
MCA 分桶要求:按轴 3(制度性摩擦)单独分桶。F3 桶(高摩擦)下 M3.t5 事件冲击时钟必须叠加「制度摩擦相位」(T+1 / 涨跌停延迟价格出清),相位识别要求更严;F1 桶(低摩擦)下该子项缺省不评。
维度 4 · 场景命中与传导链路完整性(D4)
定义:把市场快照映射到正确场景模板(含多场景叠加),生成完整传导链路图(节点 + 边 + 反向力量 + 制度摩擦层),区分内生反身性 vs 外生政策注入。
主映射机制:M4 全部子机制 + M5 全部子机制(重点考核 M5.3 shared-book contagion 4 形态、M5.4 制度摩擦层、M5.5 反向力量子机制、M5.6 内生/外生区分)。
样本类型:场景模板多选题(允许多场景叠加)+ 传导链路图补全题(节点 + 边 + 边类型标签)+ shared-book contagion 形态识别题(4 形态二选一或四选一)+ 反向力量识别题(Case 9 GBTC 折价收敛套利型)+ 内生 vs 外生冲击归类题。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 场景命中 F1(多标签)
- 传导链路图相似度(R1 修订:放弃 GED 改用三分量替代,原 GED 在 M5 链路 ≥ 15 节点 + 30 边时 NP-hard 且 max_GED 取法未标准化):
- (a) 节点子集 F1 = 与基准图节点集合的 F1(precision = 正确节点 / 体系输出节点;recall = 正确节点 / 基准节点)
- (b) 边子集 F1 = 与基准图边集合(含边类型标签)的 F1
- (c) 子图同构匹配率 = 在节点对齐后,基准图中预定义的「关键子图模式」(如「政策点火 → 流动性吸收 → 反身性自我增强」三节点链)在体系输出图中被同构识别的比例。子图模式集合在 Phase 5 治理流程中由专家维护,v1 起步约 8-10 个关键子图模式
- 链路相似度合成 = 0.35 × 节点 F1 + 0.35 × 边 F1 + 0.30 × 子图同构匹配率
- 替代选项:若工程实现需进一步降复杂度,可改用「编辑距离上界近似」算法(基于 Hungarian 算法的 O(n³) 近似,Riesen-Bunke 2009),返回标准化分数 ∈ [0,1]
- shared-book 4 形态分类准确率
- 反向力量召回率 = 识别出的反向力量数 / 真实反向力量总数
- 综合 D4 = 0.25 × 场景 F1 + 0.3 × 链路相似度 + 0.25 × shared-book 形态准确率 + 0.2 × 反向力量召回
MCA 分桶要求:跨多个 MCA 轴位分桶。轴 1(L 级)+ 轴 2(D 级)+ 轴 3(F 级)+ 轴 5(C 级)四轴组合作为场景检索的关键键值。建议在「核心桶」表中归并到 5 个组合上(见第四节)。
维度 5 · 金融规律应用准确性 + 规律不适用识别(D5)
定义:M6 三支柱(估值 / 因子 / 衍生品)在适用样本上的应用准确性,以及在不适用样本(meme / 无基本面锚 / 衍生品市场缺失)上正确输出「不适用」标签的能力。
主映射机制:M6 全部子机制,重点 M6.4「规律不适用」显式输出、M6.5 周期 PE 错觉提示、M6.3 衍生品支柱的 D 轴依赖。
样本类型:DCF 估值计算题(含 Damodaran 7 步骤) + 因子归因题 + 期权 IV 隐含概率读题 + 适用性三态标签题(适用 / 部分适用 / 不适用)+ 周期 PE 陷阱识别题(Case 6 锂电型)+ 衍生品支柱可用性判定题。
指标公式 v1:
- 估值数值 MAPE(相对专家基准)
- 因子归因 Kendall τ(与基准排序的秩相关)
- 适用性三态标签准确率(必须包含混淆矩阵 + 假阳性率,避免「全标 not-applicable 偷分」)
- 综合 D5 = 0.3 × 估值 MAPE 反向 + 0.2 × 因子 τ + 0.4 × 适用性三态准确率 + 0.1 × 周期 PE 陷阱召回
MCA 分桶要求:按轴 2(衍生品成熟度)单独分桶。D1 桶下 M6.3 衍生品支柱必须有效输出隐含概率;D3 桶下 M6.3 必须标记「不可用」并降权至 0,激活即扣分。轴 1 = L3(散户 / 量化高敏感)+ 主题股场景下,必须与 B-3「规律不适用」联动评测。
维度 6 · 偏差识别 + 不确定性量化(D6)
定义:M7a 个体即时偏差识别(20 项 Kahneman 全谱)+ M7b 群体偏差识别(含 shared-book 同质持仓 / 共识反转叙事对称 / funding-到-peak 群体窗口)+ M7.meta 元认知触发 + M7.uq 不确定性量化(双峰重尾默认先验 / 双峰后验 / 凯利上限)。
主映射机制:M7 四子层全部。
样本类型:偏差标签多选题(20 项 M7a 全谱)+ 群体同质化诊断题 + 慢思考触发场景识别题 + 双峰后验输出形态题(Case 5 / Case 8 型)+ 凯利上限计算题(Case 10 型 attention market)+ 双峰重尾先验校准题(避免正态先验在金融场景的尾部低估)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- M7a 偏差识别加权多标签 F1(20 类,R1 修订):原朴素多标签 F1 可被「只标 top-3 高频偏差(损失厌恶 / 锚定 / 代表性)」刷至 0.7+。R1 改为:
- 每个偏差标签按 14 case 历史出现频率反向加权:频率高的偏差权重 ×0.5,频率低的偏差权重 ×2.0,强制覆盖长尾。频率统计以 Phase 2 + 后续扩展的全 case 池为准,每季度更新
- 同时计算 macro-F1(每类等权平均)作为对照指标:macro-F1 与加权 F1 同时报告,若两者差距 > 0.15 视为存在标签偏向 gaming,触发人工复审
- calibration 指标:要求体系对每个偏差标签同时输出 confidence([0,1]),评测时计算 Expected Calibration Error (ECE) = Σ |confidence - 实际正确率|,ECE ≤ 0.15 视为校准合格。这一指标防止「全标 + 高 confidence」的低成本 gaming
- M7b 群体偏差识别 F1(同样加权 + macro-F1 + ECE 三件套)
- 双峰后验形态正确率(是否输出双峰、双峰权重是否在合理区间、是否被强制压均值)。合理区间由 ≥ 2 位专家独立给出,重叠率 ≥ 0.8 才计入评测(R-C P0-3 附加建议)
- 凯利上限合规率 = 输出仓位 ≤ 凯利上限的样本数 / 应触发凯利约束的样本数
- 综合 D6 = 0.20 × M7a 加权 F1 + 0.10 × M7a macro-F1 + 0.20 × M7b 加权 F1 + 0.10 × M7b macro-F1 + 0.10 × ECE 反向 + 0.20 × 双峰形态 + 0.10 × 凯利合规
MCA 分桶要求:按轴 1(投资者结构)+ 轴 4(非市场参与者注入)联合分桶。L3 桶下 M7a 个体偏差权重提升(散户情绪指标进入主因子),L1 桶下 M7b 机构同质化(carry unwind / shared book)权重提升,两桶下评测加权方式不同,禁止跨桶平均。
维度 7 · S1 叙事-数字一致性识别(D7,横切维度)
定义:S1 横切子流程对三种失败模式(远期外推 / 源端缺失 / 数据脱节)+ 二阶退化分支(attention market)+ 正向耦合(Case 7 教科书型)的识别能力。跨 M5 + M6 + M7 三机制联合评测。
主映射机制:S1 子流程主体 + 反向触发到 M5 / M6 / M7 的链路。
样本类型:三种失败模式分类题 + 多模式并发题(Case 8 Tesla 双层脱节型)+ 正向耦合识别题(Case 7 型)+ 二阶分支启用判定题(M6 不适用 → S1 是否切换二阶)+ 共识反转双向脱节题(Case 6 顶 + 底)+ s1.mode 多选输出题。
标答源(R1 修订核心:必须外部独立,禁用 14 case 自标): 原 v0 用 14 case 自带的事后标注作为基准,等于「自己给自己出题、自己批改」(R-C P0-3-1 评测自指),属于经典 LLM benchmark contamination。R1 强制改为下列外部独立标答源:
- Damodaran "Narrative & Numbers"(2017)+ Damodaran Blog 历年实证 case:含 Uber / Tesla / Twitter / Aramco / Zoom 等十余个完整的「叙事 → 数字 → 估值」匹配复盘,含其后市场演化的事后验证。每 case 自带「叙事 - 数字耦合判定」专家标注,是 D7 模式 a / 模式 c 的金本位标答源。
- Howard Marks 历年 memo(橡树资本 1990 - 2025):含 60+ 篇关于「过度乐观叙事」、「风险定价错配」、「周期顶 / 底叙事 - 数字脱节」的实时点评。Marks memo 在事件发生当下做出判断,事后可验证,是 D7 模式 a / 模式 e(远期外推 / 时间错位)的强标答源。
- Stratechery 原文复盘库(Ben Thompson 2013 - 2025):科技股「叙事 - 商业模式 - 数字」匹配的同时段公开记录,含 Apple / Amazon / Meta / Snap 等数十个完整叙事生命周期记录。是 D7 二阶 attention 分支与模式 b(源端缺失)的关键标答源。
- FT Alphaville 历年 case 复盘:含 Wirecard / Greensill / Archegos / SVB / Credit Suisse 等「数字本身造假 / 不可比 / 数据脱节」的金牌外部独立调查,是 D7 模式 b(源端缺失)+ R1 后续 P1-1 拟立模式 d(计量单位不可比)的标答源。
- Damodaran Story / Numbers Connect 课程作业库(NYU Stern 公开课):约 100 个学生作业 + 教师标答的「叙事 - 数字一致性诊断」样本,每样本附标准答案,是 D7 大规模训练 / 验证集补充源。
外部标答源使用规约:
- 5 源同时纳入,每个 D7 评测样本至少有 1 个独立外部标答(不可仅依赖 14 case 自标)。
- 外部源标注与 FinBayes 14 case 自标交叉一致时(IAA kappa ≥ 0.7)方可使用外部源作为该 case 的最终标答。
- 14 case 自带「叙事 - 数字耦合判定」原标注降为「内部参考标注」,不进入评测打分分母,仅作 IAA 比较参照。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 三模式分类 F1(多标签,含 positive 与 degraded-attention 共 5 类),对默认输出「远期外推」的高频 gaming 路径加 base-rate 校正——若样本测试集中模式 a 占比 30%,体系对模式 a 的命中率高于 base-rate × 1.5 时触发可疑标记,要求人工抽查
- 多模式并发识别率 = 正确识别多模式并发的样本数 / 真实多模式并发样本数
- s1.coupling-strength 与外部标答源(Damodaran / Marks 量化判定)的 Spearman 秩相关(小样本下 Spearman 比 Pearson 稳健)
- 反向触发命中率 = 正确触发 M5/M6/M7 的次数 / 应触发总次数
- 综合 D7 = 0.3 × 模式分类 F1 + 0.2 × 多模式并发 + 0.2 × 耦合强度秩相关 + 0.3 × 反向触发命中
最小样本量与 IAA:每模式 ≥ 15 case(5 模式 × 15 = 75 case 起步),所有外部标答源标注必须经 ≥ 2 位金融专家独立 IAA 复审,kappa ≥ 0.7 方可入评测池。
MCA 分桶要求:D7 是横切维度,与 MCA 正交,但模式 b(源端数字缺失)的评测样本必须来自 L3 + I3 桶或跨市场翻译 case;S1 在跨市场翻译 case 中的输出必须显式联动 MCA 轴位读取。建议单独保留一个「跨市场 S1」桶以专门评测模式 b。
维度 8 · 金融历史可比性(D8,R1 新增)
定义:体系是否能给当前 case 找到合适的历史可比对照、识别错误类比、提取关键相同点与关键不同点、并量化可比度。是 Damodaran / Howard Marks / Druckenmiller 长期反复强调的核心金融能力——通用 LLM 在此维度普遍弱(容易做表面类比、忽略 base-rate 差异)。
主映射机制:M3(时钟相位匹配以确定可比时段)+ M4(场景模板匹配)+ M8(反事实归因,用历史对照验证当前判断)+ MCA(确保跨时段可比时市场结构差异被显式标注)。
样本类型:
- 历史可比检索题("当前 NVDA 估值最可比的历史 case 是 1999 Cisco、1995 Intel、2007 Apple 还是 2020 Zoom",含 base-rate 解释)。
- 错误类比识别题("将 2024 AI 资本开支套 2000 互联网泡沫 capex 哪里对、哪里不对")。
- 相同点 / 不同点抽取题(给定 case A 与历史 case B,要求体系输出至少 3 个结构同构点 + 至少 3 个结构差异点,并标注每点的可比方向与权重)。
- 可比度量化题(给定当前 case + 候选历史 case 集合,输出每个候选的相似度分数 [0,1],与外部专家排序比较)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 可比 case 选择准确率 = 与外部专家共识首选可比 case 一致的样本数 / 总样本数(外部源:Howard Marks memo 引用的历史可比 + Damodaran 复盘明示的对标 case)
- 相同点 / 不同点抽取 F1(多标签)
- 可比度排序 Spearman 秩相关(与专家排序)
- 错误类比识别准确率("哪里不对"识别 F1)
- 综合 D8 = 0.3 × 可比选择 + 0.3 × 相同 / 不同 F1 + 0.2 × 可比度秩相关 + 0.2 × 错误类比识别
MCA 分桶要求:D8 跨桶评测——同一 case 在不同 MCA 桶位下的可比对照不同(如 2015 A 股股灾 vs 1929 美股大萧条,跨桶可比要求体系显式标注「轴 1 / 轴 3 / 轴 4 不同」的可比限制)。建议保留「跨时段同桶」与「跨桶同时段」两类样本,分别评测。
维度 9 · 跨市场对照推理(D9,R1 新增)
定义:同一事件 / 信号在 A 股 / 美股 / 日股 / 港股 / EM 不同市场的差异化传导推理能力——这是 MCA 设立的根本目的,但原 D7 模式 b 只覆盖了一个侧面(跨市场翻译损耗),D9 独立成维专门评测「同源信号 → 跨市场差异化路径推演」。
主映射机制:MCA 全部 7 轴(R-A P0-2 已落地,R1 修订前为 6 轴;详见 ADR-007 supplement §2.2)+ M5(传导链路)+ M1.2(跨市场映射边)+ S1(跨市场翻译 case 的叙事 - 数字耦合)。
样本类型:
- 跨市场同源事件传导差异题("美联储 50bp 降息在 美股 / A 股 / 日股 / 阿根廷股市 的不同传导链路",体系输出 4 条链路 + 每条链路的 MCA 桶位标注)。
- 跨市场反身性强度对比题("特斯拉股价反身性 vs 比亚迪反身性,两市场散户结构差异导致的反身性强度差")。
- 跨市场政策传导对比题("中国房地产调控 vs 加拿大房地产调控,因 MCA 轴 4 / 轴 5 差异导致的传导链路差")。
- 跨市场套利 / 价差识别题(H 股 - A 股折溢价、ADR 与本地股价差、GBTC 折价收敛等)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 多市场传导链路 F1(每市场独立计算链路准确性,再做 macro 平均)
- 市场间差异点抽取准确率("为什么不同"识别 F1)
- MCA 轴位归因准确率(体系输出的差异点能否正确映射回 MCA 轴)
- 跨市场套利 / 价差方向预测准确率(仅评方向,不评幅度)
- 综合 D9 = 0.3 × 多市场链路 F1 + 0.3 × 差异点 F1 + 0.25 × MCA 归因准确率 + 0.15 × 价差方向
MCA 分桶要求:D9 必须跨 ≥ 2 个 MCA 桶才有效——单桶内的"跨市场推理"是退化为同桶推理。建议核心样本类型为 B1 + B5(发达机构 vs A 股散户急性)、B1 + B7(发达机构 vs EM 主权危机)、B5 + B6(A 股散户 vs A 股跨市场翻译)三对跨桶对照。
维度 10 · 数据可靠性鉴别(D10,R1 新增)
定义:独立于 D2「信源对齐」,专门评测体系对数据本身的可信度鉴别能力——即不评信源排序、不评政策语义、专评「这个数字 / 这份披露 / 这条卖方一致预期是否被预期管理 / 是否被 PR 化 / 是否技术造假」。是 Greenwald 价值投资学派 + Muddy Waters / Hindenburg 卖空机构的核心能力,通用 LLM 在此维度极弱。
主映射机制:M1.3「数据可得性等级」+ M2.2 账号 × 渠道双轴可靠性的延伸 + M7a 锚定 / 过度自信偏差检测(用于识别"预期管理"中的市场锚定)+ M6 三支柱适用性(用于识别"准则套利"型数据扭曲)。
样本类型:
- 异常应计识别题(应计利润 vs 经营性现金流背离,Beneish M-score 等技术)。
- 关联交易 / 表外负债识别题(A-2 房地产 case 城投表外、Greensill 应收账款融资 case)。
- 卖方一致预期被预期管理识别题(公司"指导"卖方上下调预期的痕迹检测)。
- 公司披露 PR 化识别题(管理层语言 vs 财报数字背离,电话会措辞情绪变化)。
- 准则套利识别题(IFRS vs US GAAP、扣非 vs 非经常、研发资本化 vs 费用化等切换的影响)。
- 重大造假事前 / 事后识别题(Wirecard / Luckin / Enron / Lehman repo 105 等,含事前蛛丝马迹 + 事后复盘)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 数据可靠性分级准确率(高 / 中 / 低 / 不可信 四态,对照外部独立调查结论)
- 关键风险信号召回率(应计异常 / 关联交易 / 表外 / 预期管理 / 准则套利 5 类信号的召回)
- 误报率(健康公司被错误标记为"低可信"的比例,防过度悲观 gaming)
- 综合 D10 = 0.35 × 分级准确率 + 0.4 × 风险信号召回 + 0.25 × 误报率反向
最小样本量:5 类风险信号每类 ≥ 10 case,含 ≥ 5 个事后被证实造假 case(Wirecard / Luckin / Enron / Hindenburg 报告标的 / Muddy Waters 报告标的等)+ ≥ 15 个健康公司对照样本(防过度悲观 gaming)。
MCA 分桶要求:按轴 6(信息可得性)+ 轴 5(信用环境)联合分桶。I3 + C3 桶(低透明 + 政府节奏出清)下数据可靠性鉴别强度要求最高(A-2 房地产 case 标准桶)。I1 + C1 桶(高透明 + 商业债务出清)下评测重点转向"准则套利"与"卖方一致预期管理"。
维度 11 · 风险预算与组合层(D11,R1 新增)
定义:评测体系在「已有组合上加入这个标的」时的边际贡献能力——单标的认知(D1-D10)的下游应用。组合层是当前 D1-D10 全部未覆盖的层,但机构客户最关心这一层。对应 R-A §1.4 量化金融缺口(MPT 协方差矩阵 + 风险平价 + 风险因子轮动)。
主映射机制:M6.2 因子支柱的协方差矩阵延伸(待 P0-1 落实 M6.2.x 相关性结构稳定性子机制后激活)+ M5.3 shared-book contagion(组合层相关性跃迁)+ M7.uq 凯利上限(仓位约束)。
样本类型:
- 边际风险贡献计算题(给定 60/40 组合 + 候选新增标的,输出"加入后组合波动率变化 + VaR 变化 + 在尾部场景下的边际损失")。
- 相关性跃迁前夜识别题(识别"现在组合各资产相关性还低、但已具备跃迁前提"的预警信号)。
- 风险平价配置题(多策略 / 多资产配置下,每个 sleeve 的风险预算分配)。
- 因子风险暴露分解题(组合层 Fama-French 因子暴露 + 行业暴露 + 国别暴露)。
- 凯利上限组合层应用题(多标的同时凯利约束下的总仓位上限)。
指标公式 v1(建议 v1,待 Phase 6 R2 校准):
- 边际风险贡献数值 MAPE(与专家基准)
- 相关性跃迁预警召回率(事后发生跃迁的样本中事前正确预警的比例)
- 风险预算分配 KL 散度(体系输出分配 vs 专家分配)
- 因子暴露分解准确率
- 凯利组合上限合规率
- 综合 D11 = 0.25 × 边际风险 MAPE 反向 + 0.25 × 相关性跃迁召回 + 0.2 × KL 散度反向 + 0.2 × 因子分解 + 0.1 × 凯利组合合规
MCA 分桶要求:D11 与 MCA 轴 1(投资者结构)+ 拟立轴 7(货币与跨境约束)强相关。L1 桶(机构主导)下 D11 是核心评测项;L3 桶(散户 / 量化高敏感)下 D11 退化为单标的层(散户无组合层意识,评测重点回到 D6 凯利上限)。v1 起步阶段 D11 仅在 B1 / B2 / B3 三个发达机构桶强制评,B4 / B5 / B6 / B7 桶 D11 暂为可选项,待 P0-1 M6.2.x 落地后再扩展。
三、评测样本设计
样本规模建议(v1):每核心 MCA 桶最少 20 个样本,覆盖 11 维度全部样本类型;其中至少 5 个为非显然洞察类(要求体系输出「强于标答」的洞察)+ 5 个边界样本 + 10 个常态样本。8 个核心桶(B1-B7 + B5 拆 B5a / B5b 后总数)× 20 = 160 个起步样本规模。R-C 评测建议季度补 case 量从 5-10 提至 15-20。
开发集 / 测试集 / holdout 划分(R1 核心修订,原 v0 缺失即数据泄漏):
原 v0 未区分「用于 prompt 调优的开发样本」与「评测专用 holdout 样本」,14 case 在 Phase 2 已全部公开于本工作流文档中,其期望激活清单 + 关键洞察清单 + 事后市场演化路径实质等于评测样本污染源——任何后续模型读到本仓库的 14 case 均构成数据泄漏。R1 强制划分:
- 开发集(dev set):70%——可公开在本仓库 + agent pack,用于 prompt 工程 / 子机制阈值校准 / 维度权重调试。开发集样本可被 LLM 训练 / 微调读到,但标答不进入训练样本(标答本身保留在工程仓内部)。
- 测试集(test set):20%——半公开,仅 case 事实层公开,标答 + 期望激活清单 + 关键洞察清单 + 事后演化路径撤回到工程仓内部存储,本仓库公开版只保留事实层。
- holdout 集:10%——完全私密,仅评测系统内部可读,用于年度抽检 + 防退化基线对照。holdout 桶位分布要求均匀,避免全在 B1 桶(R-C P0-3 附加约束)。
14 case 处置:Phase 2 14 case 按 10 / 3 / 1 比例分配进 dev / test / holdout 三集。14 case 的「关键洞察清单」与「期望激活清单」从本仓库公开 markdown 立即撤回到工程仓内部存储,公开版只保留事实层(市场快照 + 时间戳 + 关键数字 + MCA 桶位标签)。
样本来源:
- 种子层:Phase 2 已校准的 14 case(10 全球 + 4 A 股)作为 v1 评测基础种子,已带「事后标准答案 + 14 项洞察清单 + 累积证据强度分级」,按上述 70/20/10 分集。
- 扩展层:参照 §6.1 列出的 8 个未覆盖场景(L1–L8:日本通缩 / 阿根廷土耳其恶性通胀 / 1998 LTCM / 印度 demonetization / 2010 欧债 / 2008 GFC / 1997 亚洲风暴 / 大宗超级周期),每季度补 15-20 case(R-C 建议),半年内覆盖 L1 / L5 / L6 三类高优先级 case。扩展层 case 新增时同样按 70 / 20 / 10 分集。
- D7 / D8 外部标答源层:D7 五大外部标答源(Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 课程作业)+ D8 历史可比专用样本(Howard Marks memo 引用历史可比 case 库)独立于 14 case 体系,本身即外部独立标答。
- 采样层:日常评测可对接 FinTeam / UniFinEval 等公开数据集做随机抽样作为常态样本补充,但常态样本不替代 case 级评测。
样本平衡:
- 成功 case(体系输出完整且与专家共识接近)占 ~40%。
- 失败 case(体系应识别但实际遗漏)占 ~30%——用于评测覆盖度。
- 边界 case(机制本身边界,如 M6 不适用 / S1 二阶分支启用 / S19 制度摩擦)占 ~30%——用于评测「不该输出时是否克制」与「该切换路径时是否切换」。
样本标注规范:每样本至少包含——
- 市场快照(事实层,含信源列表 + 时间戳 + 关键数字)。仅此项对开发集公开。
- MCA 6 轴轴位标签(L/D/F/N/C/I 各一档)+ 桶 ID。(R1 修订后升为 7 轴,含 K 货币与跨境约束轴,详见 ADR-007 supplement §2.4)评测时由评测系统强制下发给被测体系,不允许被测体系自报(防 §三 gaming 路径 6)。
- 8 机制的期望激活清单(必激活 / 可选激活 / 应保持休眠)+ 子机制级期望。保留在工程仓内部,不进开发集公开层。
- S1 期望模式 + 期望反向触发清单。保留在工程仓内部。
- 关键洞察清单(参照 Phase 2 「体系强于标答的 14 项洞察」模板)。保留在工程仓内部。
- 事后观察到的市场演化路径(用于 M8 反事实评测的对照)。保留在工程仓内部。
- 引用规约:体系输出涉及外部信源(SEC 文件 / IEA 报告 / 政策文件等)时,必须含可验证 URL + 时间戳 + 关键字段抽取,仅给占位字符串视为引用无效(R-C §三 gaming 路径 2 防御)。
四、MCA 分桶评测要求
避免 MCA 6 轴 × 3 等级的组合爆炸(理论上 3^6 = 729 桶),v1 建议先定 8 个核心桶(R1 修订:原 7 桶基础上 B5 拆为 B5a / B5b),覆盖 Phase 2 14 case 的实际触发结构 + 未来 L1–L8 扩展的主要落点。(R1 修订后升为 7 轴,含 K 货币与跨境约束轴,详见 ADR-007 supplement §2.4;6 轴评测桶 ID 设计本身不重写,留 R2 review 校准。)
| 桶 ID | 桶名 | MCA 6 轴位 | 代表 case |
|---|---|---|---|
| B1 | 发达机构基线桶 | L1 + D1 + F1 + N1 + C1 + I1 | C1 / C7 / C8 |
| B2 | 发达机构 + 主权基金桶 | L1 + D1 + F1-F2 + N2 + C1-C2 + I1 | C2 / C3 |
| B3 | 发达 + 链上原生桶 | 非传统 L(结构性置换)+ D1 + F1 + N1 + C1 + I1 | C9 / C10 |
| B4 | A 股政策出清桶 | L2-L3 + D2 + F2-F3 + N3 + C3 + I3 | A-2 |
| B5a | A 股政策点火桶(R1 拆分) | L3 + D2 + F3 + N3 + C2-C3 + I2 | A-1 |
| B5b | A 股散户踩踏桶(R1 拆分) | L3 + D2 + F3 + N3 + C2 + I2 | A-3 |
| B6 | A 股跨市场翻译桶 | L3(小微盘量化)+ D2 + F2-F3 + N2-N3 + C2 + I2-I3 | A-4 |
| B7 | EM 主权 / 货币危机扩展桶 | L2 + D2-D3 + F2 + N2-N3 + C2-C3 + I2-I3 | L2 / L3 / L7(扩展) |
B5 拆分理由(R1 新增):原 B5 把 A-1(政策点火,反身性自我增强阶段)与 A-3(场外配资踩踏,funding liquidity 急性收缩)合并,但两者反身性触发机制差异显著——A-1 是「外生政策注入 → 内生反身性自增强」,A-3 是「内生杠杆斜率 → 外部 funding 断裂」,主映射机制不同(A-1 强 M5.6 内生 / 外生区分 + M2.4 政策语义;A-3 强 M5.3 shared-book acute + M7b 群体同质化)。"同桶可比"前提不成立,故 v1 起步即拆分。
B7 零样本桶处理(R1 新增):B7 在 14 case 中零样本,依赖 L2 / L3 / L7 等扩展 case 才能填充,要求每桶 20 起步则 B7 等于必须补完 Phase 2 L1-L8 全部高优先级 case,工作量与时间表不匹配。v1 起步规约:
- v1 起步阶段以 1-2 个 case 作 anchor——优先补 L7 1997 亚洲风暴 + L2 阿根廷 / 土耳其恶性通胀,作为 B7 桶位的最小可用样本。
- v1 阶段 B7 单独基线——不参与与其他桶的「桶内百分位」对照(因为基数不足以做百分位),单独报告绝对分数趋势。
- v1→v2 窗口不强制跨 B7 桶——P0-1 / P0-2 涉及的机制 / MCA 轴扩展门槛在 v1→v2 过渡期不要求 B7 必须达标。
- v2 起补足至 ≥ 10 case 后纳入正式百分位对照体系。
桶间结果归一化:同一指标在 B1 桶(发达机构基线)vs B5a / B5b 桶(A 股政策点火 / 散户踩踏)的 D2(信源对齐)分数不能用同一基线比较——B1 桶 M2.4 政策语义解码应休眠,B5a 桶必激活,两桶的指标计算公式不同(B5a 桶下分母含 M2.4 字段,B1 桶下分母不含)。归一化方式建议 v1:每桶独立维护自身的「桶内满分」基准,跨桶比较时只比较「桶内分数百分位」,不直接比较绝对分数。百分位计算所需最小样本量 ≥ 30(R-C 建议):单桶 < 30 样本时用 bootstrap 重采样估带宽,并在报告中显式标注「百分位带宽 ± X%」。
桶间漂移监测:同一市场不同时间段的 MCA 标签可能漂移(如 2015 A 股 vs 2024 A 股,后者衍生品成熟度从 D3 进入 D2、机构占比上升)。R1 调整:MCA 标签校准频率从「每年一次」提至「每半年一次」(R-C 建议),标签变化时同步更新该桶的代表 case 集合,避免「旧桶用新数据」或「新桶用旧基线」。
轴位标签自身的评测:MCA 标签是评测分桶的元数据,其本身可靠性需独立评测——给定新市场快照,体系是否能正确归类到 6 轴各自的等级。(R1 修订后升为 7 轴,含 K 货币与跨境约束轴,详见 ADR-007 supplement §2.4)建议 v1 把 MCA 归类作为 D1 维度的子项「市场结构标签准确率」单独计分。评测时 MCA 桶位由评测系统强制下发,被测体系不允许自报(防 §三 gaming 路径 6)。
五、评测周期与责任
评估周期:
- 季度全量评测:所有核心桶 × 7 维度跑一次,产出完整评测报告 + 与上季度对比的漂移分析。
- 月度增量 sample:每月 30–50 个新样本(从最近一个月的真实市场事件抽样),抽样侧重当月新出现的市场结构特征或新出现的失败模式。
- 触发式专项评测:每当一个新的「未覆盖场景」case 加入种子集(如 L1 日本通缩补入),触发对该场景所属桶位的全量重测。
评估责任方(三轨):
- 工程团队——负责自动化评测管线、指标计算、桶位标签维护、回归测试。
- 金融专家 reviewer——负责样本标注、关键洞察清单审核、双峰后验「合理区间」的人工判定、跨市场 case 的轴位标签校准。专家 reviewer 至少 2 人独立标注后做交叉验证(盲交叉,仿 UniFinEval 做法)。
- 用户反馈——产品上线后通过结构化反馈通道(用户对认知结论的「是否同意 / 缺哪个反方证据 / 哪个失效条件不成立」)回收为评测样本候选,进入下一季度评测池。
评估结果产出形态:
- 季度评测报告(含每桶 × 每维度的分数 + 漂移分析 + 失败 case 归因)。
- 报告作为反向输入,触发:(a) 机制定义层修订(走 Phase 5 治理流程);(b) MCA 桶位 / 轴位等级阈值调整(走治理流程);(c) pending 项升级或否决决议(S19 / S3 / S6 / 双峰后验作为标准输出形态等)。
六、与 Phase 5 治理机制的接口
评测发现「机制不足以覆盖某 case」时的治理触发路径:
- 单 case 失败:归类为「样本扩展」而非机制扩展,进入下一季度种子池。
- 同一桶位连续 ≥ 3 个 case 失败且失败模式同构:触发「桶位级机制不足」预警,进入 Phase 5 治理评估。
- 跨 ≥ 2 个桶位出现同构失败:触发「机制级不足」预警,进入 Phase 5 治理评估,可能引发 8 机制结构变更(新增子机制 / 拆分机制 / 新增横切层)。机制层结构变更必须走
governance/change-protocol.md体系级流程。
pending 项升级为正式机制的评测证据门槛:参照 Phase 2 累积证据强度分级方法 ——
- A 级:≥ 4 个 case 强触发 + 跨 ≥ 2 桶位 → 升级为正式子机制。
- B 级:≥ 3 个 case 强触发 + 单桶位为主 → 升级为正式子机制但保留「pending 评估期」一季度。
- C 级:单 case 触发或证据弱 → 维持 pending,留下季度评测再观察。
当前 pending 项的初始评测重点:
- S19 跨资产避险分化 + 制度性摩擦(C3 + A-3 触发,目前 C 级)→ 评测优先级:在 B5 + B7 桶补齐 ≥ 2 个 case 强触发。
- S3 宏观-社会结构(C3 / C4 / A-1 / A-2 触发,目前 C 级)→ 评测优先级:在 B7 扩展桶补齐欧债 / 阿根廷 case 后再决议。
- S6 无形价值识别(C8 + C10 反向触发,目前 C 级)→ 评测优先级:补齐 NFT / 数据资产估值 case 后再决议。
- 峰终 / 记忆自我扭曲(M7.meta pending)→ 评测优先级:需要专项行为偏差 case 设计。
评测体系自身的迭代:评测维度变更(如新增 D8)/ 指标公式变更 / 桶位拆分合并 / 等级阈值校准——以上 4 类变更均必须走 governance/change-protocol.md 治理流程。评测体系迭代证据来源:(a) 季度评测报告暴露的盲区;(b) 业内新评测框架(如 UniFinEval 后续版本)出现的新维度。
七、与业内 3 框架的对比表
| FinBayes 11 维度 | UniFinEval 7 维度对应 | FinEval 6 支柱对应 | Cognitive Complexity Benchmark 对应 |
|---|---|---|---|
| D1 本体识别准确率 | 细粒度感知 + 信息对齐 | 金融学术知识 + 多模态读图 | 事实记忆 / 实体抽取层 |
| D2 信息源对齐质量 | 信息对齐与语义同步 + 环境扰动鲁棒性 | 金融严谨性 + 金融多模态 | 异构源整合层 |
| D3 跨时钟相位识别 | 时序建模 + 长程逻辑归纳 | (未直接对应) | 时序推理层 |
| D4 场景命中与传导链路 | 多跳推理 + 长程逻辑归纳 | 金融行业知识(投研场景) | 因果链推理层 |
| D5 金融规律应用 + 不适用识别 | 多约束决策一致性 | 金融学术知识 + 金融严谨性 | 定量推理层 + 抗幻觉 |
| D6 偏差识别 + 不确定性量化 | (净新增维度,UniFinEval 未覆盖) | 金融严谨性 | 认知元层(贝叶斯 / 反事实) |
| D7 S1 叙事-数字一致性 | (净新增维度,UniFinEval 未覆盖) | 金融严谨性 + 抗幻觉 | 认知元层(自洽性检查) |
| D8 金融历史可比性(R1 新增) | (净新增) | (净新增) | (净新增,金融领域特有) |
| D9 跨市场对照推理(R1 新增) | (净新增) | (净新增) | (净新增,与 MCA 配对) |
| D10 数据可靠性鉴别(R1 新增) | (部分对应「信息对齐」但更深) | 金融严谨性(抗幻觉延伸) | 异构源整合层(数据真伪层延伸) |
| D11 风险预算与组合层(R1 新增) | (净新增) | (净新增) | 定量推理层(组合层延伸) |
差异说明:
-
UniFinEval 主要评测「感知-推理-决策」纵轴,FinBayes 在此基础上加横切的 D6 + D7 两维(认知元层)+ R1 新增 D8 / D9 / D11 三维(金融差异化护城河)——以上 5 维相对 UniFinEval 是净新增维度(R-C 指出原对比表 D7 同时声称对应 UniFinEval"多约束决策一致性 + 多跳推理"是内部矛盾,R1 修订为"净新增")。FinBayes 把 UniFinEval 的「时序建模」吸收为 D3「跨时钟相位识别」并扩展为 7 类可注册时钟(M3.t1-t7),粒度比 UniFinEval 时序粒度更细。
-
FinEval 主要评测「金融知识 + 业务场景 + 安全严谨」,FinBayes 不评测「金融安全合规」(留 FinVault 类专项评测),也不评测「金融多模态读图」(留具体工程化阶段评测);但吸收了 FinEval 的「金融严谨性 + 抗幻觉」思路,散布在 D5 适用性三态识别 + D6 凯利上限合规 + D7 反向触发命中 + D10 数据可靠性鉴别四处。FinEval 的「金融智能体」(工具调用 / 规划 / 长程记忆)不在 Phase 4 认知体系评测范围内,留工程评测层。
-
Cognitive Complexity Benchmark 提供「认知复杂度层级」方法论,FinBayes 11 维度可视为这一方法论在金融场景下的实例化——D1-D2 + D10 对应感知层 / D3-D5 + D8 + D9 + D11 对应推理层 / D6-D7 对应认知元层。FinBayes 的特殊性在于 D6 / D7 必须显式输出「双峰后验」「凯利上限」「叙事-数字耦合方向」等结构化字段,D8 / D9 必须输出「可比度量化分数」「跨市场差异点 + MCA 轴归因」,D11 必须输出「边际风险贡献 + 相关性跃迁预警」,比 Cognitive Complexity Benchmark 的「能否正确推理」更具体。
-
MCA 分桶要求是 FinBayes 独有的——3 套业内框架均未引入「市场结构上下文」作为评测分桶维度。FinBayes 把 MCA 作为评测分桶的元参数,是 Phase 2 14 case 反向校准(特别是 A-4 跨市场翻译损耗)暴露后的原创吸收,业内空白。R1 新增 D9 跨市场对照推理与 MCA 直接配对评测。
-
FinBayes 不评测「点估计准确率」——这是与所有 3 套框架的根本差异。FinBayes 输出的是认知结构(多机制 + 多场景 + 双峰后验 + 适用性标签 + 可比度量化 + 跨市场归因 + 边际风险贡献),而非「股价预测」「估值点值」。评测的核心问题不是「预测对不对」,而是「结构是否完整 + 是否输出足够多的失效条件与反方证据」——这一定位需要在评测样本标注阶段被金融专家 reviewer 持续校准,避免无意识地回到「点估计准确率」的传统范式。
-
D8 / D9 / D10 / D11 是 R-A 金融专家提出的「懂金融 vs 通用 LLM + 金融提示词」差异化护城河(R1 新增)——R-A 指出原 7 维中 D1 / D3 / D4 通用 LLM 经金融提示词可达 70-80% 完成度,难以拉开差距;要拉开差距必须加金融历史可比性 / 跨市场对照 / 数据可靠性 / 组合层四维。这四维是 Damodaran / Howard Marks / Druckenmiller / Greenwald / Markowitz 长期反复强调的能力,通用 LLM 在此维度普遍弱,构成 FinBayes 第一版的差异化锚。
八、Phase 6 R1 修订记录
修订范围:本次 R1 修订针对 Phase 6 R-A 金融专家 + R-C 评测专家 review 暴露的 P0-3 评测体系 8 项硬缺陷 + P1-2 D8-D11 四维扩展。
P0-3 评测体系 8 项硬缺陷修订完成度:
| # | 缺陷 | 修订方式 | 完成度 |
|---|---|---|---|
| 1 | D7 S1 标答自指(14 case 自标 contamination) | 引入 5 个外部独立标答源(Damodaran "Narrative & Numbers" / Marks memo / Stratechery / FT Alphaville / NYU Stern 课程库)+ 外部源标注必须 IAA kappa ≥ 0.7;14 case 原标注降为内部参考 | ✅ |
| 2 | 14 case 期望激活清单数据泄漏 | 70/20/10 开发集 / 测试集 / holdout 三集划分;标答 + 期望激活 + 关键洞察 + 事后演化撤回工程仓内部;holdout 桶位均匀分布 | ✅ |
| 3 | D4 GED NP-hard | 改为「节点子集 F1(0.35)+ 边子集 F1(0.35)+ 子图同构匹配率(0.30)」三分量替代;可选 Riesen-Bunke 编辑距离上界近似(O(n³)) | ✅ |
| 4 | D3 相位 MAE 离散化粒度未定 | 明确「季度」作为相位最小单元;7 时钟槽位 v1 起步仅强制评 M3.t1 / M3.t2 / M3.t5 三槽位,其余抽样 IAA | ✅ |
| 5 | D6 多标签 F1 防 top-3 gaming | 按 14 case 历史频率反向加权(高频 ×0.5 / 低频 ×2.0)+ 同时报告 macro-F1(差距 > 0.15 触发复审)+ 新增 ECE 校准指标 | ✅ |
| 6 | D1 M1.3 开放分类 IAA 门槛 + 分母闭合 | 六字段拆「闭合类」与「开放分类类」;开放分类类必须经 ≥ 2 专家 IAA kappa ≥ 0.7 方入分母 | ✅ |
| 7 | MCA B5 桶拆 B5a / B5b | B5a(A 股政策点火,A-1)vs B5b(A 股散户踩踏,A-3),主映射机制差异显式拆分 | ✅ |
| 8 | MCA B7 零样本桶 | v1 起步 1-2 case anchor(L7 + L2)+ 单独基线(不参与百分位对照)+ v1→v2 不强制跨 B7 桶 + v2 起补足 ≥ 10 case 后纳入正式百分位 | ✅ |
P1-2 评测体系扩 D8-D11 四维定义完成度:
| 维度 | 名称 | 定义 / 主映射 / 样本 / 公式 / MCA 分桶五项规约 | 完成度 |
|---|---|---|---|
| D8 | 金融历史可比性 | 完整:5 类样本 + 4 项指标 + 跨时段 / 跨桶两类 MCA 分桶 | ✅ |
| D9 | 跨市场对照推理 | 完整:4 类样本 + 4 项指标 + 必须跨 ≥ 2 MCA 桶约束 | ✅ |
| D10 | 数据可靠性鉴别 | 完整:6 类样本(含 ≥ 5 个事后被证实造假 case + ≥ 15 健康对照)+ 3 项指标 + I3+C3 桶强制评 | ✅ |
| D11 | 风险预算与组合层 | 完整:5 类样本 + 5 项指标 + v1 仅在 B1 / B2 / B3 桶强制评 | ✅ |
评测维度从 7 → 11 是否暴露新的内部不一致:
经盘查,11 维度结构上一致,无新增内部矛盾。需在 Phase 6 R2 进一步处理的潜在交叉:
- D2 与 D10 边界:D2 评信源可靠性建模 + 跨源对齐,D10 评数据本身可信度(异常应计 / 关联交易等)。R-A §6.3 已建议 D2 进一步拆分(信源元数据 / 政策语义 / 分歧诊断三子层),R1 未处理该拆分(留 Phase 6 R2 或 Phase 7 ADR-007 supplement 决定),D2 / D10 交叉边界 R2 需明示。
- D4 子图同构 vs D8 可比度量化:D4 评单 case 内部传导链路;D8 评跨 case / 跨时段的链路结构相似度。两者算法可共享子图同构方法,建议在 R2 时统一工程实现栈,避免重复实现两套同构匹配。
- D8 / D9 与 MCA 分桶元数据的耦合:D8 / D9 大量依赖 MCA 轴位作为分析对象。P0-2 拟立的 MCA 轴 7(货币与跨境约束)落地后,D8 / D9 评测样本与指标需同步扩展,R2 评估时一并处理。
- D11 依赖 M6.2.x 相关性结构稳定性子机制:M6.2.x 是 P0-1 拟立的金融方法论补位(R-A §2.2),未落地前 D11 的「相关性跃迁预警召回」无机制支撑,R1 已显式标注「v1 起步仅在 B1 / B2 / B3 强制评,待 P0-1 落地后扩展」。
落盘路径:governance/workstreams/finbayes-cognition-system-research/drafts/2026-05-28-phase4-evaluation-system.md
Simbrief(≤500 字)
修订范围:R1 修订针对 Phase 6 R-A + R-C review 暴露的 P0-3 评测体系 8 项硬缺陷 + P1-2 D8-D11 四维扩展。评测维度从 7 → 11。
P0-3 8 项硬缺陷修订完成度:✅ D7 标答自指(引入 Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 5 个外部独立标答源 + IAA kappa ≥ 0.7);✅ 14 case 数据泄漏(70/20/10 dev / test / holdout 三集划分,标答撤回工程仓);✅ D4 GED NP-hard(改三分量「节点 F1 + 边 F1 + 子图同构匹配率」);✅ D3 相位 MAE 离散化(明确「季度」为相位单元);✅ D6 多标签 gaming(按频率反向加权 + macro-F1 对照 + ECE 校准);✅ D1 M1.3 开放分类(拆闭合 / 开放两类 + IAA kappa ≥ 0.7 门槛);✅ B5 桶拆 B5a / B5b(政策点火 vs 散户踩踏);✅ B7 零样本桶(v1 起步 1-2 case anchor + 单独基线 + 不强制跨桶)。
P1-2 D8-D11 四维定义完成度:✅ D8 金融历史可比性(4 类样本 + 4 项指标 + 跨时段 / 跨桶分桶);✅ D9 跨市场对照推理(4 类样本 + 4 项指标 + 必须跨 ≥ 2 桶);✅ D10 数据可靠性鉴别(6 类样本含造假 case + 健康对照 + 3 项指标 + I3+C3 桶强制);✅ D11 风险预算与组合层(5 类样本 + 5 项指标 + 仅 B1-B3 强制评待 M6.2.x 落地后扩展)。
评测维度从 7 → 11 是否暴露新的内部不一致:结构上无新增矛盾,4 个潜在交叉留 Phase 6 R2 处理——D2 与 D10 边界(R-A §6.3 拟拆 D2);D4 子图同构与 D8 可比度量化的算法栈统一;D8 / D9 与 MCA 轴 7(P0-2)落地后的同步扩展;D11 依赖 P0-1 M6.2.x 子机制落地。
落盘路径:governance/workstreams/finbayes-cognition-system-research/drafts/2026-05-28-phase4-evaluation-system.md