Phase 6 · R-B Engineering Review

立场：LLM 应用工程 + 知识图谱 + 数据管线 + 评测系统的工程师视角。只评 Phase 3-5 产出能不能落地、子机制语义是否能在 Pydantic schema + asyncio runtime + SQLite + Provider Adapter 这套 L3 架构上实现，不评金融方法论与评测指标本身。

一、子机制工程化可行性逐条判定

按 Phase 3 T1 升级版的子机制清单逐条判定为 🟢 / 🟡 / 🔴 三档。

M1 金融对象本体识别与关联

M1.1 实体识别（公司 / 行业 / 跨境流量 / 链上对象）：🟢。是常规 NER + 实体链接问题，LLM + 词表 + 知识图谱可覆盖。
M1.2 关系建模含"跨市场映射边"：🟡。同市场上下游边可由静态产业链数据 + LLM 生成；"跨市场映射边"语义（"同源叙事在不同市场的本地化产业链对位"）在工程上没有现成的关系本体定义，需架构层补一个 CrossMarketMappingEdge 类型。边的置信度、权重、衰减系数的数据来源未交代。
M1.3 定性属性字段（持有人结构 / 商业模式 / Porter 战略 / 物理网络节点 / 政策反应函数 / 数据可得性）：🟡。六字段有四个可由公开数据 + LLM 标注，但"政策反应函数（对手方目标函数模型）"工程上无清晰算法。"汇金维稳函数"如何用结构化字段表达？是参数化的效用函数还是行为脚本？需要架构层补 PolicyReactionFunction 子模型。
M1.4 心理账户违例标签：🟡。需要识别"同质资金被按来源/标签拆分"，这需要资金流向数据 + 行为模式识别，国内数据可得性差。

M3 时钟槽位

M3.t1 / t2 / t3 / t4：🟢。Dalio 短长债 / Perez / Damodaran 生命周期都有可计算阶段标签算法（基于宏观数据 + 公司财务指标）。
M3.t5 事件冲击时钟：🟢。事件触发 + 衰减窗口模型，标准做法。
M3.t6 单标的微周期（meme 7-14 天 funding-to-peak）：🟢。链上 / 衍生品数据可直接计算。
M3.t7 市场特异性相位轴：🟡。"作为时钟可注册的命名空间"在工程上是 Clock × Market 二维索引，落地不难，但七类时钟并行运行 + 跨时钟相位差矩阵意味着每次任务要在综合层维护 7 × 7 矩阵 + 矛盾相位识别逻辑，LLM 单次调用很难稳定产出该结构，需要拆为多次工具调用 + 后处理聚合，时延与成本不容忽视。

M5 子机制

M5.1 链路建模 + 跨市场翻译损耗：🟡。"翻译损耗"作为标量需要标定方法（监督样本？人工标注？），Phase 3 没给。
M5.2 反身性反馈：🟢，但反身性闭环本身在 LLM 推理上稳定性差，工程上需要把闭环显式建模为图结构而非依赖 LLM 自由叙述。
M5.3 shared-book contagion 四形态识别：🔴 / 🟡 split。急性流动性触发型（carry unwind / dash for cash）的识别强依赖 CFTC TFF 持仓数据 + cross-currency basis + FX swap 数据，国内工程仓接入路径不明；结构性置换型（BTC ETF）需 GBTC outflow + spot ETF inflow 链上链下对齐数据；政策信用触发型和散户急性版的"场外配资爆仓"识别需要监管不公开数据。四形态中至少三种在工程上数据不可得或不可稳定接入，落地为 LLM 基于公开新闻的事后归因可以，但作为实时识别子机制接近 🔴。
M5.4 制度摩擦层（T+1 / 涨跌停 / 停牌 / 监管盘中变更）：🟢。规则可枚举、可建模为离散事件算子。pending 项 S19 状态登记机制需要案例库 schema 支持。
M5.5 反向力量子机制：🟡。"每条反身性链路必须配对反向力量"在 LLM prompt 上可以约束输出，但反向力量识别本身没有算法，依赖 LLM 知识 + 综合层 self-consistency。
M5.6 内生 vs 外生区分：🟢。
M5.7 美元流动性 / EM 反馈链：🟢，作为案例库实例无算法负担。

M7 拆分

M7a 个体偏差（20 项 Kahneman）：🟡。20 项偏差多标签识别，工程上一般做法是 LLM + few-shot example 库，但 F1 不会很高（业内 benchmark 显示偏差识别 F1 通常 0.4-0.6），评测指标 D6 设 F1 作为主指标时需要明确"应达到多少"，否则容易过拟合到训练样本。
M7b 群体偏差：🟡。"群体思维 / 共识同质化 / shared-book 同质持仓"的工程化识别需要持仓集中度数据 + 资金流数据 + 卖方一致预期数据，前两类在 A 股 / Crypto 部分可得，美股机构持仓有 13F 滞后 45 天，实时识别能力受限。
M7.meta 元认知层（系统 1/2 切换、峰终扭曲）：🔴。"高不确定场景强制慢思考"的工程实现是 prompt-level 切换还是显式启用更长 chain-of-thought？"峰终 / 记忆自我扭曲"对 LLM 无人类记忆这一前提下的工程语义不清楚。建议作为 prompt 模式 + 多次采样投票实现，但 Phase 3 未澄清。
M7.uq 不确定性量化（双峰重尾默认先验 + 双峰后验 + 凯利上限）：🟡。双峰重尾默认先验在 LLM 实现上无法直接表达（LLM 输出 token，不输出概率分布参数）。三种可能路径：(a) prompt 工程让 LLM 输出"两个峰 + 权重 + 尾部宽度"作为结构化字段（精度低）；(b) LLM 输出多组情景 → 后处理拟合双峰分布；(c) 显式调用 Bayesian 推理模块（如 PyMC）做后验更新。Phase 3 未指明。凯利上限作为后处理硬约束 🟢，可在综合层后置校验。

S1 横切子流程

S1.1-S1.3 抽取三机制输出：🟢。
S1.4 路由判定（M6 三态标签驱动主流程 / 二阶分支）：🟢，前提是 M6.4 已落地（B-3）。
S1.5 主流程三模式逐一检测：🟡。模式 a「估值假设隐含 TAM 分位 vs 历史 P90/P95」需要历史 capex 时序数据 + 分位计算（可工程化）；模式 b 强依赖 M1.2 跨市场映射边（前面已标 🟡）；模式 c「叙事可证伪条件 vs 高频数字偏离」需要 LLM 抽取叙事的可证伪条件 + 时序数据库查询匹配，叙事可证伪条件抽取的稳定性是核心难点。
S1.6 二阶分支（attention 数字 vs 自洽度）：🟢。链上 + 衍生品数据可计算。
S1.7-S1.8 输出 + 反向触发：🟡。反向触发在并发场景下会引发竞态（详见第三节）。

MCA 6 分轴

轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 的轴位标签：🟡。规则量化阈值清晰（成交占比 / IV 曲面覆盖 / T+N 制度等），但"取三组阈值最差档"+"年度 MCA 标签漂移校准"在工程上是离线季度任务而非实时检测，需要架构层提供单独的标签管线。
轴 4 非市场参与者注入：🔴。N3 等级判定需要国家队战术性买入识别 + 准政策信号定调频次，国家队持仓数据完全不公开，"准政策信号"语义需要 M2.4 政策语义解码——而 M2.4 本身依赖政策语义本体未定义。轴 4 的轴位读取没有自动化数据通路，只能依赖人工标注 + reviewer 校准。

二、与 L3 架构 + ADR-008 StructuredCognitionResult 的对齐

ADR-008 锁定 10 要素：结论 / 倾向 / 依据 / 多视角 / 反方证据 / 成立条件 / 失效条件 / 不确定性 + 信息缺口 / 来源时间戳 / 可继续追问项 / 历史判断链接；按 7 任务类型动态组合。Phase 3-5 升级后的输出形态契约无现成槽位承载以下产物：

M3 跨时钟相位差矩阵 + 矛盾相位：StructuredCognitionResult 没有"时钟阶段标签集"字段。属于"依据"还是单列？需架构层补 phase_evidence: list[ClockPhaseLabel]。
M5 传导图（节点 + 边 + 反向力量 + 制度摩擦 + 翻译损耗标记）：现有"依据"字段以文本为主，无法承载图结构。需补 causal_graph: TransmissionGraph 子模型。
M6 三支柱适用性三态标签：可勉强放在"成立条件 / 失效条件"，但语义不直接对应——"适用 / 部分适用 / 不适用"是规律层的元标签，不是结论层的条件。建议补 applicability_flags: dict[Pillar, ApplicabilityLevel]。
M7.uq 双峰后验 + 凯利上限：现有"不确定性 / 信息缺口"是文本字段，无法承载分布形态参数。架构层必须补 posterior_distribution: BimodalPosterior + kelly_cap: float 才能让评测维度 D6 的"双峰形态正确率 / 凯利合规率"可计算。
S1 输出 8 字段（s1.mode / coupling-direction / coupling-strength / evidence / falsification / backtrigger / confidence）：完全在 StructuredCognitionResult 之外，需新增独立子结构 s1_consistency: NarrativeNumberConsistency。
MCA 6 轴轴位标签：每次任务必带 MCA 桶 ID，属于 Task 元数据而非认知要素，建议放 Task schema 而非 StructuredCognitionResult。

重复 / 冲突：

M7a 偏差标签集与 ADR-008"反方证据"语义有部分重叠（认知偏差是反方证据的一种），需澄清落点。
S1.evidence.numbers 与"依据"重叠，需统一序列化。
S1.falsification 与"失效条件"语义一致，应统一为同一字段，避免双源漂移。

结论：Phase 3 升级输出形态契约未与 ADR-008 对齐，且新增字段量级超过 50%，建议 R-B 触发架构层补 ADR（仿 ADR-008 提议的"架构层补独立 ADR for StructuredCognitionResult"），把上述新增字段纳入正式契约。

三、MCA 横切维度的工程落地

轴位标签获取路径：轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 大部分可由公开数据 API 计算（交易所成交结构、IV 曲面、制度规则、违约处置记录、披露透明度）。轴 4 N3 等级需要不公开数据（国家队战术买入），落地为人工标注 + reviewer 校准的季度任务，不是自动化。
桶位漂移监测周期：Phase 4 §4 建议"每年对每个核心市场做一次 MCA 标签校准"，是年度离线任务。但 Phase 5 §7 又说"评测分桶按 MCA 6 轴 + 时间窗双重分层"——时间窗与年度校准的关系未明。工程上建议：轴位标签固化在 Task 元数据上（任务发起时刻的轴位），漂移由年度任务统一刷新。
MCA 标签错误的影响：错位会导致评测桶错配 + S1 模式 b 误判 + M5.3 形态选择错配，影响面横切。建议工程层把 MCA 标签判定本身作为单独的 MCAClassifier 模块，输出带 confidence；低 confidence 时触发 reviewer 人工标注。

四、S1 横切子流程的工程实现

横切层定位：S1 在工程上应实现为后置校验 / 反向触发中间件（"输出前横切"），位于 Evidence + Synthesis 子系统的综合层之后、Output Pipeline 之前。架构 §9.3 当前没有这一层，需补 ConsistencyMiddleware。
并发竞态：S1.4 路由判定依赖 M6 三态标签 → S1.5/S1.6 分支；但若 TaskGroup 内 M5 / M6 / M7 三任务并发执行（架构 §9.2 / §12 TaskGroup 模型），S1 必须等三任务都进入终态再触发，意味着 S1 是 join 屏障。Phase 3 T3 未澄清"输出前横切"在 TaskGroup 模型下的同步语义。建议工程层把 S1 作为 asyncio.TaskGroup 的 after_all hook 实现。
S1 反向触发 M5/M6/M7 在并发场景下会引发回路：S1 触发 M7 偏差强化 → M7 输出更新 → S1 重跑 → 可能再次触发。需设最大循环次数 + 收敛判定，Phase 3 未定。
S1 失败模式 a/b/c + 二阶分支检测算法：a 依赖历史 TAM 分位计算（可工程化）；b 依赖 M1.2 跨市场映射边（前述 🟡）；c 依赖 LLM 抽取"叙事可证伪条件"（稳定性是难点，建议 self-consistency 多采样投票）；二阶分支依赖链上 + funding 数据（🟢）。综合上是实现可行但稳定性需评测压测。

五、M7 拆分的实现复杂度

M7a / M7b / M7.meta / M7.uq 边界逻辑上清晰，工程上耦合度高：四子层都接同一个证据 DAG，输出都进入 StructuredCognitionResult 同一上下文，建议工程实现为同一子模块（cognition.behavioral）内的四个 pipeline stage 而非四个独立工具。
双峰重尾默认先验：见第一节判定，落地路径需架构 ADR 明确。
群体偏差识别外部数据：CFTC TFF（持仓数据，周更，公开）/ 13F（45 天滞后，公开）/ DTCC FX swap（部分公开）/ GBTC outflow（公开）→ 美股机构部分可接入；A 股配资数据 + 散户结构数据国内监管不公开，工程上只能依赖 LLM 基于新闻的事后推断，无法支撑实时 M7b 输出。

六、shared-book contagion 子机制的工程实现

见第一节 M5.3 判定。四形态中急性流动性触发型最可行（CFTC TFF + FX swap 部分可得）；结构性置换型可行（链上链下数据齐备）；政策信用触发型和散户急性版主要靠 LLM 基于公开新闻 + 监管公告的事后归因。
横向反身性建模（LLM + 知识图谱混合）的工程路径建议：知识图谱承载 shared-book 同质持仓边 + 跨资产传染边作为静态结构；LLM 负责在传染链上做条件化推理 + 反向力量识别 + 路径置信度评估。混合架构在架构 §9 中没有对应模块，需补 KnowledgeGraphService 子系统。

七、评测体系的工程基础设施（不评指标本身）

数据齐备性：D2 需政策语义解码字段 + 跨市场可信度衰减；D4 需传导图基准 + shared-book 形态标注；D6 需双峰后验形态基准 + 凯利上限基准。这些基准数据不存在于现有任何金融数据集，必须由 reviewer 全量人工标注。140 个起步样本 × 7 维度 × 多字段标注 ≈ 工程上至少 200 人时（中国金融专家），落地节奏需排期。
算力 / 评测延迟：D6 双峰后验形态评测 + D7 反向触发命中评测都需要调用完整 8 机制 + S1 + MCA pipeline单样本评测，单 case 推断延迟 30-120s（多次 LLM 调用），140 样本季度全量评测 ≈ 数小时到一日，工程上可接受但需异步管线。
评测样本管理：14 case 种子 + 每季度 5-10 case 增量、按 MCA 桶分层抽样、保留 holdout——工程实现是案例库 schema + 评测 runner + 桶分层抽样器三件套，架构 §15 没有对应模块。建议作为独立子项目 finbayes-eval-harness。
评测漂移监测：Phase 4 §4 "桶间漂移监测"工程上是"同一市场不同时间段 MCA 标签变化的可识别性"，需要案例库 schema 支持 mca-bucket 字段的版本化（v1 / v2 / v3）。

八、治理流程的工程接口

机制扩展（8→9+）的工程支持：Phase 5 §3.2 要求"L4 ADR + 7 天公示 + 三方联合签署"通过后机制清单扩展。已部署系统的回退能力未在 Phase 5 提及——若 v1.1 实验机制上线后撤回，所有依赖该机制的 Judgment Record / Audit Trail 如何处理？建议工程层引入 mechanism-version 字段，机制级 schema 版本化，撤回时旧记录标记为 mechanism-deprecated 但可读。
pending 项升级路径的版本管理：Phase 5 §3.5 描述了 pending → B 级 → A 级 + 降级"冷藏"路径，但**"同一时刻线上 v1 + 实验 v1.1 双轨"**未在工程层定义。建议工程层引入 feature flag + canary 部署模式：实验机制以 flag-gated 形式进入 runtime，可对 ≤20% 流量启用，评测合格后转正。
audit trail ≥ 8 季度：Phase 5 §7 要求"audit trail 保留 ≥ 8 季度备追溯"。架构 §15 当前定义 audit trail 写入 SQLite，按日 / 月归档。8 季度 = 24 个月，单用户量级 SQLite 完全可承载；多用户托管形态下需要归档到独立存储。不可篡改性未在 Phase 5 强调，工程上若有合规需求需补 append-only + hash chain，但当前用户主权三件套保障下，append-only 即可。

九、总体判定

Phase 3-5 产出在工程视角下总体可 formalize，但需要架构层补强 + 数据通路二次设计。

🟢 可直接实现的子机制约占 30%（M1.1 / M3.t1-t6 / M5.4 / M5.6 / M5.7 / S1.1-S1.4 / S1.6 / MCA 多数轴等）。
🟡 语义需细化的子机制约占 50%，主要集中在 M1.2 跨市场映射边、M1.3 政策反应函数、M3.t7 相位矩阵、M5.1 翻译损耗标定、M5.5 反向力量识别、M7a 偏差识别精度、M7b 群体偏差数据接入、M7.uq 双峰先验实现路径、S1.5 模式 c 叙事抽取稳定性。
🔴 工程上短期内无法稳定实现约占 20%，集中在 M5.3 shared-book contagion 部分形态（A 股 / 政策类）、M7.meta 元认知层、MCA 轴 4 N3 自动判定。

核心架构层动作建议（优先级排序）：

架构 ADR 补充：StructuredCognitionResult 必须扩展 5 个新字段（phase_evidence / causal_graph / applicability_flags / posterior_distribution / s1_consistency）+ MCA 标签纳入 Task 元数据。
新增子系统：KnowledgeGraphService（承载 M1 对象图 + M5 传染边）+ ConsistencyMiddleware（承载 S1）+ MCAClassifier（承载 MCA 轴位判定）+ EvalHarness（承载评测管线）。
数据接入清单：CFTC TFF / 13F / DTCC FX swap / GBTC + spot ETF flow / 链上 funding rate / 持仓集中度——按可得性优先级接入。
机制版本化：mechanism-version + feature flag + canary，支撑 Phase 5 治理流程的双轨上线 + 撤回。

Simbrief（≤500 字）

🔴 工程无法实现的子机制清单：

M5.3 shared-book contagion 中"政策信用触发型"与"A 股散户急性版"（数据不公开 / 监管不披露）。
M7.meta 元认知层（"系统 1/2 切换"" 峰终扭曲" 在 LLM 上无清晰工程语义）。
MCA 轴 4 N3 等级自动判定（国家队战术买入数据不公开，只能人工标注）。

🟡 语义模糊需细化的清单：M1.2 跨市场映射边（需补 CrossMarketMappingEdge 类型与置信度标定）；M1.3 政策反应函数（需补 PolicyReactionFunction 子模型）；M3.t7 相位差矩阵（7 × 7 矩阵的 LLM 稳定输出路径）；M5.1 跨市场翻译损耗（标量标定方法缺失）；M5.5 反向力量识别（无算法路径）；M7.uq 双峰重尾默认先验（LLM 实现路径未定，prompt / 后处理 / 显式贝叶斯三选一）；S1.5 模式 c 叙事可证伪条件抽取（稳定性需 self-consistency 压测）；S1 反向触发回路（最大循环 + 收敛判定未定）。

与 L3 架构 / ADR-008 不对齐：StructuredCognitionResult 10 要素无现成槽位承载 (a) M3 跨时钟相位矩阵；(b) M5 传导图；(c) M6 三支柱适用性三态；(d) M7.uq 双峰后验 + 凯利上限；(e) S1 横切输出 8 字段。需架构层补独立 ADR，扩展 5 个新字段。MCA 标签应纳入 Task 元数据而非 StructuredCognitionResult。M7a 偏差标签与"反方证据"、S1.falsification 与"失效条件"存在语义重叠，需统一字段避免双源漂移。

总体判定：可 formalize，需补强。约 30% 子机制 🟢 直接可实现、50% 🟡 需细化、20% 🔴 短期内无法稳定实现。核心动作建议：架构层补 StructuredCognitionResult 扩展 ADR + 新增 4 子系统（KnowledgeGraphService / ConsistencyMiddleware / MCAClassifier / EvalHarness）+ 接入持仓 / 资金流核心数据源 + 引入 mechanism-version + feature flag canary 支撑双轨上线。Phase 5 治理流程的工程接口（机制撤回回退、双轨 v1+v1.1、audit trail 8 季度）建议在 Phase 5 v1 之上加一份"工程接口附录"。

落盘路径：governance/workstreams/finbayes-cognition-system-research/reviews/2026-05-28-phase6-r-b-engineering.md

一、子机制工程化可行性逐条判定​

M1 金融对象本体识别与关联​

M3 时钟槽位​

M5 子机制​

M7 拆分​

S1 横切子流程​

MCA 6 分轴​

二、与 L3 架构 + ADR-008 StructuredCognitionResult 的对齐​

三、MCA 横切维度的工程落地​

四、S1 横切子流程的工程实现​

五、M7 拆分的实现复杂度​

六、shared-book contagion 子机制的工程实现​

七、评测体系的工程基础设施（不评指标本身）​

八、治理流程的工程接口​

九、总体判定​

Simbrief（≤500 字）​