Phase 6 · R-B Engineering Review
立场:LLM 应用工程 + 知识图谱 + 数据管线 + 评测系统的工程师视角。只评 Phase 3-5 产出能不能落地、子机制语义是否能在 Pydantic schema + asyncio runtime + SQLite + Provider Adapter 这套 L3 架构上实现,不评金融方法论与评测指标本身。
一、子机制工程化可行性逐条判定
按 Phase 3 T1 升级版的子机制清单逐条判定为 🟢 / 🟡 / 🔴 三档。
M1 金融对象本体识别与关联
- M1.1 实体识别(公司 / 行业 / 跨境流量 / 链上对象):🟢。是常规 NER + 实体链接问题,LLM + 词表 + 知识图谱可覆盖。
- M1.2 关系建模含"跨市场映射边":🟡。同市场上下游边可由静态产业链数据 + LLM 生成;"跨市场映射边"语义("同源叙事在不同市场的本地化产业链对位")在工程上没有现成的关系本体定义,需架构层补一个
CrossMarketMappingEdge类型。边的置信度、权重、衰减系数的数据来源未交代。 - M1.3 定性属性字段(持有人结构 / 商业模式 / Porter 战略 / 物理网络节点 / 政策反应函数 / 数据可得性):🟡。六字段有四个可由公开数据 + LLM 标注,但"政策反应函数(对手方目标函数模型)"工程上无清晰算法。"汇金维稳函数"如何用结构化字段表达?是参数化的效用函数还是行为脚本?需要架构层补
PolicyReactionFunction子模型。 - M1.4 心理账户违例标签:🟡。需要识别"同质资金被按来源/标签拆分",这需要资金流向数据 + 行为模式识别,国内数据可得性差。
M3 时钟槽位
- M3.t1 / t2 / t3 / t4:🟢。Dalio 短长债 / Perez / Damodaran 生命周期都有可计算阶段标签算法(基于宏观数据 + 公司财务指标)。
- M3.t5 事件冲击时钟:🟢。事件触发 + 衰减窗口模型,标准做法。
- M3.t6 单标的微周期(meme 7-14 天 funding-to-peak):🟢。链上 / 衍生品数据可直接计算。
- M3.t7 市场特异性相位轴:🟡。"作为时钟可注册的命名空间"在工程上是
Clock × Market二维索引,落地不难,但七类时钟并行运行 + 跨时钟相位差矩阵意味着每次任务要在综合层维护 7 × 7 矩阵 + 矛盾相位识别逻辑,LLM 单次调用很难稳定产出该结构,需要拆为多次工具调用 + 后处理聚合,时延与成本不容忽视。
M5 子机制
- M5.1 链路建模 + 跨市场翻译损耗:🟡。"翻译损耗"作为标量需要标定方法(监督样本?人工标注?),Phase 3 没给。
- M5.2 反身性反馈:🟢,但反身性闭环本身在 LLM 推理上稳定性差,工程上需要把闭环显式建模为图结构而非依赖 LLM 自由叙述。
- M5.3 shared-book contagion 四形态识别:🔴 / 🟡 split。急性流动性触发型(carry unwind / dash for cash)的识别强依赖 CFTC TFF 持仓数据 + cross-currency basis + FX swap 数据,国内工程仓接入路径不明;结构性置换型(BTC ETF)需 GBTC outflow + spot ETF inflow 链上链下对齐数据;政策信用触发型和散户急性版的"场外配资爆仓"识别需要监管不公开数据。四形态中至少三种在工程上数据不可得或不可稳定接入,落地为 LLM 基于公开新闻的事后归因可以,但作为实时识别子机制接近 🔴。
- M5.4 制度摩擦层(T+1 / 涨跌停 / 停牌 / 监管盘中变更):🟢。规则可枚举、可建模为离散事件算子。pending 项 S19 状态登记机制需要案例库 schema 支持。
- M5.5 反向力量子机制:🟡。"每条反身性链路必须配对反向力量"在 LLM prompt 上可以约束输出,但反向力量识别本身没有算法,依赖 LLM 知识 + 综合层 self-consistency。
- M5.6 内生 vs 外生区分:🟢。
- M5.7 美元流动性 / EM 反馈链:🟢,作为案例库实例无算法负担。
M7 拆分
- M7a 个体偏差(20 项 Kahneman):🟡。20 项偏差多标签识别,工程上一般做法是 LLM + few-shot example 库,但 F1 不会很高(业内 benchmark 显示偏差识别 F1 通常 0.4-0.6),评测指标 D6 设 F1 作为主指标时需要明确"应达到多少",否则容易过拟合到训练样本。
- M7b 群体偏差:🟡。"群体思维 / 共识同质化 / shared-book 同质持仓"的工程化识别需要持仓集中度数据 + 资金流数据 + 卖方一致预期数据,前两类在 A 股 / Crypto 部分可得,美股机构持仓有 13F 滞后 45 天,实时识别能力受限。
- M7.meta 元认知层(系统 1/2 切换、峰终扭曲):🔴。"高不确定场景强制慢思考"的工程实现是 prompt-level 切换还是显式启用更长 chain-of-thought?"峰终 / 记忆自我扭曲"对 LLM 无人类记忆这一前提下的工程语义不清楚。建议作为 prompt 模式 + 多次采样投票实现,但 Phase 3 未澄清。
- M7.uq 不确定性量化(双峰重尾默认先验 + 双峰后验 + 凯利上限):🟡。双峰重尾默认先验在 LLM 实现上无法直接表达(LLM 输出 token,不输出概率分布参数)。三种可能路径:(a) prompt 工程让 LLM 输出"两个峰 + 权重 + 尾部宽度"作为结构化字段(精度低);(b) LLM 输出多组情景 → 后处理拟合双峰分布;(c) 显式调用 Bayesian 推理模块(如 PyMC)做后验更新。Phase 3 未指明。凯利上限作为后处理硬约束 🟢,可在综合层后置校验。
S1 横切子流程
- S1.1-S1.3 抽取三机制输出:🟢。
- S1.4 路由判定(M6 三态标签驱动主流程 / 二阶分支):🟢,前提是 M6.4 已落地(B-3)。
- S1.5 主流程三模式逐一检测:🟡。模式 a「估值假设隐含 TAM 分位 vs 历史 P90/P95」需要历史 capex 时序数据 + 分位计算(可工程化);模式 b 强依赖 M1.2 跨市场映射边(前面已标 🟡);模式 c「叙事可证伪条件 vs 高频数字偏离」需要 LLM 抽取叙事的可证伪条件 + 时序数据库查询匹配,叙事可证伪条件抽取的稳定性是核心难点。
- S1.6 二阶分支(attention 数字 vs 自洽度):🟢。链上 + 衍生品数据可计算。
- S1.7-S1.8 输出 + 反向触发:🟡。反向触发在并发场景下会引发竞态(详见第三节)。
MCA 6 分轴
- 轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 的轴位标签:🟡。规则量化阈值清晰(成交占比 / IV 曲面覆盖 / T+N 制度等),但"取三组阈值最差档"+"年度 MCA 标签漂移校准"在工程上是离线季度任务而非实时检测,需要架构层提供单独的标签管线。
- 轴 4 非市场参与者注入:🔴。N3 等级判定需要国家队战术性买入识别 + 准政策信号定调频次,国家队持仓数据完全不公开,"准政策信号"语义需要 M2.4 政策语义解码——而 M2.4 本身依赖政策语义本体未定义。轴 4 的轴位读取没有自动化数据通路,只能依赖人工标注 + reviewer 校准。
二、与 L3 架构 + ADR-008 StructuredCognitionResult 的对齐
ADR-008 锁定 10 要素:结论 / 倾向 / 依据 / 多视角 / 反方证据 / 成立条件 / 失效条件 / 不确定性 + 信息缺口 / 来源时间戳 / 可继续追问项 / 历史判断链接;按 7 任务类型动态组合。Phase 3-5 升级后的输出形态契约无现成槽位承载以下产物:
- M3 跨时钟相位差矩阵 + 矛盾相位:StructuredCognitionResult 没有"时钟阶段标签集"字段。属于"依据"还是单列?需架构层补
phase_evidence: list[ClockPhaseLabel]。 - M5 传导图(节点 + 边 + 反向力量 + 制度摩擦 + 翻译损耗标记):现有"依据"字段以文本为主,无法承载图结构。需补
causal_graph: TransmissionGraph子模型。 - M6 三支柱适用性三态标签:可勉强放在"成立条件 / 失效条件",但语义不直接对应——"适用 / 部分适用 / 不适用"是规律层的元标签,不是结论层的条件。建议补
applicability_flags: dict[Pillar, ApplicabilityLevel]。 - M7.uq 双峰后验 + 凯利上限:现有"不确定性 / 信息缺口"是文本字段,无法承载分布形态参数。架构层必须补
posterior_distribution: BimodalPosterior+kelly_cap: float才能让评测维度 D6 的"双峰形态正确率 / 凯利合规率"可计算。 - S1 输出 8 字段(s1.mode / coupling-direction / coupling-strength / evidence / falsification / backtrigger / confidence):完全在 StructuredCognitionResult 之外,需新增独立子结构
s1_consistency: NarrativeNumberConsistency。 - MCA 6 轴轴位标签:每次任务必带 MCA 桶 ID,属于 Task 元数据而非认知要素,建议放 Task schema 而非 StructuredCognitionResult。
重复 / 冲突:
- M7a 偏差标签集与 ADR-008"反方证据"语义有部分重叠(认知偏差是反方证据的一种),需澄清落点。
- S1.evidence.numbers 与"依据"重叠,需统一序列化。
- S1.falsification 与"失效条件"语义一致,应统一为同一字段,避免双源漂移。
结论:Phase 3 升级输出形态契约未与 ADR-008 对齐,且新增字段量级超过 50%,建议 R-B 触发架构层补 ADR(仿 ADR-008 提议的"架构层补独立 ADR for StructuredCognitionResult"),把上述新增字段纳入正式契约。
三、MCA 横切维度的工程落地
- 轴位标签获取路径:轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 大部分可由公开数据 API 计算(交易所成交结构、IV 曲面、制度规则、违约处置记录、披露透明度)。轴 4 N3 等级需要不公开数据(国家队战术买入),落地为人工标注 + reviewer 校准的季度任务,不是自动化。
- 桶位漂移监测周期:Phase 4 §4 建议"每年对每个核心市场做一次 MCA 标签校准",是年度离线任务。但 Phase 5 §7 又说"评测分桶按 MCA 6 轴 + 时间窗双重分层"——时间窗与年度校准的关系未明。工程上建议:轴位标签固化在 Task 元数据上(任务发起时刻的轴位),漂移由年度任务统一刷新。
- MCA 标签错误的影响:错位会导致评测桶错配 + S1 模式 b 误判 + M5.3 形态选择错配,影响面横切。建议工程层把 MCA 标签判定本身作为单独的
MCAClassifier模块,输出带 confidence;低 confidence 时触发 reviewer 人工标注。
四、S1 横切子流程的工程实现
- 横切层定位:S1 在工程上应实现为后置校验 / 反向触发中间件("输出前横切"),位于 Evidence + Synthesis 子系统的综合层之后、Output Pipeline 之前。架构 §9.3 当前没有这一层,需补
ConsistencyMiddleware。 - 并发竞态:S1.4 路由判定依赖 M6 三态标签 → S1.5/S1.6 分支;但若 TaskGroup 内 M5 / M6 / M7 三任务并发执行(架构 §9.2 / §12 TaskGroup 模型),S1 必须等三任务都进入终态再触发,意味着 S1 是 join 屏障。Phase 3 T3 未澄清"输出前横切"在 TaskGroup 模型下的同步语义。建议工程层把 S1 作为
asyncio.TaskGroup的after_allhook 实现。 - S1 反向触发 M5/M6/M7 在并发场景下会引发回路:S1 触发 M7 偏差强化 → M7 输出更新 → S1 重跑 → 可能再次触发。需设最大循环次数 + 收敛判定,Phase 3 未定。
- S1 失败模式 a/b/c + 二阶分支检测算法:a 依赖历史 TAM 分位计算(可工程化);b 依赖 M1.2 跨市场映射边(前述 🟡);c 依赖 LLM 抽取"叙事可证伪条件"(稳定性是难点,建议 self-consistency 多采样投票);二阶分支依赖链上 + funding 数据(🟢)。综合上是实现可行但稳定性需评测压测。
五、M7 拆分的实现复杂度
- M7a / M7b / M7.meta / M7.uq 边界逻辑上清晰,工程上耦合度高:四子层都接同一个证据 DAG,输出都进入 StructuredCognitionResult 同一上下文,建议工程实现为同一子模块(
cognition.behavioral)内的四个 pipeline stage 而非四个独立工具。 - 双峰重尾默认先验:见第一节判定,落地路径需架构 ADR 明确。
- 群体偏差识别外部数据:CFTC TFF(持仓数据,周更,公开)/ 13F(45 天滞后,公开)/ DTCC FX swap(部分公开)/ GBTC outflow(公开)→ 美股机构部分可接入;A 股配资数据 + 散户结构数据国内监管不公开,工程上只能依赖 LLM 基于新闻的事后推断,无法支撑实时 M7b 输出。
六、shared-book contagion 子机制的工程实现
- 见第一节 M5.3 判定。四形态中急性流动性触发型最可行(CFTC TFF + FX swap 部分可得);结构性置换型可行(链上链下数据齐备);政策信用触发型和散户急性版主要靠 LLM 基于公开新闻 + 监管公告的事后归因。
- 横向反身性建模(LLM + 知识图谱混合)的工程路径建议:知识图谱承载 shared-book 同质持仓边 + 跨资产传染边作为静态结构;LLM 负责在传染链上做条件化推理 + 反向力量识别 + 路径置信度评估。混合架构在架构 §9 中没有对应模块,需补
KnowledgeGraphService子系统。
七、评测体系的工程基础设施(不评指标本身)
- 数据齐备性:D2 需政策语义解码字段 + 跨市场可信度衰减;D4 需传导图基准 + shared-book 形态标注;D6 需双峰后验形态基准 + 凯利上限基准。这些基准数据不存在于现有任何金融数据集,必须由 reviewer 全量人工标注。140 个起步样本 × 7 维度 × 多字段标注 ≈ 工程上至少 200 人时(中国金融专家),落地节奏需排期。
- 算力 / 评测延迟:D6 双峰后验形态评测 + D7 反向触发命中评测都需要调用完整 8 机制 + S1 + MCA pipeline单样本评测,单 case 推断延迟 30-120s(多次 LLM 调用),140 样本季度全量评测 ≈ 数小时到一日,工程上可接受但需异步管线。
- 评测样本管理:14 case 种子 + 每季度 5-10 case 增量、按 MCA 桶分层抽样、保留 holdout——工程实现是案例库 schema + 评测 runner + 桶分层抽样器三件套,架构 §15 没有对应模块。建议作为独立子项目
finbayes-eval-harness。 - 评测漂移监测:Phase 4 §4 "桶间漂移监测"工程上是"同一市场不同时间段 MCA 标签变化的可识别性",需要案例库 schema 支持
mca-bucket字段的版本化(v1 / v2 / v3)。
八、治理流程的工程接口
- 机制扩展(8→9+)的工程支持:Phase 5 §3.2 要求"L4 ADR + 7 天公示 + 三方联合签署"通过后机制清单扩展。已部署系统的回退能力未在 Phase 5 提及——若 v1.1 实验机制上线后撤回,所有依赖该机制的 Judgment Record / Audit Trail 如何处理?建议工程层引入
mechanism-version字段,机制级 schema 版本化,撤回时旧记录标记为mechanism-deprecated但可读。 - pending 项升级路径的版本管理:Phase 5 §3.5 描述了 pending → B 级 → A 级 + 降级"冷藏"路径,但**"同一时刻线上 v1 + 实验 v1.1 双轨"**未在工程层定义。建议工程层引入 feature flag + canary 部署模式:实验机制以 flag-gated 形式进入 runtime,可对 ≤20% 流量启用,评测合格后转正。
- audit trail ≥ 8 季度:Phase 5 §7 要求"audit trail 保留 ≥ 8 季度备追溯"。架构 §15 当前定义 audit trail 写入 SQLite,按日 / 月归档。8 季度 = 24 个月,单用户量级 SQLite 完全可承载;多用户托管形态下需要归档到独立存储。不可篡改性未在 Phase 5 强调,工程上若有合规需求需补 append-only + hash chain,但当前用户主权三件套保障下,append-only 即可。
九、总体判定
Phase 3-5 产出在工程视角下总体可 formalize,但需要架构层补强 + 数据通路二次设计。
- 🟢 可直接实现的子机制约占 30%(M1.1 / M3.t1-t6 / M5.4 / M5.6 / M5.7 / S1.1-S1.4 / S1.6 / MCA 多数轴等)。
- 🟡 语义需细化的子机制约占 50%,主要集中在 M1.2 跨市场映射边、M1.3 政策反应函数、M3.t7 相位矩阵、M5.1 翻译损耗标定、M5.5 反向力量识别、M7a 偏差识别精度、M7b 群体偏差数据接入、M7.uq 双峰先验实现路径、S1.5 模式 c 叙事抽取稳定性。
- 🔴 工程上短期内无法稳定实现约占 20%,集中在 M5.3 shared-book contagion 部分形态(A 股 / 政策类)、M7.meta 元认知层、MCA 轴 4 N3 自动判定。
核心架构层动作建议(优先级排序):
- 架构 ADR 补充:StructuredCognitionResult 必须扩展 5 个新字段(phase_evidence / causal_graph / applicability_flags / posterior_distribution / s1_consistency)+ MCA 标签纳入 Task 元数据。
- 新增子系统:
KnowledgeGraphService(承载 M1 对象图 + M5 传染边)+ConsistencyMiddleware(承载 S1)+MCAClassifier(承载 MCA 轴位判定)+EvalHarness(承载评测管线)。 - 数据接入清单:CFTC TFF / 13F / DTCC FX swap / GBTC + spot ETF flow / 链上 funding rate / 持仓集中度——按可得性优先级接入。
- 机制版本化:mechanism-version + feature flag + canary,支撑 Phase 5 治理流程的双轨上线 + 撤回。
Simbrief(≤500 字)
🔴 工程无法实现的子机制清单:
- M5.3 shared-book contagion 中"政策信用触发型"与"A 股散户急性版"(数据不公开 / 监管不披露)。
- M7.meta 元认知层("系统 1/2 切换"" 峰终扭曲" 在 LLM 上无清晰工程语义)。
- MCA 轴 4 N3 等级自动判定(国家队战术买入数据不公开,只能人工标注)。
🟡 语义模糊需细化的清单:M1.2 跨市场映射边(需补 CrossMarketMappingEdge 类型与置信度标定);M1.3 政策反应函数(需补 PolicyReactionFunction 子模型);M3.t7 相位差矩阵(7 × 7 矩阵的 LLM 稳定输出路径);M5.1 跨市场翻译损耗(标量标定方法缺失);M5.5 反向力量识别(无算法路径);M7.uq 双峰重尾默认先验(LLM 实现路径未定,prompt / 后处理 / 显式贝叶斯三选一);S1.5 模式 c 叙事可证伪条件抽取(稳定性需 self-consistency 压测);S1 反向触发回路(最大循环 + 收敛判定未定)。
与 L3 架构 / ADR-008 不对齐:StructuredCognitionResult 10 要素无现成槽位承载 (a) M3 跨时钟相位矩阵;(b) M5 传导图;(c) M6 三支柱适用性三态;(d) M7.uq 双峰后验 + 凯利上限;(e) S1 横切输出 8 字段。需架构层补独立 ADR,扩展 5 个新字段。MCA 标签应纳入 Task 元数据而非 StructuredCognitionResult。M7a 偏差标签与"反方证据"、S1.falsification 与"失效条件"存在语义重叠,需统一字段避免双源漂移。
总体判定:可 formalize,需补强。约 30% 子机制 🟢 直接可实现、50% 🟡 需细化、20% 🔴 短期内无法稳定实现。核心动作建议:架构层补 StructuredCognitionResult 扩展 ADR + 新增 4 子系统(KnowledgeGraphService / ConsistencyMiddleware / MCAClassifier / EvalHarness)+ 接入持仓 / 资金流核心数据源 + 引入 mechanism-version + feature flag canary 支撑双轨上线。Phase 5 治理流程的工程接口(机制撤回回退、双轨 v1+v1.1、audit trail 8 季度)建议在 Phase 5 v1 之上加一份"工程接口附录"。
落盘路径:governance/workstreams/finbayes-cognition-system-research/reviews/2026-05-28-phase6-r-b-engineering.md