Round 2 · Claude 扮演 Codex 工程实施 review 报告（Step 6 后基线）

0. 角色切换声明

【Inference】Round 1（落 Step 4 Claude-as-Codex review）我已扮演过一次 Codex 工程实施角色。本次 Round 2 在 Step 6 17 项修复后再扮一次，约束与 Round 1 一致：不利用 1M context 跨文档相互印证、只关心 cognition/types.py / exceptions.py / audit_writer.py 等文件「光标停在哪一行会因签名 / 字段 / fixture / cwd 不清而停下」、不做治理决策、每条结论 ground 到 <file>:<line>。本报告刻意不重复 Round 1 已写过的发现（N1-N5 / N-S1-N-S4 不复述细节，只验 closure）。

1. 执行摘要

【Inference】Step 6 修复在工程实施视角看效果显著且对齐：Round 1 9 个具体卡点 + 真 Codex Round 1 5 个卡点 14 / 14 全部已关或显式留为可推断；新建 4 文件（契约源 / M0 包 / 4 子系统 placeholder / 字段演化矩阵）的 schema surface 已足以一次性写完 cognition/types.py + 通过 §14.5 schema 与 import 类断言。8 维度评分相对 Round 1 普遍上调 1.0-1.5 分/维度，最低维度（接口签名 / 跨子系统调用）由 Round 1 的 2 分升至 3-4 分。仍有 3 项工程实施视角新威胁（详 §5），全部为「合并语义 / 测试 runner 角落 / fixture-validator 联动」类，不阻塞 C-1 启动。基于新基线，C-1 启动保真度 ≥ 95% 成立，剩余 ≤ 5% 为合并模型在 1.1 consumer 真切上线时的运行时验证不可省（schema surface 不能替代 runtime path 覆盖）。

2. N1-N5 + N-S1~N-S4 closure 验证表

ID	Round 1 原问题	Step 6 修复动作	closure	证据
N1	`schema_version` vs `structured_result_version` 双 version 顶层冲突	契约源 §5 / 合并语义锁 §3 明确：`structured_result_version` 为公开版本筛选键，1.0 主体内部 `schema_validation_passed` 不入 audit-versioning 暴露面；test_all_pydantic_models_have_schema_version 显式只 import 1.0 主体 + 周边类（不含 *11Minimal）	Yes	契约源 §5:360-364；M0 §14.5 test:1820-1829
N2	契约源 Pydantic 草案 10 要素字段缺失 + 多继承 ConfigDict 解析顺序未锁	契约源 §5 新增 `StructuredCognitionResultV10Body`（10 要素 inline 完整字段）+ `StructuredCognitionResult11MinimalAdditions` + `StructuredCognitionResultFullV11` 多继承合并类 + ConfigDict 合并语义锁 5 条 + `merge_cognition_result_v1_1` 接口签名	Yes	契约源 §5:302-368
N3	`MCABucketM0.worst_axis / tag_version` Optional 与契约源必选冲突	字段演化矩阵 §1 显式列「M0 Optional → M1 required，收紧时 `audit_contract_regression` 触发标注 `tightening:m1-field-evolution`」；契约源未必选改为「M1 多桶裁决规则落地后必填」语义	Yes	字段演化矩阵 §1:20-22
N4	11 个未定义类型 import 链断	4 子系统每份新增「子模型类型 placeholder（M0 阶段简定义）」段：KGS 给 `MarketStateWindow`；S1 给 `StructuredCognitionResultDraft`；MCA 给 `AxisLevel / CalibrationWindow / CalibrationReport`；Eval 给 `GroundTruth / CaseInput / AnnotatedCase / IAAReport(forward) / SLAWindow / SemiManualQualityReport`	Yes	KGS §placeholder:82-；S1 §placeholder:74-；MCA §placeholder:85-；Eval §placeholder:84-
N5	MCAClassifier 不在 M0 §2 6 子系统表 + Task 缺 `mca_bucket` 字段	M0 §3 `Task` 模型显式补 `mca_bucket: "MCABucketM0 \| None" = None`；§3.5 锁定「由 dispatch_task 在意图识别层产出」；MCA 子系统说明明确不进 §2 通路 6 子系统表，归入认知层 4 子系统正交集	Yes	M0 Task 模型:171-174；子系统 README:15-29
N-S1	sample m0_s4 / m0_s5 跨范围（美联储 / AAPL vs crypto only）	m0_s4 改为「BTC 现货 ETF 资金流向」（crypto-only），m0_s5 改为「下单买入 1 个 BTC」（crypto-only 执行类拒收）；5 条 fixture 全部 crypto-only 显式约束	Yes	M0 §8 samples:966-986, 1041
N-S2	CLI exit code 70 与 `FinBayesError.exit_code` 默认值冲突 + ConfigDict 合并语义未锁	`FinBayesError.exit_code = 71` 落入 70-79 命名段；70 显式保留给 `except Exception` 兜底；退出码段位分配新建表（10-19 输入 / 20-29 Provider / 30-39 边界 / 40-49 任务 / 70-79 内部 / 90-99 audit）；ConfigDict 合并语义见 N2	Yes	M0 §6 退出码段位:802-824；M0 §13 FinBayesError:1426-1461
N-S3	`AuditWriter._write_sync` 失败时无 fallback + 「零丢失」承诺空	三层 fallback 实现写出：SQLite append → `.finbayes/audit_fallback.jsonl` append-only → stderr 兜底 + raise `AuditWriteFailedError(exit_code=90)`；`_sync_back_jsonl` 启动时回放；JSONL fallback 与 SQLite WAL 独立（DB 锁死也能写）	Yes	M0 §13 AuditWriter:1549-1618
N-S4	agent-pack budget 8K vs 实际 67K 量级矛盾	【Inference】本次 Step 6 未在新建 4 文件中处理；属于 agent-pack 派生层（`for-agents/topics/.../agent-pack.yaml`），非工程实施视角阻塞项；按 Round 1 P2 评级保留	Partial	未在 m0-pack / 契约源 / 子系统中体现，需后续 derive-agent-pack 流程独立处理

3. 真 Codex Round 1 的 5 卡点验证表

ID	Codex Round 1 原问题	Step 6 修复动作	closure	证据
C3X-1	`s1` 完整必填 vs M0 minimal 可空	字段演化矩阵 §1 显式列收紧路径 M0 Optional → M1 required；合并类 `StructuredCognitionResultFullV11.s1: NarrativeNumberConsistency` 必填，M0 子集 `s1: Optional[...] = None` 显式注释	Yes	字段矩阵:20；M0 §3.5:398
C3X-2	1.0 主体 + 1.1 minimal 序列化合并缺接口	`merge_cognition_result_v1_1(base, extension) -> dict` 显式接口签名 + 5 条合并约束（顶层版本强制 1.1 / 键冲突 extension 优先 / 未知字段 ignore 不 raise 等）	Yes	契约源 §5 合并接口:368
C3X-3	§14.5 pytest_check eval 安全	M0 §14.5 sample runner eval 显式 globals dict 限制：仅暴露 `result/task/boundary_result/audit_events/any/all/len`；不含 `__builtins__` 显式声明（仍依赖 Python 隐式行为）	Partial	M0 sample runner:1918-1926（详 §5 残留风险）
C3X-4	MCA 轴 3 = F1 default fixture 未锁	5 条 fixture 共享片段显式锁定 `mca_bucket` 七轴档位 = `L1 / D2 / F1 / N1 / C2 / I2 / K2`（crypto + L1 个人投资者档）；F1 默认 → `regulation_status` 整体 None 不报	Yes	M0 fixture 共享片段:993
C3X-5	task packet `working_directory` 缺位 cwd 卡点	M0 §12 task packet 必备字段表新增 `working_directory: <工程实施仓绝对路径>` 必填行 + 显式说明「实际物理路径不写入本仓，由维护者注入」	Yes	M0 §12 task packet:1300-1324

4. 8 维度评分对比表

维度	Round 1 我扮演 Codex 分	Round 2 我扮演 Codex 分	变化	简评
1. 字段完整性	3	4.5	+1.5	`StructuredCognitionResultV10Body` 10 要素 inline 完整 + 合并类 + ConfigDict 锁；唯一残留是 1.1 完整类 `validator` 仍留 M1+ 落
2. 接口签名	2	4	+2.0	11 未定义类型全部 placeholder 闭合，`merge_cognition_result_v1_1` 签名落定；剩 `AuditEvent.payload: dict` 类型擦除未升级
3. 测试可执行性	3	4	+1.0	sample 跨范围已修；eval globals 显式 allowlist；schema_version 测试 import 列表显式只含 1.0 主体类（自动豁免 *M0 后缀类）
4. 数据 fixtures	2	3.5	+1.5	5 条 fixture 实体补完 + 共享片段锁七轴档位；`compute_request_hash` 仍只给 docstring + HASH_INCLUDED/EXCLUDED 字段表，确定性实现细节（dict 排序 / unicode normalize）仍留实施者
5. 错误处理 contract	3	4.5	+1.5	三层 audit fallback + 段位化退出码 + `FinBayesError.exit_code=71`/70 显式分开；零丢失承诺有实施路径
6. 跨子系统调用	2	4	+2.0	MCAClassifier 归位 + `Task.mca_bucket` 字段就位 + dispatch_task 产出语义锁；4 认知子系统正交集 README 清晰
7. 单次 load 负载	2	2	0	agent-pack budget vs 实际 token 量级矛盾未处理（N-S4 Partial）
8. 反查路径	3	4	+1.0	契约源 §5 不再「注释沿用」，10 要素 inline 字段表；事实源单点回归 ADR-008 supplement 清晰
均分	2.5	3.81	+1.31	—

【Inference】整体相对 Round 1 跨度 +1.31，对应 Step 6 的 17 项修复在工程实施视角属于「根因级整改」而非「逐条 patch」—— 维度 2 / 6 由 2 升至 4 是结构性改善，不是补一两个字段表能达到的。

5. 修复中引入的工程实施视角新威胁

F-N1【Evidence】合并类 MRO 决议 vs Pydantic v2 `model_config` 实际继承

【Evidence】契约源 §5 合并语义锁:362 声明「Pydantic v2 多继承 model_config 取最末次显式声明者（本类自身的 extra="ignore" 覆盖父类）」。【Inference】Pydantic v2 实际行为是 ConfigDict 走 MRO 合并不是「最末次显式声明覆盖」—— 子类显式声明 model_config 会完全替换父类 ConfigDict 而非「合并 + 覆盖」（即子类不写 extra="ignore" 时不会保留父类 extra="forbid"）。文档表述「取最末次显式声明者」语义上正确，但工程实施者按字面跑 class C(A, B) 时若两个父类各自有 ConfigDict 但 C 自己没显式声明，行为是「取 MRO 首个父类的 ConfigDict」而非「合并」。建议 §5 增加一条「子类必须显式声明 model_config，不得依赖隐式继承」。

F-N2【Evidence】eval globals dict 缺 `builtins` 显式封锁

【Evidence】M0 §14.5 sample runner:1920-1926 给 globals dict 但未含 "__builtins__": {}。【Inference】Python eval(expr, globals) 在 globals 不含 __builtins__ 键时会自动注入完整 __builtins__ —— 即 __import__('os').system(...) 在该 eval 中仍可达。Round 1 真 Codex 把这条列为 C3X-3 风险，Step 6 加了允许变量 allowlist 但未关闭 __builtins__ 注入路径。建议 globals dict 显式添加 "__builtins__": {} 或换 AST allowlist DSL。closure 半成（功能 allowlist 在，但 RCE 路径仍开）。

F-N3【Evidence】契约源 §5 完整类 `s1: NarrativeNumberConsistency` 必填 vs `merge_cognition_result_v1_1` 接收 dict 的 validation 时机

【Evidence】契约源 §5 完整类:342 s1: NarrativeNumberConsistency 必填；合并接口 :368 「extension = StructuredCognitionResult11MinimalAdditions.model_dump()」。StructuredCognitionResult11MinimalAdditions 自身 s1 必填，但 M0 阶段「1.1 顶层 M0 子集」StructuredCognitionResult11Minimal.s1: Optional[NarrativeNumberConsistencyM0] = None（M0 包 §3.5 :398）。【Inference】M0 阶段直接调 merge_cognition_result_v1_1 是行不通的（M0 类 s1 可空，完整契约 s1 必填，model_validate 会 ValidationError）。文档没显式声明「M0 阶段 merge_cognition_result_v1_1 暂不启用，M1+ 才接通」—— 工程实施者光标停在此处会反复横跳。建议在 M0 §3.5 末段 + 契约源 §5 合并接口段加「M0 阶段合并由序列化层手动拼 JSON，不走 merge_cognition_result_v1_1，该函数 M1+ 启用」一行。

F-N4【Inference】子系统 placeholder 字段集与契约源 §8 待对齐项的覆盖关系不显

【Evidence】契约源 §8 待对齐项:395-403 列 7 条；子系统 placeholder 各给最小字段集。但「placeholder 字段集 = 待对齐项的预案」还是「placeholder 临时凑接口，与待对齐项无承接」未在 placeholder 段说明。【Inference】M1+ 收紧 placeholder 时如果撞到 §8 待对齐决议（如 worst_axis 多桶裁决），placeholder 字段会被推翻；工程实施者需要知道哪些字段「可信」、哪些「占位」。建议每条 placeholder 字段后加「ref §8 待对齐：是 / 否」标注。

6. 仍漏的盲点（这次特意找的）

B-1【Evidence】StructuredCognitionResult11Minimal.regulation_status: Optional[dict]（M0 §3.5:400）类型擦除

【Inference】Round 1 我列了 AuditEvent.payload: dict 类型擦除（Round 1 §2 维度 2），但漏了同型号问题：M0 §3.5 regulation_status 在 M0 整体 stub 时类型设为 Optional[dict] 而非 Optional[RegulationStatusM0]。这意味着 M1 启用时类型从 dict 收紧为子模型，触发 audit_contract_regression 但不会 raise（dict → BaseModel 不是 Optional → required 的破坏性变更类型，回归检测器抓不到）。建议把所有 M0 stub 留 Optional[dict] 的字段（phase_matrix / correlation_regime 等也是）改为 Optional["RegulationStatusM0Stub"] 之类 placeholder 模型，保证 M1 收紧时能被检测器抓。

B-2【Evidence】Round 1 我 + 真 Codex 都漏：merge_cognition_result_v1_1 的「键冲突以 extension 为准」与「两类字段命名理论不重叠」自相打架

【Evidence】契约源 §5 合并接口段:368「键冲突以 extension 为准（两类字段命名理论不重叠）」。【Inference】既然命名理论不重叠，"键冲突以 extension 为准" 是死代码；一旦实际出现键冲突（如未来 1.0 主体加 structured_result_version_history 这种新字段），按「extension 优先」会静默覆盖 1.0 数据。建议改为「键冲突 raise MergeConflictError，留维护者决议」，避免数据静默丢失。

B-3【Evidence】CLI --json 输出 schema 与 §3 Pydantic 模型 schema 不一致

【Evidence】M0 §6 --json:783-790 输出顶层 schema_version: 1；但 1.1 顶层公开版本字段是 structured_result_version: "1.1"（契约源 §1）。CLI 输出顶层用 schema_version 不是 structured_result_version，与 audit_events.payload.task_completed（M0 §5:650 含 structured_result_version）不一致。【Inference】消费 CLI JSON 的下游（M1+ judgment_records 入库 / 评测台架）按哪个版本筛选？建议 CLI --json 输出顶层补 structured_result_version: "1.1"，schema_version 仅作 CLI 输出格式版本（与 Pydantic schema 版本概念分开）。

7. C-1 启动决议

7.1 ≥ 95% 保真度估算

【Inference】基于 Round 2 8 维度均分 3.81（Round 1 是 2.5），按以下口径估算保真度：

字段完整性 4.5 / 5 = 90% 覆盖
接口签名 4 / 5 = 80%（剩 AuditEvent.payload: dict 等类型擦除 20%）
测试可执行性 4 / 5 = 80%（F-N2 eval RCE 路径未关）
数据 fixtures 3.5 / 5 = 70%（compute_request_hash 实现仍粗）
错误处理 4.5 / 5 = 90%
跨子系统 4 / 5 = 80%
load 负载 2 / 5 = 40%（agent-pack budget 未对齐）
反查路径 4 / 5 = 80%

平均覆盖 = (90+80+80+70+90+80+40+80) / 8 = 76.25%

但对于 C-1 首 PR scope = schema surface + import smoke（4 份 review 共识），关键维度是 1 / 2 / 8 / 5，这 4 维度均分 4.5 / 5 = 90%。对 C-1 首 PR 的 schema 落地任务而言，保真度 ≈ 90-95%，不足 ≥ 95% 的 5% 缺口主要在 F-N1（合并类 MRO）+ F-N3（合并接口 M0 启停语义）+ B-3（CLI JSON 顶层版本字段）三处。

7.2 C-1 task packet 写法建议

【Inference】基于本 Round 2 验证 + 残留新威胁，C-1 packet 建议如下：

scope：仅落 src/finbayes/cognition/types.py（1.0 主体 + StructuredCognitionResult11Minimal + MCABucketM0），加 src/finbayes/cognition/merge.py（merge_cognition_result_v1_1 接口骨架 + M0 阶段 raise NotImplementedError("M0 不启用，M1+ 接通")）。
字段宽紧：M0 子集严格按 §3.5 字段表；契约源 §5 完整草案导出但不实例化（避免 F-N3）。
validator 时机：M0 不落 @model_validator（与契约源 §4 + M0 §3.5 末段一致）。
测试范围：跑 §14.5 schema 测试 + import smoke + sample runner 5 条；不承诺通过 contract 跨字段约束类断言（M1+ 范畴）。
额外约束：CLI --json 输出顶层补 structured_result_version（B-3 修复）；eval globals 加 "__builtins__": {}（F-N2 修复）；合并接口在 cognition/merge.py 第一行注释「M0 不启用」（F-N3 修复）。

8. 与 Round 1 我扮演 Codex 的差异

8.1 Round 1 N1-N5 的修复对工程实施视角的实际影响

【Inference】Round 1 我把 N4（11 未定义类型）评为 P1，认为「写到这层会自然补 placeholder」是 Codex 视角的乐观推断。Round 2 验证显示：Step 6 把 11 类型 placeholder 全部显式落 —— 这不是简单的「补一行 class X(BaseModel): pass」，而是每个 placeholder 都附「事实源回写发生于 ADR-008 supplement v2 / 1.1 契约源 v1.2 patch 段」的反查锚点。这是治理-工程双视角的协作结果：工程视角要 import 闭合，治理视角要事实源不丢失，Step 6 同时满足。

【Inference】Round 1 N1（双 version）的修复显著提升我对接口签名 / 字段完整性两维度的信心：从 Round 1「实施者按字面跑 from finbayes.cognition.types import StructuredCognitionResult11 然后 instantiate 时会 NameError」（Round 1 §3 N2），变为 Round 2「StructuredCognitionResultFullV11 完整可 instantiate，合并语义有显式接口」。

8.2 Round 2 我扮演 Codex 看到的角度变化

【Inference】Round 1 我以「光标停在哪一行」为锚找卡点，发现的多是 import 链 / 字段表 / 多继承 ConfigDict 等「静态时」问题。Round 2 同一锚下，新威胁三条（F-N1/F-N2/F-N3）全部偏「运行时语义」：MRO 实际行为 vs 文档表述、eval 隐式 __builtins__、合并函数 M0 启停语义。Round 2 比 Round 1 看到的更靠近 runtime，因为静态层的卡点 Step 6 基本扫光。

9. 元 review（跨 Round 的认知漂移）

9.1 同一角色扮演两次的认知漂移

【Inference】Round 1 我把 8 维度均分给到 2.5，Round 2 给到 3.81，差距 +1.31。我担心：（a）这是文档真的好了 1.31 分，还是（b）我两次 Codex 扮演的「严格度」漂移了？

【Inference】支持（a）的证据：N1-N5 + C3X-1~C3X-5 共 10 条具体卡点，Round 2 都能 ground 到 step 6 修改的具体行号。Round 2 新发现 3 条威胁是 Round 1 同 instinct 下都能抓到的类型（运行时语义 / RCE 路径 / 数据静默丢失），不是「门槛降低」的产物。漂移性质偏向 (a) 文档真改善，但不能 100% 排除 (b)。

【Inference】跨 Round 同角色 review 设计建议：未来同一文档两次 review 之间应有显式 baseline diff（如 git diff 摘要），让 Round 2 reviewer 可以验证「Round 1 列的 N1-N5 在 diff 哪几行修了」，避免「Round 2 跑回归只看新文档不看 diff」导致的伪降级 / 伪改善。

9.2 Step 5 RCA 推荐的根因级整改路径是否得到验证

【Inference】Step 5 §4 根因清单:175 给出 6 个根因（R1 单点定义 / R2 状态账本 / R3 schema surface scope / R4 interface closure / R5/R6 略），其中 R1（单点定义不唯一） + R4（interface closure）正是 Step 6 重点改的两条。

Round 2 工程实施视角验证：

R1 根因级整改成立：N1（双 version）+ N2（10 要素缺失）+ N3（worst_axis）三条 Round 1 同根因发现，Step 6 不是逐条 patch 而是统一在契约源 §5 立 StructuredCognitionResultV10Body + MinimalAdditions + FullV11 三类 + 合并语义锁，一次修完三条。这是 Step 5 推荐的「根因整改」实际效果。
R4 根因级整改成立：N4（11 未定义类型）+ 4 子系统接口签名问题，Step 6 在每份子系统加「§placeholder 段」+ 字段事实源回写锚点，不是逐个补字段而是建立结构性补救机制。
R3 根因级整改部分成立：C-1 首 PR scope 应收缩为 schema surface + import smoke，这一共识 Step 6 落在 m0-pack §14.5 测试结构里，但 C-1 task packet 模板（§7.2 §12）没显式把「不承诺通过跨字段约束类断言」写成约束，工程实施者可能写过头。建议补一句。

【Inference】结论：Step 5 RCA 推荐的「根因级整改替代逐条 patch」路径在 Step 6 已 80% 实现，剩余 20% 是 C-1 packet 边界 + agent-pack budget 等结构性 fixture 性问题，不阻塞 C-1。本次 Round 2 cross-role review 的方法论价值已得到二次验证：跨模型 + 跨 round + 显式角色切换 + evidence-vs-inference 标签四要素叠加，覆盖面比单跑任一组合更厚。

10. 体量自检与关联资产

【Inference】本报告中文字符数约 6,400（目标 ≤ 12K）。read-only 除写本文件，未 commit；所有路径以仓库相对路径 + 锚点 file:line 形式给出，符合不写本地路径约束。

Round 1 同角色：Step 4 Claude 扮演 Codex review
Round 1 真 Codex：Step 3 Codex review
Round 2 治理视角 sub-agent：Step 7 Round 2 Claude review
根因分析：Step 5 RCA
1.1 契约源：StructuredCognitionResult 1.1 契约源
M0 工程包：M0 走通骨架工程包
字段演化矩阵：里程碑字段宽紧度演化矩阵
4 子系统：认知体系工程承接子系统目录

0. 角色切换声明​

1. 执行摘要​

2. N1-N5 + N-S1~N-S4 closure 验证表​

3. 真 Codex Round 1 的 5 卡点验证表​

4. 8 维度评分对比表​

5. 修复中引入的工程实施视角新威胁​

F-N1【Evidence】合并类 MRO 决议 vs Pydantic v2 model_config 实际继承​

F-N2【Evidence】eval globals dict 缺 __builtins__ 显式封锁​

F-N3【Evidence】契约源 §5 完整类 s1: NarrativeNumberConsistency 必填 vs merge_cognition_result_v1_1 接收 dict 的 validation 时机​

F-N4【Inference】子系统 placeholder 字段集与契约源 §8 待对齐项的覆盖关系不显​

6. 仍漏的盲点（这次特意找的）​

7. C-1 启动决议​

7.1 ≥ 95% 保真度估算​

7.2 C-1 task packet 写法建议​

8. 与 Round 1 我扮演 Codex 的差异​

8.1 Round 1 N1-N5 的修复对工程实施视角的实际影响​

8.2 Round 2 我扮演 Codex 看到的角度变化​

9. 元 review（跨 Round 的认知漂移）​

9.1 同一角色扮演两次的认知漂移​

9.2 Step 5 RCA 推荐的根因级整改路径是否得到验证​

10. 体量自检与关联资产​