Step 12 · Codex 主控视角全量独立 review (角色互换)
0. 边界 + 方法论 (< 200 字)
本报告只基于指定章节和入口文件做主控视角 review,不复用前 11 步 review 的结论。方法是把证据分成三层:上位不变量、工程落地契约、工作流可执行性;每条判断标注 evidence / inference。唯一写入是本报告;未改事实源、未 commit。验证命令补充跑了 npm run audit:cross-section、npm run derive:check、npm run verify:kb,用于确认当前机械门禁状态。
1. 执行摘要
- C-1 启动信心度:72%(主控视角)。Evidence:M0 工程包已给出 CLI only、Crypto、即时解释/分析类、Mock 数据、L1 Provider only 的明确范围,并列出 34 个固定接口签名与 M0 验收条件(
projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:64-121、projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1275-1318)。Inference:M0 作为 walking skeleton 可以启动,但不是“全产品范围”启动。 - 三大要求 1:冗余 / 无效 / 冲突 / 齐备 / 上位对齐 = CONDITIONAL PASS。Evidence:contracts/ 作为事实源已声明冲突时以 contracts/ 为准(
contracts/README.md:16-20、contracts/README.md:34-40),audit:cross-section当前 Rule 1/2 为 0 violation,但 Rule 3/4/5 仍有 warning,合计 252 warning,其中 Rule 4 namespace prefix 233 个。Inference:根因被结构性收束,但没有清零,主控不能把它当成已完成的治理闭环。 - 三大要求 2:100% 实现产品定义 + 架构范围 + 落地质量 = FAIL for 全阶段,CONDITIONAL PASS for M0。Evidence:主架构把 M0 定义为 1 任务类型 × 1 市场 × 1 入口 × 1 状态对象(
projects/finbayes/engineering/architecture.md:5117-5123、projects/finbayes/engineering/architecture.md:5153-5163),而 M1-M7 仍有状态化、任务扩展、入口扩展、市场扩展、主动信号、评估闭环、演化能力等后续范围(projects/finbayes/engineering/architecture.md:5221-5360)。Inference:M0 可以实现“验证契约能落代码”的范围,不能代表产品定义与架构全文 100% 落地。 - 三大要求 3:任务切片满足 OpenSpec + Archon + Claude 主控 + Codex Coding 协作 = CONDITIONAL PASS。Evidence:ADR-003 定义 OpenSpec 做 spec、Archon 做里程碑工作流、Claude Code 主控 review、Codex 实施(
governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:17-35);M0 Archon yaml 有 3 个 deterministic gate、6 个 AI 节点、2 个 PR 节点和收尾 trigger(.archon/workflows/milestone-M0.yaml:25-154、.archon/workflows/milestone-M0.yaml:156-204)。Inference:工作流形状成立,但真实可执行性依赖 OOSO / 人类 reviewer / P0 签字 / 工程仓 task packet 是否按时到位。 - 与整改后预期对照:当前材料显示“事实源层、工程包入口、三方互审、P0/P1 gate”都已经有载体;但整改也新增了 contracts 维护、252 warning 调度、第三方 AI 可用性、真人 owner 招募、M0 收尾 5 项起草任务等主控负担。Inference:整改有效降低字段漂移,但把主控压力从“找冲突”转移为“持续运营多个 gate”。
2. 战略不变量盘点 (第一性原理)
| 不变量 | 上位锚 | 下位落锚 | 真实落地状态 | 主控判断 |
|---|---|---|---|---|
| FinBayes 是认知层,不是执行层 | Evidence:白皮书定义输出认知材料、不输出执行指令,用户自主选择交易工具(projects/finbayes/strategic-whitepaper.md:1080-1090)。 | Evidence:产品定义写“不直接下单,也不持有账户凭证”,执行由 ATM 或用户工具承接(projects/finbayes/engineering/product-definition.md:535-546);架构 §2 同步写 runtime 不实现交易执行、工具注册表拒收执行类工具(projects/finbayes/engineering/architecture.md:144-153)。 | M0 工程包含 Capability Registry reject_execution_tool 和凭证 negative tests(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:112-121、projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:92-100)。 | PASS for M0。Inference:只要 PR checklist 第 11 项和凭证测试真实执行,M0 不会越过执行边界。 |
| 金融执行凭证不收、不存、不训练 | Evidence:白皮书列交易所 key、私钥、账户密码等均为金融执行凭证,当前版本严格不收(projects/finbayes/strategic-whitepaper.md:1108-1123)。 | Evidence:产品定义要求 runtime、Session、Judgment Record、Dynamic Profile、日志、训练数据均不接收凭证(projects/finbayes/engineering/product-definition.md:500-510);架构 §2 给输入、状态、日志、审计、输出端三段机械承接(projects/finbayes/engineering/architecture.md:154-169)。 | M0 工程包把 5 类凭证 negative test 和输出端 grep 0 命中列为验收(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:92-100、projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1281-1292)。 | PASS with test dependency。Inference:若工程仓 fixture 未按 task packet 落盘,当前治理库只能证明“验收口径存在”,不能证明代码已阻断。 |
| 用户主权与候选两步写入 | Evidence:白皮书要求用户可查看、修改、清空认知资产,并声明长期资产写入采用候选到确认两步契约(projects/finbayes/strategic-whitepaper.md:1096-1107)。 | Evidence:产品定义 §10 支持查看、修改、清空画像,且用户主动修改优先(projects/finbayes/engineering/product-definition.md:474-488);架构 §2 明确画像不裁剪事实空间(projects/finbayes/engineering/architecture.md:171-176)。 | M0 明确不走候选两步路径;M1 占位包把 StateCandidate 与 Judgment Record 持久化作为 M1 目标(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:68-76、projects/finbayes/engineering/engineering-packs/m1-state-confirmation.md:23-47)。 | CONDITIONAL。Inference:M0 可接受 stub,但 M1 前 ADR-007 与 M1 工程包必须实质起草,否则用户主权只能停留在声明层。 |
| 画像不裁剪事实空间 | Evidence:白皮书写反方证据、关键风险、失效条件不因用户偏好省略(projects/finbayes/strategic-whitepaper.md:1125-1133)。 | Evidence:产品定义写表达密度、术语深度、关注节奏可变,但事实范围、反方证据、关键风险保留(projects/finbayes/engineering/product-definition.md:489-499)。 | M0 输出判定要求反方证据、失效条件、信息缺口人工 checklist(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1294-1318)。 | PASS for visible acceptance。Inference:M0 用人工 5 条 checklist 可以守住首批质量,但不能替代 M6 的长期评估闭环。 |
| Crypto + US Stocks 是第一阶段市场边界,M0 只做 Crypto | Evidence:产品定义第一阶段覆盖 Crypto、US Stocks 和 ETF / 宏观变量,不做 A 股、商品、外汇、债券等深能力(projects/finbayes/engineering/product-definition.md:46-55)。 | Evidence:战略未决问题要求更多市场普适性不能被工程提前回答(projects/finbayes/strategic-whitepaper.md:1279-1284、projects/finbayes/strategic-whitepaper.md:1317-1328)。 | M0 工程包只选 Crypto(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:68-76);M4 才引入 US Stocks(projects/finbayes/engineering/architecture.md:5285-5301)。 | CONDITIONAL。Inference:M0 启动不需要 US Stocks,但全阶段“产品定义 100%”至少要等 M4。 |
| 认知体系持续构建,不承诺已完整 | Evidence:白皮书风险二要求不承诺体系完整,而是持续校准(projects/finbayes/strategic-whitepaper.md:1196-1205);认知体系第一版构成已落锚但仍持续构建(projects/finbayes/strategic-whitepaper.md:1291-1301)。 | Evidence:产品定义要求整体引用五件套并保留 accepted 但持续构建状态语义(projects/finbayes/engineering/product-definition.md:289-305)。 | 架构 §29 索引 4 个认知层子系统,并保留持续构建语义(projects/finbayes/engineering/architecture.md:6008-6039)。 | PASS as framing。Inference:真正落地效果要等 EvalHarness 与 Phase 5 治理 reviewer 形成持续节奏。 |
| 商业未决不由工程抢答 | Evidence:白皮书要求商业模式、更多市场、机构分立等未决问题在回答前下游不能假装已回答(projects/finbayes/strategic-whitepaper.md:1264-1328)。 | Evidence:产品定义 §10.5 允许记录成本、留存、质量反馈,但不能把价格、阈值、付费转换点硬编码进产品逻辑(projects/finbayes/engineering/product-definition.md:523-531)。 | 架构 §22 把商业模式、跨设备、Channel 优先级、任务最终形态、认知验收方法列为不抢答缺口(projects/finbayes/engineering/architecture.md:4485-4521)。 | PASS。Inference:M0 mock + config 化路径没有抢答商业问题。 |
3. 决策权与资源分配评估
Evidence:owner map 把 27 项分成 P0 5 项、P1 8 项、P2 14 项,P0 涉及战略不变量 / 产品立场 / 合规底线,P1 涉及外部影响工程契约,P2 是工程实施细节(projects/finbayes/engineering/pending-decisions-owner-map.md:29-36、projects/finbayes/engineering/pending-decisions-owner-map.md:39-49、projects/finbayes/engineering/pending-decisions-owner-map.md:82-96、projects/finbayes/engineering/pending-decisions-owner-map.md:110-138)。Inference:分类能调动决策,因为它明确了 AI 不能代签的边界;但它不是自动完成决策,只是把阻塞显性化。
P0 的实际启动风险集中在 MP-3。Evidence:MP-3 kelly_cap 下游消费协议明确 C-1 启动前必关闭,签字状态为待用户签;DA-1 到 DA-4 是 M1 启动前必关闭,M0 mock 不阻塞(projects/finbayes/engineering/pending-decisions-owner-map.md:43-49、projects/finbayes/engineering/pending-decisions-owner-map.md:60-78)。Inference:C-1 前真正的硬门槛不是 5 项全部签完,而是 MP-3 必须签;DA-1 到 DA-4 需要进入 M1 前倒排,不应拿来阻断 M0。
用户暂代 6 真人角色的可持续性偏低。Evidence:owner map 记录项目所有者、法务、数据治理、金融领域专家、数据科学家、UX 均由人类用户暂代,并承认单人承担 6 角色、P0 5 项签字、P1 8 项 30 天回查、跨 3 工作流总指挥存在认知带宽天花板(projects/finbayes/engineering/pending-decisions-owner-map.md:152-183)。Inference:短期 M0 可以靠 batch brief 降低用户成本;长期 Phase 5 治理与 M1+ 数据接入不能继续压在单人身上。
AI 三方互审是可行但脆弱的。Evidence:ADR-003 要求 P1 由 Claude 主控、Codex 工程实施、第三方 AI 默认 OOSO review,不一致则升级用户;OOSO 不可用时降级为人类工作流维护者直接 review(governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:43-85)。Inference:OOSO 不是不可替代资源,但第三方 AI 选择若未在 M0 启动时确认可用性,P1 gate 会退化为用户负担。
4. 跨工作流总指挥评估
当前至少有 4 条相互牵引的工作流。Evidence:v3-downstream-sync status 指向 whitepaper-rewrite、cognition-system-research,并列出 L2/L3 同步目标(governance/workstreams/finbayes-whitepaper-v3-downstream-sync/status.md:1-19);其当前状态是 Phase 1 进行中,ADR-007 supplement 同步首批 P0 已落地,但 v3 7+4 必修 / 建议清单仍待团队带宽(governance/workstreams/finbayes-whitepaper-v3-downstream-sync/status.md:23-45)。Evidence:arch-rewrite ADR index 又承接本工作流的 ADR namespace 和跨工作流同号消歧(governance/workstreams/finbayes-arch-rewrite/decisions/INDEX.md:11-40)。Inference:主控实际调度的是 arch-rewrite、whitepaper-rewrite、v3-downstream-sync、cognition-system-research 四个面,而不是单一工程包。
v3-downstream-sync 对 M0 的“非阻塞”判断基本成立,但不能被误读为“无债”。Evidence:status 的 M0 audit 判定 8 项剩余 P0 均不阻塞 M0,其中结构性大改推到 M1 前关闭,3 项轻量指针 M0 期间随手补(governance/workstreams/finbayes-whitepaper-v3-downstream-sync/status.md:122-149)。Inference:M0 可以启动;但若主控不在 M0 期间登记这些轻量项,M1 前会出现 L2 文档与工程包的同步欠账。
主控同时总指挥 4 工作流的认知带宽风险为中高。Evidence:ADR-003 本身也承认多 Agent 交接 protocol 需要严格执行,每个里程碑工作量增加 review + gate,工作流配置存在漂移风险(governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:100-112)。Inference:主控不能依赖“记住所有上下文”,必须依赖 contracts、ADR index、Archon yaml、owner map、agent-pack 入口来压缩工作记忆。
5. milestone gate / review / 审计 / 验收 / 资源
milestone gate。Evidence:M0 Archon yaml 有 gate-verify-kb、gate-derive-check、gate-fixtures-integrity 三个 deterministic gate(.archon/workflows/milestone-M0.yaml:25-53)。Inference:前两个在治理库可直接验证,第三个依赖工程仓侧脚本与 fixture 实际落盘。
review。Evidence:PR review gate 要求 Claude、Codex、OOSO 三方,且至少一个 human project-owner 亲自走,不只签字(.archon/workflows/milestone-M0.yaml:137-154);ADR-003 也要求每个 milestone 至少 1 个 PR gate 由人类维护者亲自走(governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:70-78)。Inference:review 设计正确,但用户本人是否承担 human gate 是资源问题,不是文档问题。
审计。Evidence:PR checklist 第 11 项要求 P0/P1 决策触及检查,P0 必须人类签字,P1 必须 AI 三方互审,脚本为 scripts/audit_p0_decision_touch.mjs(.archon/workflows/pr-review-checklist.md:13-35)。Inference:第 11 项应该由 CI + reviewer 共同执行:脚本负责 grep 触发,AI reviewer 负责语义判断,人类只处理 P0 签字或 P1 回查,不能把所有 grep 噪声交给用户。
验收。Evidence:M0 输出判定用 Pydantic + grep 自动检查,再用人工 5 条 checklist;评分人字段允许 Claude / Codex / 工作流维护者,但 ADR-003 要求必须含真人维护者、不能仅 AI(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1275-1318、governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:75-78)。Inference:用户本人能承担短期 5 条样例验收;如果每个 milestone 都这样做,需尽快引入 reviewer。
资源调配。Evidence:M0 收尾 trigger 强制起草 M1 工程包、ADR-005、ADR-006、ADR-007、ADR-009、horizontal bundle,且多项 blocking for M1(.archon/workflows/milestone-M0.yaml:156-195)。Inference:M0 不是结束点,而是资源调度峰值的开始;主控必须在 M0 PR review gate 前确认这些 trigger 有明确 owner 与日历。
6. 战略-工程对齐度评估
工程文档体系对战略与产品定义的承接是“结构可追溯,阶段不完整”。Evidence:主架构 §2 直接继承认知层、非执行层、凭证不变量、用户主权、7 类任务与战略未决参数配置化(projects/finbayes/engineering/architecture.md:140-213)。Evidence:M0 工程包把主架构 §25 的范围拆成 CLI、Crypto、默认 Session、L1 Provider、Mock fixture、审计 trail(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:64-100)。Inference:M0 范围保真度约 82%。扣分点不是战略偏离,而是 M0 故意只覆盖 S1 / Crypto / CLI / stub 状态路径,不能覆盖 US Stocks、复盘、主动信号、多入口、M6 评估闭环。
M1-M7 范围保真度约 38%。Evidence:README 列 M1-M7 与横切包共 8 份待起草或占位,M1 与 horizontal 只是 pending 占位,其余未起草(projects/finbayes/engineering/engineering-packs/README.md:15-40)。Evidence:主架构 §25 已给 M1-M7 范围和验收框架(projects/finbayes/engineering/architecture.md:5221-5360),但工程包只有 M1 pending 大纲与 M0 收尾起草 checklist(projects/finbayes/engineering/engineering-packs/m1-state-confirmation.md:1-106)。Inference:战略到架构的对齐较强,架构到可执行 task packet 的对齐目前主要只在 M0 成熟。
contracts/ 提升了对齐可审计性。Evidence:contracts/README 声明所有架构主文件、工程包、子系统文档、agent-pack 引用本目录字段定义,冲突以本目录为准(contracts/README.md:16-20)。Evidence:M0 工程包 frontmatter 已列 7 个 schema_sources(projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1-20)。Inference:这能防止字段级漂移,但也增加了维护面,见第 9 节。
7. 长期可持续性
Phase 5 治理首季依赖真人 reviewer 招募,当前只是时间表,不是资源承诺。Evidence:owner map 要求金融领域专家 T0+30 天前确认到位、数据科学家 / 半人工标注 reviewer T0+2 月前到位,T0+3 月未到位则 Phase 5 评估延后 1 月(projects/finbayes/engineering/pending-decisions-owner-map.md:156-171)。Inference:这是可接受 fallback,但若首季评估延后,会削弱认知体系“持续构建”的战略差异化。
v3-downstream-sync 8 项 P0 audit 后 M0 不依赖的判断总体正确。Evidence:剩余项多是 L2 产品三分法、商业立场、立场降级、frontmatter 引用,status 明确 M0 cognition pipeline 不读这些结构性 L2 段(governance/workstreams/finbayes-whitepaper-v3-downstream-sync/status.md:122-145)。Inference:M0 启动不应等待 L2 大改;但 M1 前关闭 4 个结构性 L2 改动必须作为主控日历项,否则战略表述与工程包会在后续分叉。
ADR-007 blocking M1 是长期关键路径。Evidence:contracts/adr-states.yaml 把 arch-rewrite/ADR-007 状态写入两步候选标为 waiting、blocking_milestone M1,deadline M0 收尾 + 14 days(contracts/adr-states.yaml:57-65);M1 包也写 ADR-007 必须 accepted,blocking M1(projects/finbayes/engineering/engineering-packs/m1-state-confirmation.md:75-84)。Inference:主控应把 ADR-007 当成 M0 收尾后的第一优先级,而不是普通 ADR backlog。
8. 主控自己 (Codex) 6 位一体职责能持续吗 (诚实自评)
短期可以,长期不能靠单次上下文持续承担。Evidence:本次指定阅读已经跨战略、产品、架构、contracts、owner map、ADR、Archon、agent-pack、engineering packs、v3 sync 和脚本校验,且仅主控关心段落已覆盖数万字符。Evidence:engineering-packs README 也把 Claude 主控要求为完整通读架构主文件和全部已起草 / 占位 pack,而 Codex 工程实施主力按 agent-pack 加载,不直接读架构主文件(projects/finbayes/engineering/engineering-packs/README.md:49-62)。Inference:Codex 可以承担“当前 gate 的独立 review / coding / verification”,但不应承担无限期记忆体。
守护战略不变量、调度决策、审计、验收、总指挥这 6 项职责必须文档化分摊。Evidence:contracts/README 给字段事实源;ADR index 给 namespace 消歧;Archon yaml 给 gate;owner map 给签字权;agent-pack 给 M0 一次 load 入口(contracts/README.md:22-32、governance/workstreams/finbayes-arch-rewrite/decisions/INDEX.md:11-40、.archon/workflows/milestone-M0.yaml:1-20、for-agents/topics/finbayes-m0-implementation/agent-pack.yaml:93-121)。Inference:仓内文档完备性兜底基本够 M0,但要靠这些入口重载,而不是每次 reload 175K token。
主控 stop condition 应该是 gate 级别,而非全局完美。Inference:M0 的合理 stop condition 是 MP-3 签字、agent-pack 一致、verify / derive / audit 运行、工程仓 task packet 自包含、PR checklist 可执行;不是 M1-M7 工程包全写完。
9. 整改后新引入的主控负担 (最重要)
第一,contracts/ 7 yaml 是事实源层,但也是新维护面。Evidence:contracts/README 列 7 份 YAML,覆盖 StructuredCognitionResult、状态机、业务场景、评估维度、MCA、代码路径、ADR 状态(contracts/README.md:22-32)。Evidence:引用约定要求 .md frontmatter 加 schema_sources、正文不重复定义、冲突以 contracts 为准(contracts/README.md:34-40)。Inference:每次 ADR / schema / 路径变化都要同时维护 YAML、引用文档、派生包和 audit 规则,主控负担变重。
第二,audit_cross_section_consistency 不是“已清理完”,而是把待修项显性化。Evidence:脚本定义 5 条规则,ground truth 从 contracts/*.yaml 读取(scripts/audit_cross_section_consistency.mjs:1-23、scripts/audit_cross_section_consistency.mjs:53-83)。本次收尾运行显示 0 errors、252 warnings,其中 Rule 3 13、Rule 4 233、Rule 5 6。Evidence:contracts/adr-states.yaml 自身仍记录 rule_4_namespace_prefix 227 个待修(contracts/adr-states.yaml:118-129)。Inference:主控需要排期修 warning,否则 warning 会变成“长期噪音”,后来 reviewer 会忽略。
第三,PR checklist 第 11 项、AI 三方互审、真人 owner 招募确实增加主控流程成本。Evidence:checklist 规定触及 P0/P1 的关键词与所需 audit trail(.archon/workflows/pr-review-checklist.md:25-29);ADR-003 把 P0/P1/P2 决策协议写入协作模式(governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:49-69)。Inference:这些门禁对安全是必要的,但会降低 PR 吞吐。主控必须把 P0/P1 触发压缩为少量 batch,不要让每个字段 PR 都升级。
第四,M0 收尾 trigger 的 5 项起草任务是最大运营风险。Evidence:M0 yaml 规定 M0 验收通过后强制触发 M1 pack、ADR-005、ADR-006、ADR-007、ADR-009、horizontal bundle(.archon/workflows/milestone-M0.yaml:156-195)。Inference:如果没有独立 tracking artifact,trigger 很容易变成“yaml 里写了但没人执行”。这不是工程问题,是主控项目管理问题。
10. 主控视角真正风险 (5-8 条)
- R1:MP-3 签字未闭合导致 C-1 名义启动但战略边界未锁。Evidence:MP-3 C-1 前必关闭且待用户签(
projects/finbayes/engineering/pending-decisions-owner-map.md:43-49)。Inference:这是 M0 唯一应被视作 C-1 hard stop 的 P0。 - R2:M0 通过后 M1 没有可执行包。Evidence:M1 当前是 pending 占位,M0 收尾后 7 天内由 Claude 主控起草(
projects/finbayes/engineering/engineering-packs/m1-state-confirmation.md:1-21、projects/finbayes/engineering/engineering-packs/m1-state-confirmation.md:95-106)。Inference:若 M0 期间不提前准备,M1 会断档。 - R3:ADR-007 未 accepted 阻断用户主权工程落地。Evidence:ADR-007 是 M1 blocking(
contracts/adr-states.yaml:57-65)。Inference:候选两步写入是用户主权核心,不能长期 pending。 - R4:audit warning 噪声被常态化。Evidence:
audit:cross-section当前 252 warnings,默认 warnings 不 fail(scripts/audit_cross_section_consistency.mjs:16-23、scripts/audit_cross_section_consistency.mjs:395-410)。Inference:短期可接受,长期会削弱机械门禁可信度。 - R5:OOSO 不可用使 P1 fresh-eyes 二阶退化到用户负担。Evidence:OOSO 是默认,fallback 是人类维护者直接 review(
governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:79-85)。Inference:M0 启动时应验证 OOSO 可用性。 - R6:用户暂代 6 角色造成决策延迟。Evidence:owner map 明确单人 6 角色和认知带宽天花板(
projects/finbayes/engineering/pending-decisions-owner-map.md:173-183)。Inference:M1 数据治理、Phase 5 评估、UX 两步确认界面会争夺同一人时间。 - R7:M0 质量样例过窄,误判真实用户首屏质量。Evidence:M0 只用 5 条样例 + 人工 checklist,LLM-as-judge M6 才上(
projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1275-1318)。Inference:M0 质量结论只能证明“骨架可评价”,不能证明产品质量稳定。 - R8:治理库与工程仓 task packet 脱节。Evidence:M0 工程包多处说明 fixture 文件与实际代码落在工程实施仓,本仓只锁 acceptance condition(
projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1290-1292)。Inference:主控必须验收工程仓实际文件,不只验收治理库文档。
11. 启动决议 + 收紧条件
决议:CONDITIONAL GO for M0 / C-1,不准宣称全阶段 ready。
启动前必须收紧 6 条:
- MP-3 签字闭合。Evidence:owner map 写 C-1 启动前必关闭(
projects/finbayes/engineering/pending-decisions-owner-map.md:43-49、projects/finbayes/engineering/pending-decisions-owner-map.md:60-78)。Stop condition:签字 audit trail 落盘。 - OOSO 或 fallback reviewer 可用性确认。Evidence:ADR-003 与 M0 yaml 均把 OOSO 放入三方 review(
governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:79-85、.archon/workflows/milestone-M0.yaml:141-146)。Stop condition:PR template 或 task packet 写明第三方 reviewer。 - M0 task packet 必须带工程仓路径、fixture 落盘计划和 acceptance 命令。Evidence:M0 包规定 task packet 必备工程仓绝对路径,否则实施 Agent 无 cwd(
projects/finbayes/engineering/engineering-packs/m0-walking-skeleton.md:1322-1346)。Stop condition:OpenSpec packet 自包含。 - audit warning 不阻塞 M0,但必须建立 M0 后清理队列。Evidence:当前
audit:cross-section0 errors / 252 warnings。Stop condition:Rule 4 namespace cleanup issue / task 列入 M0 收尾。 - M0 人工 5 条 checklist 必须含真人维护者。Evidence:ADR-003 明确不能仅 AI(
governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:75-78)。Stop condition:评分 archive 中至少一个真人 reviewer。 - M0 收尾 trigger 进入日历。Evidence:M0 yaml 已列 T+7 / T+14 deadlines(
.archon/workflows/milestone-M0.yaml:156-195)。Stop condition:M1 pack 与 ADR-005/006/007/009 有 owner、deadline、review path。
验证现状:npm run derive:check 通过;npm run audit:cross-section 通过但有 warning;npm run verify:kb 当前失败,失败原因是仓内未跟踪文件 governance/workstreams/finbayes-arch-rewrite/2026-05-28-step12-claude-as-impl-lead-review.md 引用多个 contracts/*.yaml 但 frontmatter schema_sources 未列出,不是本报告内容。Inference:本次报告写入后仍需单独处理该未跟踪文件,才能恢复 repo-wide verify green。
12. 给前 11 步 review + Step 11 整改的元 review
本节不评价前序结论本身,只评价当前整改产物是否从第一性原理上解决根因。
有效的整改:
- contracts/ 作为 machine-readable source of truth 有效。Evidence:README 明确 source of truth、machine-readable、冲突以 contracts 为准(
contracts/README.md:16-20、contracts/README.md:34-40);脚本也从 contracts 读取 ground truth(scripts/audit_cross_section_consistency.mjs:53-83)。Inference:这直接针对跨文档字段漂移。 - owner map 三档有效。Evidence:P0/P1/P2 明确谁能签、何时阻塞、AI 能做什么(
projects/finbayes/engineering/pending-decisions-owner-map.md:29-36)。Inference:它解决“AI 自己给产品立场拍板”的权限错位。 - ADR-003 fresh-eyes 二阶有效。Evidence:spec 起草人不当自己 spec reviewer,P1 需要第三方 AI(
governance/workstreams/finbayes-arch-rewrite/decisions/ADR-003-工程实施栈与协作.md:37-69)。Inference:它把“互相 review”从口号变为角色协议。 - M0 agent-pack 有效。Evidence:agent-pack 把 M0 sources、budget、outputs、acceptance 三项列成单次 load 入口(
for-agents/topics/finbayes-m0-implementation/agent-pack.yaml:13-121)。Inference:它降低 Codex coding 的 context window 风险。
增加摩擦的整改:
- contracts/ 引入双写风险。Evidence:README 仍说可派生镜像待启用、verify schema-ref 待 I-2、audit cross-section 待 I-6 完成(
contracts/README.md:52-68)。Inference:在派生和校验未全 strict 前,YAML 与 .md 可能再次分叉。 - Rule 4 warning 量过大。Evidence:当前 233 namespace warnings。Inference:如果不收敛,reviewer 会把 warnings 当背景噪音。
- 第 11 项 checklist 可能过度升级 PR。Evidence:关键词包含
kelly_cap、data_governance、worst_axis、phase_label等高频字段(.archon/workflows/pr-review-checklist.md:25-29)。Inference:需要脚本粗筛 + reviewer 精判,否则 P1 三方互审会被频繁触发。 - M0 收尾 trigger 把真实负担后移。Evidence:M1 pack 和 4 个 ADR 都等 M0 验收后 T+7/T+14 起草(
.archon/workflows/milestone-M0.yaml:156-195)。Inference:这比没有 trigger 好,但不是已经完成;主控不能在 M0 通过时宣布 M1 ready。
根因是否解决:部分解决。Evidence 层面,当前 artifacts 已能把事实源、权限、工作流、M0 消费入口串起来;验证层面,derive 通过、audit 0 errors,但 verify 因无关未跟踪报告失败,audit 仍 252 warnings。Inference:C-1 可以在收紧条件下启动,长期治理还没有进入稳定运营态。