跳到主要内容

M0 启动前置 checklist(现实检验导向)

承接 2026-05-29 全量 fresh review 整改收口。本清单是「文档整改完成 → M0 第一个 PR 启动」之间的可执行准备。

核心原则:文档侧硬缺陷已除(契约对齐 + 防回潮 gate + 价值进 M0 硬 gate + Build-Y 传导),现在的目标是尽早让现实检验 spec,不是继续加固文档。状态单一事实源仍是当前里程碑状态文件(CURRENT-MILESTONE)。

前提认知:文档 review 能消除「因缺陷导致的可避免返工」,消不掉「认知产品因经验性必然要做的迭代」。M0 的意义是现实检验,不是一次成型。

§1 阻塞项(C-1 第一个 PR 前必须就位)

#done 标准当前
A1M0 Archon workflow 真 schema 全重写(承接 P0-6)Claudearchon validate 通过、非脑补 schema✅ done(真 schema name/desc/nodes=bash/prompt/approval;archon validate workflows milestone-M0 绿;prompt 指向 spec 不抄正文)
A2旧 milestone yaml 改 .spec.yaml 后缀 + 引用更新(P0-7)Claude后缀改完、引用更新、verify-kb 绿✅ done(迁 .archon/specs/——实测仅改后缀仍被 workflows/ 扫描报错;8 处引用 + ADR-003/012 + README 同步;verify-kb 绿)
A3Archon 环境验证 V1–V4(archon doctor / validate / serve + hello-world 跑通)你本人(普通 shell)四项全绿✅ done(2026-05-29;V1 doctor / V2 validate 双绿 / V3 serve 端口 3090 / V4 hello-world 三节点全绿。V4 首跑暴露 worktree 缺依赖 → 已修 hello-world worktree.enabled:false + 记录 B4 给 C-1)
A4扫 27 项待拍板 owner map,确认余下 P0 是否卡 M0(kelly 已消矛盾)Claude + 你无未决 P0 阻塞 C-1✅ done(无 P0 卡 C-1:MP-3 已签,DA-1~4 是 M1 gate;MP-4/5 撞号已消歧→MP-6/7)

§2 Agent 协同方案(已确认,用现实证伪而非再设计)

方案(主控 / 编排 Claude Code · 实施 Codex · alternate fresh-eyes review · Archon 最小编排 · 人最终验收)已确认合理,是 ADR-003 + Step 13 教训的落地。不需重新设计,需要验证三个未证伪点

  1. V1–V4 环境能跑(= §1 A3,这是真正没过的关);
  2. 「主控写 → 实施读 / 实施写 → 主控读」的 alternate review 在有可运行代码的 PR 上跑通一次(目前只在文档层验证过);
  3. 守住「spec 阶段不做 AI 互审,review 只在 PR 有可运行代码时触发」——否则重蹈「AI 互审 spec、审出一堆过审但没用的东西」(本轮病根之一)。

§3 M0 现实检验问题清单(M0 验收要回答的真问题)

M0 验收不是「代码过了没」,是回答:

  1. FinBayes 的认知输出「像不像那回事」?(L8 五个真实 vibe case 你本人跑,≥3 confirm)
  2. 8 机制有没有真在工作,还是只把 schema 字段填满?
  3. 哪里与 spec 假设不符?(真实 LLM 行为 / 真实数据 / 真实用户表达)
  4. 带方向判断 + 四要素是自然产出,还是被 prompt 硬凑?
  5. 凭证过滤 / 执行边界在真实输入下是否真守住

→ 把这五问写进 M0 验收,第一轮就奔着暴露问题去。

§4 并行 / 非阻塞(force-multiplier,不卡 M0)

  • Evaluation Case Library + 体验评测方法论专题:M0 同期起,轻量接 M0 + 完整框架并行长跑。认知质量唯一的真实裁判,回报最高。
  • cross-section namespace warning 清理:卫生项,随时。

§5 启动顺序

  1. A1 + A2(Claude 落)
  2. A3(你跑 V1–V4 环境验证)— hard gate
  3. A4(扫余下 P0)
  4. C-1 第一个 PR(Codex 实施认知类型 + 契约 / 不变量 test)
  5. 主控 fresh-eyes verify diff
  6. 跑 §3 现实检验五问
  7. M0 gate(D 维度阈值 / V 维度 judge / L8 真人 vibe)→ milestone 判定

§6 接受迭代(预算,不是失败)

M0 → M1 预留「基于真实 case 校准」的迭代预算,复用金融认知体系研究流的 14-case 校准方法论。必要迭代 ≠ 返工;本轮建的 gate 让这种迭代收敛、可控、便宜。