这一节回答:第一阶段已识别的关键风险有哪些?每个风险的可能性、影响、当前缓解状态是什么?
风险分类
| 类别 | 含义 |
|---|
| 技术风险 | 工程实现 / 性能 / 可靠性层面的不确定性 |
| 业务风险 | 用户接受度 / 认知质量 / 商业模式层面的不确定性 |
| 边界风险 | 战略边界被绕过或被攻击的风险 |
| 演化风险 | 长期演化中可能出现的设计债 |
评级约定
| 维度 | 等级 |
|---|
| 可能性 | 高(H)/ 中(M)/ 低(L) |
| 影响 | 高(H)/ 中(M)/ 低(L) |
| 优先级 | 由可能性 × 影响推导:HH / HM-MH = P1;MM / HL-LH = P2;其他 = P3 |
风险登记不是恐吓清单 —— 是让缓解动作有抓手。
技术风险
T1 — LLM Provider 不稳定(API 限流 / 5xx / 鉴权失败 / 延迟抖动)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | H / H / P1 |
| 表现 | 任务失败 / 用户体验中断 / 成本飙升 |
| 当前缓解 | 4 层降级链(CHAP-13)+ Provider Readiness 探测(CHAP-09)+ task_routing 配置 |
| 残余风险 | 全部 Provider 同时不可用极端场景 → L4 受限菜单兜底 |
| 触发处理动作 | Provider 失败率连续 30 min >10% → 自动降级 + 用户通知 |
T2 — 本地资源不足(内存 / 磁盘 / 计算)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | 本地 LLM 推理慢 / SQLite 写阻塞 / 缓存换出 |
| 当前缓解 | 部署时探测 OS 资源(CHAP-14)+ 本地 LLM 模型大小自适应 + Cache TTL 限制 |
| 残余风险 | 用户机器极弱时本地兜底质量差 |
| 触发处理动作 | 启动期探测资源不足 → 明示用户选择"走云端 Provider"或"接受性能下降" |
T3 — SQLite 并发瓶颈
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | L / M / P3 |
| 表现 | 高并发任务下写阻塞 / WAL 文件膨胀 |
| 当前缓解 | WAL 模式 + 审计 trail 写入异步化 + 单用户量级 SQLite 远未到瓶颈(CHAP-15) |
| 残余风险 | 主动信号触发批量任务时偶发阻塞 |
| 触发处理动作 | 持续监控 state_store_write_failure 指标,达阈值时启 ADR 评估迁 PostgreSQL |
T4 — LLM Mock fixture 失效(Provider API 变化)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | CI 测试通过但生产环境失败(fixture 与真 API 偏差) |
| 当前缓解 | 录制重放机制(CHAP-20)+ nightly 真档测试 + fixture 进 Git 可 review |
| 残余风险 | Provider 端悄悄改 API 行为 |
| 触发处理动作 | nightly 真档测试失败 → 强制重录相关 fixture + 通知 |
T5 — Schema migration 出错(State Store 升级失败)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | L / H / P2 |
| 表现 | 升级后用户数据损坏 / 丢失 |
| 当前缓解 | migration 前强制备份(CHAP-15)+ 单向幂等 migration(CHAP-19)+ 失败时全量回滚 |
| 残余风险 | 备份本身损坏的极端情况 |
| 触发处理动作 | 严重 migration 失败 → 用户可 finbayes restore --from=<bak> 强制恢复 |
业务风险
B1 — 认知质量不达预期(反方覆盖不足 / 失效条件模糊 / 综合层不收敛)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / H / P1 |
| 表现 | 用户对 Judgment 不满 / Case Library 失败率升 / 用户流失 |
| 当前缓解 | Self-consistency 高风险任务 N≥3(CHAP-12)+ 综合层输出强 schema(含反方 / 风险 / 失效条件)+ 评估闭环驱动改进(CHAP-21) |
| 残余风险 | 评估指标本身有偏(LLM-as-judge 偏见) |
| 触发处理动作 | 评估 overall_score 连续两周下滑 → 强制评估闭环复盘 |
B2 — 用户接受度低(首屏太慢 / 表达不匹配画像 / 不知道怎么用)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / H / P1 |
| 表现 | 用户使用频次低 / 取消率高 / 弃用 |
| 当前缓解 | 首屏优化(流式 + 题眼优先)+ 动态画像匹配表达密度 + 引导流程(CHAP-14) |
| 残余风险 | 个性化画像积累需要时间 |
| 触发处理动作 | 上线后第一周用户行为信号反推改进点 |
B3 — 复盘价值难量化
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | H / M / P2 |
| 表现 | 用户用了几次但不知道"它真的帮我变好"了 |
| 当前缓解 | Judgment Record 长期追踪 + 主动信号触及失效条件可被用户复盘(CHAP-10 S4 场景) |
| 残余风险 | 用户认知改善是慢变量 |
| 触发处理动作 | 用户问"它真有用吗"时主动给"过去 N 次主动信号的命中率 / 失效条件触及率" |
B4 — Provider 成本失控
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | 用户单月 LLM 成本超预期 |
| 当前缓解 | 成本指标可视(CHAP-18)+ 用户主动设月度预算 + 超预算自动降级到便宜 Provider |
| 残余风险 | 用户对成本敏感度差异大 |
| 触发处理动作 | 首次安装时引导用户设月度预算(可选) |
边界风险
E1 — 凭证被绕过(用户主动贴凭证未被识别)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / H / P1 |
| 表现 | 凭证字符串进入 Task / LLM / 状态对象 / 审计 trail |
| 当前缓解 | 输入边界 hook(规则 + LLM 辅助,CHAP-17)+ 测试集覆盖各类凭证样式(CHAP-20) |
| 残余风险 | 新型凭证格式 / 用户极端规避 |
| 触发处理动作 | 任何凭证泄露事故 → 立即 release 阻断 + 全量审计 trail 扫描 + 通知用户 |
E2 — 执行类工具偷偷被注册
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | L / H / P2 |
| 表现 | 工程 PR 引入执行类工具 + Review 漏掉 |
| 当前缓解 | Capability Registry 注册时 category 校验(CHAP-09)+ 参数名启发式扫描(CHAP-17)+ Review gate 人工审查 |
| 残余风险 | 工具用 read_only category 伪装但内部偷偷执行 |
| 触发处理动作 | 每次工具注册需关联 PR / ADR / Review 记录三齐 |
E3 — Prompt 注入成功(用户输入或外部数据中的对抗指令改变 LLM 行为)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | LLM 输出偏离任务 / 泄露敏感 / 违反输出契约 |
| 当前缓解 | System prompt 加固(CHAP-17)+ 外部数据包裹 <external_data> + 综合层 schema 强约束 + 抗扰评估集(CHAP-21) |
| 残余风险 | 高级注入 + LLM 误识别 |
| 触发处理动作 | 评估抗扰集失败率上升 → Prompt 加固 + judge 校准 |
E4 — 输出端凭证样式过滤漏检
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | LLM 幻觉生成的凭证样式字符串流向用户 |
| 当前缓解 | 输出端双层 hook(综合层语义 + Output Pipeline 格式,详见 ADR-010 待定) |
| 残余风险 | 模糊匹配未命中的边缘 case |
| 触发处理动作 | 用户上报 + 边界审计 trail 抽检 |
演化风险
V1 — 接口契约破坏性升级
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / H / P1 |
| 表现 | major 升级导致存量用户的 client / 集成 / MCP 调用方失败 |
| 当前缓解 | semver + contract_version + 强制升级提示(CHAP-19)+ 升级指南 + deprecated 宽限期 |
| 残余风险 | 用户不及时升级被强制阻断 |
| 触发处理动作 | major 发布前给至少一个 minor 版本的 deprecated 期 + 升级文档 |
V2 — Prompt 版本错位(生产用旧 Prompt + 评估用新 Prompt 等)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / M / P2 |
| 表现 | 评估通过但生产质量差,或反之 |
| 当前缓解 | Prompt 版本化(ADR-009 待)+ 评估记录 Prompt 版本 + 审计 trail 含 prompt_version 字段(CHAP-19) |
| 残余风险 | 混合策略(代码 + 数据)切换时漂移 |
| 触发处理动作 | 每次 release 用 prompt_version 跑全量对比 |
V3 — 战略概念变化(新增 / 重命名 / 退役)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | L / H / P2 |
| 表现 | 工程层与战略层不同步 / 用户看到混乱概念 |
| 当前缓解 | 概念退役流程(CHAP-19)+ 战略变更走 governance/change-protocol.md + verify-kb 禁词表同步 |
| 残余风险 | 已生成的历史 Judgment Record 引用旧概念 |
| 触发处理动作 | 旧概念在 UI 标"历史概念" + 不破坏数据 |
V4 — Provider 生态变化(旧 Provider 退役 / 新 Provider 涌现)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | H / M / P2 |
| 表现 | 用户偏好的 Provider 不再可用 / 新 Provider 体验更好但路由未更新 |
| 当前缓解 | Provider Adapter 层屏蔽(CHAP-09)+ providers.yaml 配置可热更新 + Provider 退役流程(CHAP-19) |
| 残余风险 | 用户配置历史包袱 |
| 触发处理动作 | Provider 退役前一个 major 版本通知 + 自动迁移建议 |
V5 — 评估闭环 Goodhart's law(优化指标导致真实质量下降)
| 字段 | 内容 |
|---|
| 可能性 / 影响 / 优先级 | M / H / P1 |
| 表现 | 评估分数上升但用户感知不好 |
| 当前缓解 | 软阈值仅看趋势(CHAP-21)+ 评估反馈不自动喂回 Prompt 优化 + 人工校准 judge |
| 残余风险 | 隐性指标钻空子(如优化反方数量但反方质量下降) |
| 触发处理动作 | 评估指标稳定上升但用户反馈下降 → 人工抽检 + rubric 重审 |
风险评级汇总
| 优先级 | 数量 | 风险 |
|---|
| P1 | 6 | T1 / B1 / B2 / E1 / V1 / V5 |
| P2 | 9 | T2 / T4 / T5 / B3 / B4 / E2 / E3 / E4 / V2 / V3 / V4 |
| P3 | 1 | T3 |
P1 风险必须在第一阶段 MVP 前有可执行的缓解动作 + 触发响应;P2 风险在第一阶段实施初期一轮内覆盖缓解机制;P3 风险登记即可,演化中再处理。
风险与缺口的关系
| 关系 | 含义 |
|---|
| 风险有缓解 → 残余风险登记 | 当前章节做的事 |
| 风险无缓解 → 进入缺口 | 关联 CHAP-22 |
| 风险触发战略层变化 → 战略未决 | 关联战略层(详见上位继承与不变量章节) |
风险登记是动态资产,每次 release / 重大事件后更新。
与其他章节的关系
- 凭证风险的边界承接 → CHAP-17 边界与安全
- 降级链应对技术风险 → CHAP-13 故障与降级路径
- 评估闭环应对业务风险 → CHAP-21 评估闭环
- 演化机制应对演化风险 → CHAP-19 演化与版本管理
- 风险缓解的可观测性 → CHAP-18 可观测性
- 缺口与风险的边界 → CHAP-22 第一阶段缺口
- 风险相关的 ADR → CHAP-23 架构决策索引