Phase 7 · 半人工标注 SLA 附录
本文件是 Phase 7 起草任务 C 的产出,作为 ADR-007 supplement 的附属附录。Phase 6 R1 综合裁决在 P0-4 给三项工程不可实现的子机制锁定「半人工标注 + 公开数据替代」回退路径;R-B / R-C 同时指出半人工标注必须有 SLA,否则会成为治理黑洞。本附录回答四项标注任务的服务等级、流程、失效处理、升级路径、与评测 / 治理接口。所有数值标「建议 v1,待 Phase 7+ 评测校准」。
一、适用范围
本 SLA 覆盖以下四项「半人工标注」任务(均来自 Phase 6 R1 P0-4 工程回退路径),不覆盖完全自动判定任务与全人工评测标答源任务。
- 任务 A:M5.3(c) 政策信用触发型 shared-book contagion 标注——以公开代理信号(政策公告频次 / 行业 ABS / 信用利差 / 房企美元债收益率突变)触发后,由人工 reviewer 在窗口内补全场外配资 / 政策窗口指导 / 监管摸排节奏等不公开细节。
- 任务 B:M5.3(d) A 股散户急性版 shared-book contagion 标注——以公开代理信号(两融余额 / 沪深 300 单日跌幅分布尾部 / 涨跌停股数 / 千股停牌 / 监管盘中表态)触发后,由人工 reviewer 在窗口内补全场外配资 / 伞形信托 / 强平节奏等不公开细节。
- 任务 C:M7.meta-v1 慢思考触发标注——为 M7.meta-v1 二值判定(是否触发慢思考)准备训练样本 + 评测样本,由 reviewer 在已完成认知任务上回标「该 case 应否触发慢思考 + 触发原因」。
- 任务 D:MCA 轴 4 N3 自动判定回退——为投资者结构桶下的「非市场参与者注入」轴位(N1 / N2 / N3)准备人工标注,季度刷新一次全量标签,事件驱动时实时补标。
与自动判定任务的边界:MCA 轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 / 轴 7 多数子维度由公开数据自动计算(成交结构、IV 曲面、T+N 规则、违约处置、披露质量、跨境通道额度等),不进本 SLA;M5.3(a) 急性流动性触发型 + M5.3(b) 结构性置换型由 CFTC TFF / 13F / GBTC outflow 等公开数据自动识别,不进本 SLA。
与全人工评测标答源任务的边界:Phase 4 评测体系 D7 引入的五大外部独立标答源(Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 课程库)属于评测层的「外部金标」,由独立学术 / 媒体源提供,不走本 SLA。本 SLA 标注产出是「认知体系运行时」与「评测体系训练 / 测试集」的混合输入,标答源标注是「评测体系基准」,两类分账治理。
二、标注流程
触发模式——双轨并行。
- 定期触发:任务 D(MCA 轴 4 N3)季度全量刷新;任务 C(M7.meta-v1)月度回标当月已完成认知任务。
- 事件驱动触发:任务 A / B 由综合层在代理信号越过阈值(如 A-1 类政策点火事件、A-3 类涨跌停股数突破日内 P95)时实时触发;任务 D 在政策窗口(中央汇金动作 / 国家队组合调整 / 政治局会议 / 国新办专题)发布后实时触发。
标注者角色分级——三层。
- Tier 1 金融领域专家标注者:负责最终标注拍板,含任务 A / B 的政策窗口语义判定、任务 D 的 N 等级拍板、任务 C 的慢思考触发拍板。Tier 1 至少 2 人独立标注,分歧走复核机制。
- Tier 2 工程团队标注者:负责代理信号触发条件的工程实现、标注模板的字段约束、候选信号集合的初筛、与综合层 pipeline 的接口。Tier 2 标注的内容仅限「客观可校验字段」(公开数据时间戳 / 阈值 / 是否触发),不直接产出最终标注。
- Tier 3 用户社区候选信号收集者:用户社区可提交候选信号 / 候选 case,但不直接做最终标注——Tier 3 提交进入 Tier 2 初筛 → Tier 1 拍板的流程。Tier 3 提交本身记入 audit trail,作为 Phase 5 触发源 B「用户实战反馈」的法定来源。
标注模板——每项任务定义结构化字段清单。
- 任务 A / B 共享模板:
{case-id, trigger-timestamp, public-proxy-signals (list), contagion-mode (acute/structural/policy-credit/retail-acute), entry-points (list), forced-deleveraging-evidence, regulatory-actions (list), funding-channel-collapse (bool + free-text), reverse-force-list, confidence (enum: high/medium/low), annotator-notes}。必填项:case-id / trigger-timestamp / public-proxy-signals / contagion-mode / confidence;可选项:entry-points / regulatory-actions / funding-channel-collapse / annotator-notes。 - 任务 C 模板:
{case-id, posterior-entropy, link-confidence-min, applicability-flag-count, should-trigger-slow-thinking (bool), trigger-reason (enum: high-uncertainty / low-link-confidence / multi-applicability-conflict / cross-market-translation / other), annotator-notes}。必填项:case-id / should-trigger-slow-thinking / trigger-reason;可选项:annotator-notes。 - 任务 D 模板:
{market-id, snapshot-date, axis-4-level (N1/N2/N3), evidence (list of policy-window / sovereign-fund-disclosure / non-market-actor-actions), confidence (enum), revision-trigger (enum: quarterly-refresh / event-driven / dispute-escalation), annotator-notes}。必填项:market-id / snapshot-date / axis-4-level / evidence / confidence / revision-trigger;可选项:annotator-notes。
复核机制——双人独立标注 + 分歧裁决路径。Tier 1 ≥ 2 人对同一 case 独立标注;双人结果 hash 一致或关键字段(contagion-mode / should-trigger-slow-thinking / axis-4-level)完全一致则直接入库;分歧时进入三人评审。
冲突解决——分歧度阈值与裁决路径。双人 inter-annotator agreement(Cohen's kappa)连续滚动窗口(10 case)低于 0.7 时触发三人评审,第三人独立标注后按 2:1 多数表决;表决仍不收敛则 escalate 到生态发起人或其指定子组的单点裁决(沿用 Phase 5 §3.2 R1 修订的「单点签署 + 14 天异议期」范式)。所有未收敛 case 记入 audit trail 的 contested-points 字段。
三、SLA 指标
下表给出四项标注任务的核心 SLA 指标(所有数值标「建议 v1,待 Phase 7+ 评测校准」)。
| 任务 | 标注延迟(事件 → 入库) | 标注准确率(vs 后验真相) | 双人 IAA 门槛 | 季度复核覆盖率 |
|---|---|---|---|---|
| 任务 A · M5.3(c) 政策信用触发标注 | 事件驱动 ≤ 48 小时;季度定期 ≤ 10 工作日 | ≥ 70%(事后归因金标对照) | Cohen's kappa ≥ 0.65 | 全量复核 |
| 任务 B · M5.3(d) A 股散户急性标注 | 事件驱动 ≤ 24 小时(盘中事件 ≤ 12 小时);季度定期 ≤ 10 工作日 | ≥ 75% | Cohen's kappa ≥ 0.70 | 全量复核 |
| 任务 C · M7.meta-v1 慢思考触发标注 | 月度增量 ≤ 5 工作日 | ≥ 75%(事后置信度回看) | Cohen's kappa ≥ 0.70 | 抽样复核 ≥ 30% |
| 任务 D · MCA 轴 4 N3 自动判定回退 | 季度刷新 ≤ 15 工作日;事件驱动 ≤ 7 工作日 | ≥ 80%(事件后 6 个月窗口的政策行为验证) | Cohen's kappa ≥ 0.75 | 全量复核 |
说明:
- 延迟下限:任务 B 因 A 股盘中事件演化快、F3 制度摩擦下流动性出清在重开盘集中爆发,事件驱动延迟最短;任务 A 因政策窗口节奏较慢、reviewer 需做政策语义解码(M2.4)+ 政策反应函数(M1.3)配套调用,延迟比 B 长。
- 准确率门槛:建议 v1 区间统一在 70%–80%,最终值待 Phase 7+ 评测 D2 / D4 / D6 桶位准确率反馈再校准。低于该区间的任务在治理上视为「半人工标注质量不达标」,触发流程修订(见 §4)。
- IAA 门槛:与 Phase 4 评测体系 D1 / D7 IAA kappa ≥ 0.7 约束对齐;任务 A 因政策语义本身存在合规模糊性,门槛放宽到 0.65。任务 D 因 MCA 桶位标签贯穿所有桶位评测、错位代价最大,门槛提到 0.75。
- 季度复核覆盖率:任务 A / B / D 全量复核——四项 case 数量在过渡窗口内(每季 15-20 case 增量,B7 桶补齐目标)量级可承载;任务 C 因月度增量量级较大(每月 30-50 case),抽样 ≥ 30% 复核。
四、失效处理
标注延迟超 SLA:
- 任务 A / B 超 SLA → 触发降级路径——该 case 的 M5.3(c) / (d) 形态标识在评测中标
unannotated,不参与 D4 shared-book 形态分类准确率分母;同时该 case 进入「补标队列」下一季度优先消化。 - 任务 C 超 SLA → 该 case 的 M7.meta-v1 触发判定不进入 D6 评测 ECE 计算分母,仅作内部参考;连续三月超 SLA 则触发 M7.meta-v1 整体降级到「仅用代理信号阈值(M7.uq 后验熵 + 链路置信度)自动判定」临时模式。
- 任务 D 超 SLA → 该市场快照的 MCA 轴 4 桶位标签沿用上季度值 + 标注
stale-axis-4,相关评测结果标注「桶位标签陈旧」,不进百分位对照。
标注准确率持续低于阈值:连续两季度准确率低于 §3 阈值,触发标注流程修订——modify 触发条件、补标注者培训、扩充标注模板字段、引入更多代理信号、降低标注粒度(如任务 C 从「触发原因 5 类」降到「触发 / 不触发」二值)。流程修订走 Phase 5 §3.1 子机制级变更路径(L2 / L3)。
标注样本不平衡:某类 case 长期无标注样本(如任务 A 在政策窗口稀疏季度 / 任务 D 在 N3 等级新兴市场零样本期),触发主动样本收集——
- Tier 2 工程团队从 Phase 6 R1 待补 case 清单(L7 / L2 / L9 / L13)优先消化,作为长尾样本补充;
- Tier 1 reviewer 同期校准代理信号阈值(如降低 ABS 信用利差阈值以放更多候选 case 进入),扩大召回。
IAA 长期低于阈值:连续滚动窗口 10 case kappa < 阈值,触发标注模板细化(字段拆分 / 选项枚举化 / 增加示例库)+ 标注者培训(盲交叉案例对齐 + 共识案例库);仍不收敛则将该子任务降级到「Tier 1 三人评审默认开启」模式。
五、升级路径
自动化升级触发条件——四项任务各自的「半人工 → 全自动」升级条件如下。
- 任务 A / B:当公开数据接入扩展(如监管 API / 信达 / 万得增值字段 / 沪深交易所盘中信号 / 信用衍生品高频数据等)后 ——
- 自动化代理信号集合 + 半人工标注的双人 IAA kappa 连续两季度 ≥ 0.85(即代理信号已能高保真复现人工标注);
- 评测体系 D4 在对应桶(B4 / B5b)的 shared-book 形态分类准确率 ≥ 80%;
- 且公开数据通路稳定运行 ≥ 6 个月。
- 满足以上三项后,走 Phase 5 §3.1 子机制变更路径,将 M5.3(c) / (d) 从「半人工标注」升级为「自动识别 + 抽样人工复核」。
- 任务 C:当 M7.meta-v1 内嵌的「后验熵 + 链路置信度 + 适用性标签数量」三维代理信号 + 阈值校准 ——
- 与人工标注的 IAA kappa 连续两季度 ≥ 0.80;
- 评测体系 D6 ECE ≤ 0.10;
- 且模型在 ≥ 4 个 MCA 桶上稳定运行。
- 满足后升级为「全自动二值判定 + 季度抽样人工校准」。
- 任务 D:当 MCA 轴 4 数据通路扩展(如国家队组合披露提质 / 政策点火事件结构化抽取 pipeline 上线)后 ——
- 轴 4 标签自检助手与人工标注的 kappa 连续两季度 ≥ 0.85;
- 且评测 D9 跨市场对照推理在 N3 桶位的 MCA 归因准确率 ≥ 80%。
- 满足后升级为「自动判定 + 半年抽样人工校准」。
升级路径与 Phase 5 治理流程的对接:升级触发后,由 Tier 2 工程团队提案,Tier 1 reviewer 并行评审,走 Phase 5 §3.2 R1 修订的「并行评审 + 单点签署 + 14 天异议期 + 3:1 否决」范式。升级前后 audit trail 保留 ≥ 8 季度(沿用 Phase 5 §7 防退化要求),含「升级前后评测对照」与「升级后首季度漂移监测」。升级不可逆性约束:若升级后任一季度评测分数低于升级前基线 15%,触发降级回半人工标注,走相同治理流程。
六、与评测体系的接口
半人工标注产出进入评测样本的路径:
- 任务 A / B 标注产出的「contagion-mode + entry-points + reverse-force-list」字段进入 Phase 4 评测 D4「shared-book 形态分类准确率」与「反向力量召回率」的分母与分子;标注产出的「public-proxy-signals」字段同时进入 D2「政策语义解码字段命中率」的对照基准。
- 任务 C 标注产出的「should-trigger-slow-thinking + trigger-reason」字段进入 Phase 4 评测 D6「M7.meta 触发命中率」与「ECE 校准指标」的分母与分子。
- 任务 D 标注产出的「axis-4-level」直接作为 Phase 4 评测系统强制下发的 MCA 桶位标签(沿用 Phase 4 §三 gaming 路径 6 防御「MCA 桶位由评测系统强制下发,不允许被测体系自报」)。
半人工标注样本的训练 / 测试 / holdout 划分:
- 沿用 Phase 4 §三 R1 修订的 70 / 20 / 10 三集划分原则,半人工标注 case 同样按比例划入开发集 / 测试集 / holdout 集。
- 标答(contagion-mode / should-trigger-slow-thinking / axis-4-level 等关键字段)保留在工程仓内部,公开版只保留事实层(事件时间戳 / 公开代理信号 / 市场快照),防数据泄漏。
- holdout 集中半人工标注样本要求桶位均匀分布,B4 / B5a / B5b / B6 / B7 桶位各保留至少 1 个 holdout 半人工标注 case。
标注质量反向输入评测的「标注质量评分」:
- Phase 4 评测系统在每季度评测报告中独立报告「半人工标注质量基线」——含每项任务的 IAA kappa 滚动均值、准确率(与后验真相对照)、SLA 达标率三项指标。
- 半人工标注质量低于阈值的桶位评测结果不参与跨桶百分位对照,仅报告绝对分数。
- 半人工标注质量基线在评测报告中显式展示,防止「评测分数高但标注质量低」的过拟合标注 gaming 路径(即「为提高某桶分数刻意放宽标注严格度」)。
七、与治理流程的对接
标注流程变更走 Phase 5 何种治理流程:
- 标注模板字段增删 / 选项枚举调整:走 Phase 5 §3.1 子机制级变更路径(L2),由 Tier 2 工程团队提案 + Tier 1 reviewer ≥ 2 人共识。
- 触发条件 / 代理信号阈值调整:走 L2,与 MCA 等级阈值调整门槛对齐(≥ 2 case 表明现阈值导致系统性误诊)。
- 标注流程整体路径调整(如三方角色权责重新分配 / 复核机制重设计 / Tier 升级条件):走 Phase 5 §3.1 L3,触发 workstream mini-review。
标注者角色变更走 Phase 5 何种治理流程:
- Tier 1 / Tier 2 / Tier 3 角色定义变更:走 Phase 5 §3.2 体系扩展边界范式(并行评审 + 单点签署 + 14 天异议期 + 3:1 否决),因角色变更影响标注质量基线与评测可信度,等同于体系级变更。
- 具体标注者准入资格(领域专业资质 / 利益相关性披露 / 培训认证):走 L2。
SLA 数值变更走 Phase 5 何种治理流程:
- §3 表中数值校准(延迟 / 准确率 / IAA 门槛 / 复核覆盖率):走 L2 + 附 Phase 4 评测前后对比,与 MCA 等级阈值调整门槛对齐。
- §5 升级路径触发条件调整:走 L3,因涉及「半人工 → 全自动」升级判定,影响机制 schema。
- §3 表整体重设计(如新增任务 E / F):走 L3,与子机制扩展门槛对齐(≥ 3 case 触发且不能被现有四项任务吸收)。
与 ADR-009 立场降级范式的对齐:本附录中所有 SLA 数值变更 / 流程变更均保留 audit trail ≥ 8 季度,沿用 ADR-009 立场降级 audit trail 范式。半人工标注任务整体若在 §5 升级路径成功转正为全自动判定,原半人工流程的 audit trail 同样保留 ≥ 8 季度备追溯,防路径依赖与隐性回滚。
关联
- Phase 3 T1 8 机制升级版 + v1 工程回退注释:
drafts/2026-05-28-phase3-mechanisms-v1.md - Phase 3 T2 MCA 6+1 分轴 + 轴 4 人工标注路径:
drafts/2026-05-28-phase3-market-context-axis.md - Phase 4 评测体系 v1 + 70/20/10 三集划分 + 桶位强制下发:
drafts/2026-05-28-phase4-evaluation-system.md - Phase 5 治理流程 + 三档梯度门槛 + ADR-009 立场降级范式:
drafts/2026-05-28-phase5-iteration-governance.md - Phase 6 R-B 工程实施视角 review + 工程不可实现 3 项:
reviews/2026-05-28-phase6-r-b-engineering.md - 变更协议:
governance/change-protocol.md