跳到主要内容

Phase 7 · 半人工标注 SLA 附录

本文件是 Phase 7 起草任务 C 的产出,作为 ADR-007 supplement 的附属附录。Phase 6 R1 综合裁决在 P0-4 给三项工程不可实现的子机制锁定「半人工标注 + 公开数据替代」回退路径;R-B / R-C 同时指出半人工标注必须有 SLA,否则会成为治理黑洞。本附录回答四项标注任务的服务等级、流程、失效处理、升级路径、与评测 / 治理接口。所有数值标「建议 v1,待 Phase 7+ 评测校准」。

一、适用范围

本 SLA 覆盖以下四项「半人工标注」任务(均来自 Phase 6 R1 P0-4 工程回退路径),不覆盖完全自动判定任务与全人工评测标答源任务。

  • 任务 A:M5.3(c) 政策信用触发型 shared-book contagion 标注——以公开代理信号(政策公告频次 / 行业 ABS / 信用利差 / 房企美元债收益率突变)触发后,由人工 reviewer 在窗口内补全场外配资 / 政策窗口指导 / 监管摸排节奏等不公开细节。
  • 任务 B:M5.3(d) A 股散户急性版 shared-book contagion 标注——以公开代理信号(两融余额 / 沪深 300 单日跌幅分布尾部 / 涨跌停股数 / 千股停牌 / 监管盘中表态)触发后,由人工 reviewer 在窗口内补全场外配资 / 伞形信托 / 强平节奏等不公开细节。
  • 任务 C:M7.meta-v1 慢思考触发标注——为 M7.meta-v1 二值判定(是否触发慢思考)准备训练样本 + 评测样本,由 reviewer 在已完成认知任务上回标「该 case 应否触发慢思考 + 触发原因」。
  • 任务 D:MCA 轴 4 N3 自动判定回退——为投资者结构桶下的「非市场参与者注入」轴位(N1 / N2 / N3)准备人工标注,季度刷新一次全量标签,事件驱动时实时补标。

与自动判定任务的边界:MCA 轴 1 / 轴 2 / 轴 3 / 轴 5 / 轴 6 / 轴 7 多数子维度由公开数据自动计算(成交结构、IV 曲面、T+N 规则、违约处置、披露质量、跨境通道额度等),不进本 SLA;M5.3(a) 急性流动性触发型 + M5.3(b) 结构性置换型由 CFTC TFF / 13F / GBTC outflow 等公开数据自动识别,不进本 SLA。

与全人工评测标答源任务的边界:Phase 4 评测体系 D7 引入的五大外部独立标答源(Damodaran / Marks / Stratechery / FT Alphaville / NYU Stern 课程库)属于评测层的「外部金标」,由独立学术 / 媒体源提供,不走本 SLA。本 SLA 标注产出是「认知体系运行时」与「评测体系训练 / 测试集」的混合输入,标答源标注是「评测体系基准」,两类分账治理。

二、标注流程

触发模式——双轨并行。

  • 定期触发:任务 D(MCA 轴 4 N3)季度全量刷新;任务 C(M7.meta-v1)月度回标当月已完成认知任务。
  • 事件驱动触发:任务 A / B 由综合层在代理信号越过阈值(如 A-1 类政策点火事件、A-3 类涨跌停股数突破日内 P95)时实时触发;任务 D 在政策窗口(中央汇金动作 / 国家队组合调整 / 政治局会议 / 国新办专题)发布后实时触发。

标注者角色分级——三层。

  • Tier 1 金融领域专家标注者:负责最终标注拍板,含任务 A / B 的政策窗口语义判定、任务 D 的 N 等级拍板、任务 C 的慢思考触发拍板。Tier 1 至少 2 人独立标注,分歧走复核机制。
  • Tier 2 工程团队标注者:负责代理信号触发条件的工程实现、标注模板的字段约束、候选信号集合的初筛、与综合层 pipeline 的接口。Tier 2 标注的内容仅限「客观可校验字段」(公开数据时间戳 / 阈值 / 是否触发),不直接产出最终标注。
  • Tier 3 用户社区候选信号收集者:用户社区可提交候选信号 / 候选 case,但不直接做最终标注——Tier 3 提交进入 Tier 2 初筛 → Tier 1 拍板的流程。Tier 3 提交本身记入 audit trail,作为 Phase 5 触发源 B「用户实战反馈」的法定来源。

标注模板——每项任务定义结构化字段清单。

  • 任务 A / B 共享模板{case-id, trigger-timestamp, public-proxy-signals (list), contagion-mode (acute/structural/policy-credit/retail-acute), entry-points (list), forced-deleveraging-evidence, regulatory-actions (list), funding-channel-collapse (bool + free-text), reverse-force-list, confidence (enum: high/medium/low), annotator-notes}。必填项:case-id / trigger-timestamp / public-proxy-signals / contagion-mode / confidence;可选项:entry-points / regulatory-actions / funding-channel-collapse / annotator-notes。
  • 任务 C 模板{case-id, posterior-entropy, link-confidence-min, applicability-flag-count, should-trigger-slow-thinking (bool), trigger-reason (enum: high-uncertainty / low-link-confidence / multi-applicability-conflict / cross-market-translation / other), annotator-notes}。必填项:case-id / should-trigger-slow-thinking / trigger-reason;可选项:annotator-notes。
  • 任务 D 模板{market-id, snapshot-date, axis-4-level (N1/N2/N3), evidence (list of policy-window / sovereign-fund-disclosure / non-market-actor-actions), confidence (enum), revision-trigger (enum: quarterly-refresh / event-driven / dispute-escalation), annotator-notes}。必填项:market-id / snapshot-date / axis-4-level / evidence / confidence / revision-trigger;可选项:annotator-notes。

复核机制——双人独立标注 + 分歧裁决路径。Tier 1 ≥ 2 人对同一 case 独立标注;双人结果 hash 一致或关键字段(contagion-mode / should-trigger-slow-thinking / axis-4-level)完全一致则直接入库;分歧时进入三人评审。

冲突解决——分歧度阈值与裁决路径。双人 inter-annotator agreement(Cohen's kappa)连续滚动窗口(10 case)低于 0.7 时触发三人评审,第三人独立标注后按 2:1 多数表决;表决仍不收敛则 escalate 到生态发起人或其指定子组的单点裁决(沿用 Phase 5 §3.2 R1 修订的「单点签署 + 14 天异议期」范式)。所有未收敛 case 记入 audit trail 的 contested-points 字段。

三、SLA 指标

下表给出四项标注任务的核心 SLA 指标(所有数值标「建议 v1,待 Phase 7+ 评测校准」)。

任务标注延迟(事件 → 入库)标注准确率(vs 后验真相)双人 IAA 门槛季度复核覆盖率
任务 A · M5.3(c) 政策信用触发标注事件驱动 ≤ 48 小时;季度定期 ≤ 10 工作日≥ 70%(事后归因金标对照)Cohen's kappa ≥ 0.65全量复核
任务 B · M5.3(d) A 股散户急性标注事件驱动 ≤ 24 小时(盘中事件 ≤ 12 小时);季度定期 ≤ 10 工作日≥ 75%Cohen's kappa ≥ 0.70全量复核
任务 C · M7.meta-v1 慢思考触发标注月度增量 ≤ 5 工作日≥ 75%(事后置信度回看)Cohen's kappa ≥ 0.70抽样复核 ≥ 30%
任务 D · MCA 轴 4 N3 自动判定回退季度刷新 ≤ 15 工作日;事件驱动 ≤ 7 工作日≥ 80%(事件后 6 个月窗口的政策行为验证)Cohen's kappa ≥ 0.75全量复核

说明

  • 延迟下限:任务 B 因 A 股盘中事件演化快、F3 制度摩擦下流动性出清在重开盘集中爆发,事件驱动延迟最短;任务 A 因政策窗口节奏较慢、reviewer 需做政策语义解码(M2.4)+ 政策反应函数(M1.3)配套调用,延迟比 B 长。
  • 准确率门槛:建议 v1 区间统一在 70%–80%,最终值待 Phase 7+ 评测 D2 / D4 / D6 桶位准确率反馈再校准。低于该区间的任务在治理上视为「半人工标注质量不达标」,触发流程修订(见 §4)。
  • IAA 门槛:与 Phase 4 评测体系 D1 / D7 IAA kappa ≥ 0.7 约束对齐;任务 A 因政策语义本身存在合规模糊性,门槛放宽到 0.65。任务 D 因 MCA 桶位标签贯穿所有桶位评测、错位代价最大,门槛提到 0.75。
  • 季度复核覆盖率:任务 A / B / D 全量复核——四项 case 数量在过渡窗口内(每季 15-20 case 增量,B7 桶补齐目标)量级可承载;任务 C 因月度增量量级较大(每月 30-50 case),抽样 ≥ 30% 复核。

四、失效处理

标注延迟超 SLA

  • 任务 A / B 超 SLA → 触发降级路径——该 case 的 M5.3(c) / (d) 形态标识在评测中标 unannotated,不参与 D4 shared-book 形态分类准确率分母;同时该 case 进入「补标队列」下一季度优先消化。
  • 任务 C 超 SLA → 该 case 的 M7.meta-v1 触发判定不进入 D6 评测 ECE 计算分母,仅作内部参考;连续三月超 SLA 则触发 M7.meta-v1 整体降级到「仅用代理信号阈值(M7.uq 后验熵 + 链路置信度)自动判定」临时模式。
  • 任务 D 超 SLA → 该市场快照的 MCA 轴 4 桶位标签沿用上季度值 + 标注 stale-axis-4,相关评测结果标注「桶位标签陈旧」,不进百分位对照。

标注准确率持续低于阈值:连续两季度准确率低于 §3 阈值,触发标注流程修订——modify 触发条件、补标注者培训、扩充标注模板字段、引入更多代理信号、降低标注粒度(如任务 C 从「触发原因 5 类」降到「触发 / 不触发」二值)。流程修订走 Phase 5 §3.1 子机制级变更路径(L2 / L3)。

标注样本不平衡:某类 case 长期无标注样本(如任务 A 在政策窗口稀疏季度 / 任务 D 在 N3 等级新兴市场零样本期),触发主动样本收集——

  • Tier 2 工程团队从 Phase 6 R1 待补 case 清单(L7 / L2 / L9 / L13)优先消化,作为长尾样本补充;
  • Tier 1 reviewer 同期校准代理信号阈值(如降低 ABS 信用利差阈值以放更多候选 case 进入),扩大召回。

IAA 长期低于阈值:连续滚动窗口 10 case kappa < 阈值,触发标注模板细化(字段拆分 / 选项枚举化 / 增加示例库)+ 标注者培训(盲交叉案例对齐 + 共识案例库);仍不收敛则将该子任务降级到「Tier 1 三人评审默认开启」模式。

五、升级路径

自动化升级触发条件——四项任务各自的「半人工 → 全自动」升级条件如下。

  • 任务 A / B:当公开数据接入扩展(如监管 API / 信达 / 万得增值字段 / 沪深交易所盘中信号 / 信用衍生品高频数据等)后 ——
    • 自动化代理信号集合 + 半人工标注的双人 IAA kappa 连续两季度 ≥ 0.85(即代理信号已能高保真复现人工标注);
    • 评测体系 D4 在对应桶(B4 / B5b)的 shared-book 形态分类准确率 ≥ 80%;
    • 且公开数据通路稳定运行 ≥ 6 个月。
    • 满足以上三项后,走 Phase 5 §3.1 子机制变更路径,将 M5.3(c) / (d) 从「半人工标注」升级为「自动识别 + 抽样人工复核」。
  • 任务 C:当 M7.meta-v1 内嵌的「后验熵 + 链路置信度 + 适用性标签数量」三维代理信号 + 阈值校准 ——
    • 与人工标注的 IAA kappa 连续两季度 ≥ 0.80;
    • 评测体系 D6 ECE ≤ 0.10;
    • 且模型在 ≥ 4 个 MCA 桶上稳定运行。
    • 满足后升级为「全自动二值判定 + 季度抽样人工校准」。
  • 任务 D:当 MCA 轴 4 数据通路扩展(如国家队组合披露提质 / 政策点火事件结构化抽取 pipeline 上线)后 ——
    • 轴 4 标签自检助手与人工标注的 kappa 连续两季度 ≥ 0.85;
    • 且评测 D9 跨市场对照推理在 N3 桶位的 MCA 归因准确率 ≥ 80%。
    • 满足后升级为「自动判定 + 半年抽样人工校准」。

升级路径与 Phase 5 治理流程的对接:升级触发后,由 Tier 2 工程团队提案,Tier 1 reviewer 并行评审,走 Phase 5 §3.2 R1 修订的「并行评审 + 单点签署 + 14 天异议期 + 3:1 否决」范式。升级前后 audit trail 保留 ≥ 8 季度(沿用 Phase 5 §7 防退化要求),含「升级前后评测对照」与「升级后首季度漂移监测」。升级不可逆性约束:若升级后任一季度评测分数低于升级前基线 15%,触发降级回半人工标注,走相同治理流程。

六、与评测体系的接口

半人工标注产出进入评测样本的路径

  • 任务 A / B 标注产出的「contagion-mode + entry-points + reverse-force-list」字段进入 Phase 4 评测 D4「shared-book 形态分类准确率」与「反向力量召回率」的分母与分子;标注产出的「public-proxy-signals」字段同时进入 D2「政策语义解码字段命中率」的对照基准。
  • 任务 C 标注产出的「should-trigger-slow-thinking + trigger-reason」字段进入 Phase 4 评测 D6「M7.meta 触发命中率」与「ECE 校准指标」的分母与分子。
  • 任务 D 标注产出的「axis-4-level」直接作为 Phase 4 评测系统强制下发的 MCA 桶位标签(沿用 Phase 4 §三 gaming 路径 6 防御「MCA 桶位由评测系统强制下发,不允许被测体系自报」)。

半人工标注样本的训练 / 测试 / holdout 划分

  • 沿用 Phase 4 §三 R1 修订的 70 / 20 / 10 三集划分原则,半人工标注 case 同样按比例划入开发集 / 测试集 / holdout 集。
  • 标答(contagion-mode / should-trigger-slow-thinking / axis-4-level 等关键字段)保留在工程仓内部,公开版只保留事实层(事件时间戳 / 公开代理信号 / 市场快照),防数据泄漏。
  • holdout 集中半人工标注样本要求桶位均匀分布,B4 / B5a / B5b / B6 / B7 桶位各保留至少 1 个 holdout 半人工标注 case。

标注质量反向输入评测的「标注质量评分」

  • Phase 4 评测系统在每季度评测报告中独立报告「半人工标注质量基线」——含每项任务的 IAA kappa 滚动均值、准确率(与后验真相对照)、SLA 达标率三项指标。
  • 半人工标注质量低于阈值的桶位评测结果不参与跨桶百分位对照,仅报告绝对分数。
  • 半人工标注质量基线在评测报告中显式展示,防止「评测分数高但标注质量低」的过拟合标注 gaming 路径(即「为提高某桶分数刻意放宽标注严格度」)。

七、与治理流程的对接

标注流程变更走 Phase 5 何种治理流程

  • 标注模板字段增删 / 选项枚举调整:走 Phase 5 §3.1 子机制级变更路径(L2),由 Tier 2 工程团队提案 + Tier 1 reviewer ≥ 2 人共识。
  • 触发条件 / 代理信号阈值调整:走 L2,与 MCA 等级阈值调整门槛对齐(≥ 2 case 表明现阈值导致系统性误诊)。
  • 标注流程整体路径调整(如三方角色权责重新分配 / 复核机制重设计 / Tier 升级条件):走 Phase 5 §3.1 L3,触发 workstream mini-review。

标注者角色变更走 Phase 5 何种治理流程

  • Tier 1 / Tier 2 / Tier 3 角色定义变更:走 Phase 5 §3.2 体系扩展边界范式(并行评审 + 单点签署 + 14 天异议期 + 3:1 否决),因角色变更影响标注质量基线与评测可信度,等同于体系级变更。
  • 具体标注者准入资格(领域专业资质 / 利益相关性披露 / 培训认证):走 L2。

SLA 数值变更走 Phase 5 何种治理流程

  • §3 表中数值校准(延迟 / 准确率 / IAA 门槛 / 复核覆盖率):走 L2 + 附 Phase 4 评测前后对比,与 MCA 等级阈值调整门槛对齐。
  • §5 升级路径触发条件调整:走 L3,因涉及「半人工 → 全自动」升级判定,影响机制 schema。
  • §3 表整体重设计(如新增任务 E / F):走 L3,与子机制扩展门槛对齐(≥ 3 case 触发且不能被现有四项任务吸收)。

与 ADR-009 立场降级范式的对齐:本附录中所有 SLA 数值变更 / 流程变更均保留 audit trail ≥ 8 季度,沿用 ADR-009 立场降级 audit trail 范式。半人工标注任务整体若在 §5 升级路径成功转正为全自动判定,原半人工流程的 audit trail 同样保留 ≥ 8 季度备追溯,防路径依赖与隐性回滚。

关联

  • Phase 3 T1 8 机制升级版 + v1 工程回退注释:drafts/2026-05-28-phase3-mechanisms-v1.md
  • Phase 3 T2 MCA 6+1 分轴 + 轴 4 人工标注路径:drafts/2026-05-28-phase3-market-context-axis.md
  • Phase 4 评测体系 v1 + 70/20/10 三集划分 + 桶位强制下发:drafts/2026-05-28-phase4-evaluation-system.md
  • Phase 5 治理流程 + 三档梯度门槛 + ADR-009 立场降级范式:drafts/2026-05-28-phase5-iteration-governance.md
  • Phase 6 R-B 工程实施视角 review + 工程不可实现 3 项:reviews/2026-05-28-phase6-r-b-engineering.md
  • 变更协议:governance/change-protocol.md