Data Horizon 第一阶段差距分析与需求映射表
版本:2026-06-01
本文是 system-product-definition.md 到实施方案 / 任务包之间的桥接文档。它不重新定义 Data Horizon,也不替代 Data Horizon 现有系统与战略映射图。它只回答一个问题:
按第一阶段系统 / 产品定义,当前已有系统事实与目标定义之间还有哪些差距,哪些需求应进入后续任务包设计。
本文保持轻量,主要以矩阵方式表达。后续若工程仓、数据库、运行日志或生态协同验证提供新证据,应更新本文的“当前事实证据”和“判断”,再下推实施方案。本文新增的感知覆盖差距矩阵(第三节)承接战略白皮书第四节与系统 / 产品定义第三节,把“应感知 vs 现状覆盖”逐层登记为任务来源。
1. 文档定位
三份文档的分工如下:
| 文档 | 主要问题 | 不负责 |
|---|---|---|
| 战略白皮书 | Data Horizon 为什么存在、长期处在生态什么位置、什么是金融感知资产。 | 不拆任务包,不定义工程细节。 |
| 现有系统与战略映射图 | 当前系统已有能力、真实链路、可保留资产、明显错位点。 | 不决定第一阶段目标,不排实施优先级。 |
| 系统 / 产品定义 | 第一阶段服务谁、跑通哪些闭环、沉淀哪些资产、采用什么系统形态。 | 不直接生成工程任务。 |
| 本文 | 把目标定义与当前事实逐项对齐,形成需求和任务包候选。 | 不写 schema、API 字段、页面设计、代码模块和排期。 |
2. 判断标签
本文使用五类判断标签,避免把所有事项都写成“新增需求”。
| 标签 | 含义 | 后续动作 |
|---|---|---|
| 保留 | 当前能力方向符合第一阶段定义,可以作为后续实施基础。 | 进入任务包时尽量复用。 |
| 矫正 | 当前能力方向有价值,但对象、边界、质量、工作流或表达方式不符合目标定义。 | 进入改造任务包。 |
| 缺失 | 目标定义要求具备,但当前事实中没有足够能力或证据。 | 进入新增任务包。 |
| 补证 | 可能已有能力,但缺少运行数据、样本、日志、消费反馈或工程核对。 | 先做评估 / 审计 / 样本验证。 |
| 后置 | 属于 Data Horizon 定义边界,但不阻断 P0 / P1 第一阶段硬闭环。 | 放入后续阶段或低优先级任务包。 |
3. 感知覆盖差距矩阵
本节承接战略白皮书第四节「信息范围与感知版图」与系统 / 产品定义第三节「感知对象与覆盖优先」,把成熟态「应感知」的版图与当前「现状覆盖」逐层对齐,缺口即后续感知类任务来源。现状证据取自三源对照(治理定义 / 工程代码 / 生产库运行事实,2025-11→2026-05)。
3.1 按重要度层级(沿用战略白皮书第四节之三)
下表行按感知对象组织,「重要度层级」一列严格沿用战略白皮书第四节之三的成熟态分层(第一层公因子·高差异化 / 第二层市场纵深 / 第三层长尾),不另起一套分层;差异化主线(私域职业信号、实时突发事件)与跨市场宏观同属第一层。
| 感知对象(重要度层级) | 应感知(成熟态) | 现状覆盖证据 | 判断 | 主要缺口 | 优先级 | 任务包候选 |
|---|---|---|---|---|---|---|
| 跨市场宏观与政策(第一层) | 货币政策、财政、监管、地缘、突发宏观事件,覆盖全市场定价影响面 | 代码层已接入 BLS / FRED / USASpending / Comtrade / GDELT 等宏观与另类源,但多以普通新闻行入库,未系统化为宏观 / 政策感知;无宏观事件日历、分类与影响面结构 | 矫正 + 补证 | 宏观 / 政策事件系统化(日历、分类、影响面、跨市场政策追踪),把已接入源从「新闻流」升级为「宏观感知资产」 | 第一层·High | WP-MACRO-01 宏观与政策系统化感知 |
| 实时突发事件 / 突发新闻(第一层·差异化主线) | 突发识别、最高时效、跨源互证,服务事件驱动策略 | 高频新闻 / 快讯流已运行,但未把突发事件单列为优先资产,无突发识别 / 时效标记 / 跨源互证结构 | 缺失 + 矫正 | 突发事件资产化(识别、时效、跨源互证、事件驱动输出契约) | 第一层·差异化主线(与私域职业信号并列、同为 P1 优先内核) | WP-P1-04 突发事件资产 |
| 私域职业分析师 / 交易员信号(第一层·差异化主线·最高杠杆) | 职业分析师 / 交易员的实时策略观点与交易信号及可回看历史 | 已有 Telegram / KOL / Discord 交易员频道接入雏形;但未区分「职业信号」与「一般 KOL 资讯」;source_type 实际只有 news / social,无 signal 类型;智能分析 / 信号提炼 agent 层当前休眠(仅 3 个转发 agent 启用) | 缺失 + 矫正 | 区分并资产化私域职业信号(实时观点 / 交易信号 + 历史信号可回测沉淀);唤醒并矫正信号提炼链路 | 第一层·差异化主线(与 P1 并列) | WP-P2-04 私域职业信号资产化 |
| 各市场板块 / 个股资讯·研究·链上·另类(第二层 市场纵深) | 各主要市场板块 / 个股层公开新闻、研究、链上与另类数据 | 高频新闻 / RSS / TelegramRSS 已运行,但覆盖偏置明显:语言 zh 约 81% / en 约 19%,板块以加密为主,部分源已数月无数据(死源);FIRMS / ReliefWeb / EPA / 卫星·海事等另类源有采集痕迹但未资产化 | 保留 + 矫正 + 缺失 | 矫正语言与板块覆盖偏置、清理 / 替换死源、向股票 / 外汇 / 商品 / 债券扩展;另类数据资产化与事件关联 | 第二层·High(覆盖偏置)/ Later(另类) | WP-P0-02 来源健康(含覆盖偏置矫正)+ WP-ALT-01 另类数据资产化(后置) |
| 结构化行情底座 K 线 / 盘口 / 成交(第二层·低优先,第三方可自助) | K 线、盘口、成交量等市场数据,可标准化检索 | 无结构化行情表(无 kline / orderbook / ohlc);K 线仅在图像分析中被读取;yfinance / treasury 等以新闻行入库 | 缺失 + 后置 | 历史 / 实时行情结构化入库与检索;但消费方多可从第三方自助获取,确认较低优先、不以重复路由为主线 | 第二层·Low | 复用 WP-P3-01(历史市场数据包评估) |
| 细分衍生品 / 期权·长尾市场·深度多模态(第三层 长尾) | 细分衍生品 / 期权、长尾市场、低频另类、深度多模态(直播 / 音视频) | 基本未覆盖 | 后置 | 完整性所需,按价值与成本逐步纳入 | 第三层·Later | 后续阶段补齐 |
3.2 按市场维度(覆盖偏置)
现状覆盖在市场维度上高度集中于加密 + 中文社交 / KOL,其余市场覆盖薄弱。这是成熟态全市场感知版图与第一阶段现状之间的结构性偏置,登记为覆盖缺口而非缺陷否定。
| 市场 | 现状覆盖 | 判断 | 缺口方向 |
|---|---|---|---|
| 加密 | 重点覆盖(社交 / KOL / 新闻 / 价格异动监控) | 保留 + 矫正 | 从「人类分发」升级为「机器可消费资产」;区分职业信号与一般 KOL |
| 美股 / 全球股票 | 部分宏观与新闻触达,板块 / 个股稀疏 | 缺失 + 补证 | 系统化公司 / 行业事件与公告感知 |
| 外汇 / 利率 | 宏观源有触达(FRED / treasury),未系统化 | 矫正 + 补证 | 宏观事件结构化(并入第一层 WP-MACRO-01) |
| 商品 / 大宗 | 另类源有痕迹(Comtrade / 卫星 / 海事),未资产化 | 缺失 + 后置 | 另类数据资产化(WP-ALT-01) |
| 债券 / 信用 | 覆盖薄弱 | 缺失 | 后续阶段补齐 |
覆盖矩阵不要求第一阶段铺满全市场,但要求把「应感知却未覆盖 / 覆盖错位」逐项登记为任务来源,并体现差异化优先:私域职业信号、突发事件、宏观系统化先行,结构化行情与另类数据后置。
4. 第一阶段闭环差距矩阵
| 闭环 | 定义要求 | 当前事实证据 | 判断 | 主要差距 | 优先级 | 任务包候选 |
|---|---|---|---|---|---|---|
| P0 数据视界运营闭环 | 运营人员可以配置来源和规则,观察链路状态,复核资产,干预异常,处理告警,并控制输出。 | 现有系统已有控制台、Agent 管理、来源管理、LLM 配置、执行记录、API Key 管理和部分运行证据。 | 保留 + 矫正 + 缺失 | 管理系统仍偏工程菜单;缺少按运营工作流组织的来源状态、处理状态、复核队列、告警处理、输出控制和消费反馈总览。 | P0-Hard | WP-P0-01 数据视界运营工作台;WP-P0-02 来源与链路健康控制;WP-P0-03 复核 / 干预 / 输出控制闭环。 |
| P1 实时公开金融信息 -> AI Trading Matrix 输出闭环 | 公开金融事件进入 Data Horizon 后,可被处理成 AI Trading Matrix 可消费的事件或信号输入,并留下消费证据。 | 高频新闻 / RSS / TelegramRSS / 宏观与市场相关采集、标准化任务、分发任务、推送任务和 Open API 候选已存在。 | 保留 + 矫正 + 补证 | 事件 / 信号对象和 AI Trading Matrix 消费契约未冻结;突发事件 / 事件驱动需作为优先内核单列(突发识别、时效、跨源互证);时效、去重、质量、失败补偿和消费反馈需量化;能推送不等于已形成稳定机器消费闭环。 | P1-Hard | WP-P1-01 标准化事件与信号对象;WP-P1-02 AI Trading Matrix 输出契约;WP-P1-03 消费反馈与交付证据;WP-P1-04 突发事件资产。 |
| P2 私域 / KOL 金融信号闭环 | 合法授权或可使用的私域 / KOL 信息可接入、保留证据、过滤噪声、提炼信号,并进入复核和输出控制。 | Telegram、KOL、Topic、source 管理、KOL source 查询和部分私域来源处理能力已有雏形,但未区分职业信号与一般 KOL,且信号提炼 agent 层当前休眠。 | 保留 + 缺失 + 补证 | 来源授权、适用限制、证据保留、低密度高价值筛选、噪声过滤、复核责任和输出限制需补齐;区分并资产化职业分析师 / 交易员信号(实时 + 可回测),唤醒信号提炼链路。 | P2-High(其中私域职业信号资产化为差异化主线,与 P1 并列) | WP-P2-01 私域来源与授权边界;WP-P2-02 KOL 信号候选与复核;WP-P2-03 私域信号输出限制;WP-P2-04 私域职业信号资产化。 |
| P3 历史市场数据资产化闭环 | 交易所历史数据包、K 线、订单簿、交易量等市场数据可标准化入库、检索和复用。 | 现有文档只确认市场相关采集候选和部分宏观 / 市场数据接入痕迹。 | 缺失 + 补证 | 交易所历史数据包导入、清洗、标准化、存储、检索、复用、质量校验和与事件 / 信号关联都需单独补证。 | P3-Low(结构化行情第三方可自助,不以重复路由为主线) | WP-P3-01 历史市场数据包评估;WP-P3-02 市场数据资产模型;WP-P3-03 检索复用与质量校验。 |
| P4 FinBayes 消费闭环 | FinBayes 可消费 Data Horizon 的事件、信号、证据和历史材料,用于金融认知、问答、研究和线索生成。 | FinBayes 已被定义为第二验证场景,现有系统有信息查询面和机器接口候选。 | 后置 + 缺失 | FinBayes 需要的 evidence package、研究材料、问答引用边界、消费协议和反馈回流尚未定义。 | P4-Later | WP-P4-01 FinBayes 消费材料规格;WP-P4-02 证据包与引用边界;WP-P4-03 反馈回流。 |
上表优先级在 P0–P4 编号框架内做差异化加权(与系统 / 产品定义第五节一致):P0 运营闭环、P1 实时公开信息(突出突发事件)先做硬;P2 中的私域职业信号资产化提为与 P1 并列的差异化主线;P3 历史市场数据确认较低优先。编号表示资产门类与闭环归属,不表示线性让位顺序。
5. 信息资产差距矩阵
| 信息资产 | 第一阶段定义 | 当前事实证据 | 判断 | 需求映射 |
|---|---|---|---|---|
| 原始信息资产 | 保留原文、来源、时间、格式、授权、采集上下文和适用限制。 | 已有 原始信息 / 原始新闻 / source 相关对象雏形。 | 保留 + 矫正 | 统一原始信息对象语义;补来源授权、采集上下文、适用限制和追溯入口。 |
| 标准化事件资产 | 清洗、去重、翻译、分类、结构化后的金融事件对象。 | 已有标准化、翻译、去重、分类、摘要、资产识别能力。 | 保留 + 补证 | 定义合格事件对象;补置信度、质量样本、失败分类、重复事件处理和人工复核标记。 |
| 金融信号资产 | 从事件、KOL、市场数据、指标变化或主题演化中提炼的可行动信号候选。 | Agent 分析、KOL / Topic、推送和下游消费候选存在。 | 缺失 + 补证 | 区分“事件”与“信号候选”;定义信号来源、证据、置信度、限制、复核状态和输出边界。 |
| 市场数据资产 | K 线、订单簿、交易量、指标、行情快照、历史数据包等标准化可检索数据。 | 当前证据不足,只能确认市场数据相关痕迹。 | 缺失 | 建立历史数据包接入、标准化、存储、检索和质量校验需求。 |
| 运行证据资产 | 采集、处理、复核、推送、失败、告警、质量、成本、延迟、下游使用结果和反馈。 | 已有执行记录、错误、耗时、推送记录等碎片证据。 | 保留 + 矫正 | 从日志 / 记录升级为运营可读证据资产;补成本、质量、延迟、重复、失败原因、人工干预和消费反馈。 |
| 输出交付资产 | 面向机器消费通道、Webhook、消息通道和数据包形成的交付对象与消费记录。 | 已有 Telegram、Webhook、Trading Matrix、Open API 和推送记录。 | 保留 + 矫正 | 定义交付对象、幂等、重试、失败补偿、回放、消费确认和契约版本。 |
6. 一主四辅需求映射
| 系统 / 产品形态 | 当前基础 | 第一阶段需求 | 任务包倾向 |
|---|---|---|---|
| 数据视界管理系统 | 已有控制台和配置管理面。 | 从工程菜单重组为运营工作台,覆盖配置、观察、复核、干预、告警、输出控制。 | P0 第一优先。 |
| 信息接入工具族 | 已有多源采集、source 管理、KOL / Topic 相关能力。 | 明确公开源、私域源、API、历史包的接入边界、状态、授权和健康度。 | P0 / P1 / P2 / P3 分层推进。 |
| 信息处理框架 | 已有清洗、翻译、去重、分类、摘要、LLM 辅助处理。 | 明确规则 / 小模型 / 通用模型 / 人工复核的分层处理路径和质量证据。 | P1 优先,P2 补强。 |
| 信息资产库与检索系统 | 已有原始信息、标准化信息、执行和推送记录。 | 以六类信息资产重组对象语义、检索入口、追溯链路和证据结构。 | P0 / P1 共同优先。 |
| 资产输出机制 | 已有 Telegram、Webhook、Trading Matrix、Open API 候选。 | 明确 AI Trading Matrix 第一消费契约,再评估 API / MCP / SDK / CLI 等机器输出机制。 | P1 第一优先,P4 后续。 |
7. 横向能力差距
| 横向能力 | 当前判断 | 第一阶段最低需求 | 任务包映射 |
|---|---|---|---|
| 来源可靠性 | 有 source 管理雏形,但可靠性、健康度、失败恢复需补证。 | 能看到来源状态、失败原因、重复率、延迟和暂停 / 重试动作。 | WP-P0-02 |
| 标准化质量 | 有标准化能力,但缺质量样本和失败分类。 | 能抽样评估事件质量,区分成功、低置信、失败、需复核。 | WP-P1-01 |
| 去重与聚合 | 有去重候选,但效果未量化。 | 能解释重复事件如何识别、聚合、保留差异和避免污染下游。 | WP-P1-01 |
| 输出契约 | 有多通道输出,但契约未冻结。 | AI Trading Matrix 至少具备稳定对象、幂等键、状态、失败补偿和消费确认。 | WP-P1-02 |
| 运营干预 | 有后台能力,但工作流未重组。 | 运营人员能暂停来源、复核资产、阻止输出、触发重试和处理告警。 | WP-P0-01 / WP-P0-03 |
| 成本与延迟 | 有耗时 / 执行记录碎片,但不足以形成运营视图。 | 能看关键链路基础延迟、失败、重复处理和高成本处理路径。 | WP-P0-01 |
| 授权与限制 | 私域 / KOL 边界缺证据。 | 私域来源需保留授权、适用限制、输出限制和复核责任。 | WP-P2-01 |
| 反馈回流 | 当前下游价值反馈不足。 | 至少能记录 AI Trading Matrix 消费结果、失败、低价值反馈或使用证据。 | WP-P1-03 |
8. 第一批任务包建议
本文只给出任务包候选,不直接进入工程设计。本表为首批子集(P0/P1 硬闭环 + 差异化主线优先),完整任务包集合分散在第四节闭环差距矩阵、第五节资产差距矩阵与第七节横向能力差距中(如 WP-P2-02/03、WP-P3-02/03、WP-P4-01/02/03 等在矩阵列出、尚未进入首批)。
| 任务包 | 目标 | 覆盖闭环 | 产出物 |
|---|---|---|---|
| WP-P0-01 数据视界运营工作台 | 把控制台从工程菜单重组为运营人员可用的主工作台。 | P0 | 运营角色任务流、工作台信息架构、状态总览、基础指标和证据入口。 |
| WP-P0-02 来源与链路健康控制 | 让运营人员能管理 source、观察健康度、处理失败和暂停 / 重试。 | P0 / P1 / P2 | 来源状态模型、健康度指标、失败分类、重试 / 暂停动作。 |
| WP-P0-03 复核 / 干预 / 输出控制闭环 | 支撑关键事件、私域信号和高风险输出的人工复核与控制。 | P0 / P1 / P2 | 复核队列、干预动作、输出阻断 / 放行、操作证据。 |
| WP-P1-01 标准化事件与信号对象 | 定义 AI Trading Matrix 可消费的事件 / 信号候选对象。 | P1 | 标准化事件对象、信号候选对象、质量标记、追溯证据。 |
| WP-P1-02 AI Trading Matrix 输出契约 | 固化第一机器消费契约。 | P1 | 输出对象、幂等、状态、失败补偿、回放、消费确认。 |
| WP-P1-03 消费反馈与交付证据 | 证明输出被消费,并让反馈回流来源、处理和资产质量判断。 | P1 | 消费记录、反馈状态、低价值 / 失败 / 延迟证据。 |
| WP-P2-01 私域来源与授权边界 | 明确私域 / KOL 信息可接入、可处理、可输出的边界。 | P2 | 授权记录、适用限制、来源类型、输出限制。 |
| WP-P3-01 历史市场数据包评估 | 先补证历史市场数据闭环是否具备工程基础。 | P3 | 数据包清单、导入路径、质量样本、标准化需求。 |
| WP-P2-04 私域职业信号资产化 | 区分并资产化职业分析师 / 交易员的实时观点与交易信号,并把历史信号沉淀为可回测样本。 | P2(差异化主线) | 职业信号对象(实时 / 历史两形态)、来源职业属性、置信与复核标记、可回测样本结构。 |
| WP-P1-04 突发事件资产 | 把突发事件 / 事件驱动单列为优先资产,支撑 News-Trading / Event-Driven 消费。 | P1 | 突发事件识别、时效标记、跨源互证、事件驱动输出契约。 |
| WP-MACRO-01 宏观与政策系统化感知 | 把已接入宏观 / 另类源从新闻流升级为系统化宏观感知。 | 第一层 | 宏观事件日历、分类、影响面、跨市场政策追踪。 |
| WP-ALT-01 另类数据资产化(后置) | 评估卫星 / 海事 / 灾害 / 供应链等另类源资产化与事件关联。 | 第三层·Later | 另类源清单、资产化路径、事件关联评估。 |
| WP-SEC-01 凭证与配置迁移(工程债) | 把生产配置中的明文凭证迁出代码,硬编码配置外置;建立密钥管理与轮换基线。 | 横向·安全(M0 前高优) | 凭证清单(config.railway.prod.yaml 4 处明文:JWT / Telegram BotToken / Google API Key / 代理凭证)、密钥管理方案、配置外置(env / secret)、迁移与验证步骤。承接 L3 §24 风险登记 + ADR-候选-10。 |
| WP-TEST-01 主链路测试覆盖(工程债) | 为「采集 → 标准化 → 推送」主链路(internal/job + internal/standardize)补关键路径测试,建立回归基线。 | 横向·质量(M0 前高优) | 主链路测试用例、关键路径(去重 0.95/1h、标准化失败置标记、push 幂等 / 重试)覆盖、回归基线与验收命令。承接 L3 §24 风险(主链路零测试)。 |
9. 进入实施方案前的核对清单
在拆正式实施方案前,需要完成以下核对:
| 核对项 | 目的 |
|---|---|
| Data Horizon 工程仓核对 | 确认 source、standardization、push、Open API、console、execution evidence 的最新真实状态。 |
| 数据库 / 运行数据抽样 | 确认当前对象、状态、失败、延迟、重复和推送记录不是只停留在代码层。 |
| AI Trading Matrix 消费需求确认 | 明确第一机器消费对象需要 event、signal、feed、alert 还是 evidence package。 |
| 运营人员工作流确认 | 明确运营人员每天需要看什么、判断什么、能做什么干预动作。 |
| 私域 / KOL 边界确认 | 明确可接入来源、授权、适用限制和输出限制。 |
| AI Trading Matrix 两类策略需求确认 | 明确 (1) 私域职业信号跟单 + 历史可回测沉淀、(2) 突发事件 / 事件驱动两类策略各自需要的资产形态、时效与消费契约。 |
10. 后续承接
本文完成后,后续工作建议按以下顺序推进:
- 进入 Data Horizon 第一阶段实施承接区,查看当前任务包索引、推进看板和第一优先级任务;
- 以 DH-WP-001 Trading Matrix 信源候选与样本交付任务包设计 跑通第一条真实业务牵引闭环;
- 基于样板任务包经验,再下推其他 P0 / P1 任务包设计;
- 对每个任务包再做工程设计,包括 schema、API、状态机、页面、权限、任务调度、模型、测试和验收命令;
- 用
system-product-definition.md的五条最低验收标准做阶段复盘。
Changelog / 演化记录
2026-06-05:M0 工程就绪化承接——第八节首批任务包新增两条工程债 WP:WP-SEC-01 凭证与配置迁移(明文凭证迁出、密钥管理;承接 L3 §24 + ADR-候选-10)、WP-TEST-01 主链路测试覆盖(采集→标准化→推送零测试补齐;承接 L3 §24)。来源:governance/workstreams/data-horizon-doc-chain-review/(C 类工程债)→ data-horizon-m0-engineering-readiness/。
2026-06-01:L2 下推对齐(B1–B4)——新增第三节「感知覆盖差距矩阵」(按重要性层级 + 按市场维度,用三源证据落「应感知 vs 现状覆盖」;原三–九节顺延为四–十节);闭环差距矩阵按差异化加权重述优先级(私域职业信号资产化提为与 P1 并列、P1 突出突发事件、P3 历史行情确认较低优先,保留 P0–P4 编号);任务包候选新增 WP-P2-04 私域职业信号资产化、WP-P1-04 突发事件资产、WP-MACRO-01 宏观与政策系统化、WP-ALT-01 另类数据资产化(后置);核对清单新增 AI Trading Matrix 两类策略需求。可溯源到战略白皮书第四节、系统 / 产品定义第三 / 五节与 governance/workstreams/data-horizon-l2-downstream-sync/。
2026-05-26:将 DH-WP-001 承接入口调整为独立任务包目录,后续相关产出统一放在该目录下。
2026-05-26:补充后续承接路径,将任务包推进入口指向 implementation/ 子目录,并明确 DH-WP-001 作为第一条真实业务牵引闭环。
2026-05-26:创建第一版轻量差距分析与需求映射表,承接战略白皮书、现有系统与战略映射图、系统 / 产品定义,形成 P0 / P1 优先的任务包候选。