跳到主要内容

Data Horizon 第一阶段差距分析与需求映射表

版本:2026-06-01

本文是 system-product-definition.md 到实施方案 / 任务包之间的桥接文档。它不重新定义 Data Horizon,也不替代 Data Horizon 现有系统与战略映射图。它只回答一个问题:

按第一阶段系统 / 产品定义,当前已有系统事实与目标定义之间还有哪些差距,哪些需求应进入后续任务包设计。

本文保持轻量,主要以矩阵方式表达。后续若工程仓、数据库、运行日志或生态协同验证提供新证据,应更新本文的“当前事实证据”和“判断”,再下推实施方案。本文新增的感知覆盖差距矩阵(第三节)承接战略白皮书第四节与系统 / 产品定义第三节,把“应感知 vs 现状覆盖”逐层登记为任务来源。

1. 文档定位

三份文档的分工如下:

文档主要问题不负责
战略白皮书Data Horizon 为什么存在、长期处在生态什么位置、什么是金融感知资产。不拆任务包,不定义工程细节。
现有系统与战略映射图当前系统已有能力、真实链路、可保留资产、明显错位点。不决定第一阶段目标,不排实施优先级。
系统 / 产品定义第一阶段服务谁、跑通哪些闭环、沉淀哪些资产、采用什么系统形态。不直接生成工程任务。
本文把目标定义与当前事实逐项对齐,形成需求和任务包候选。不写 schema、API 字段、页面设计、代码模块和排期。

2. 判断标签

本文使用五类判断标签,避免把所有事项都写成“新增需求”。

标签含义后续动作
保留当前能力方向符合第一阶段定义,可以作为后续实施基础。进入任务包时尽量复用。
矫正当前能力方向有价值,但对象、边界、质量、工作流或表达方式不符合目标定义。进入改造任务包。
缺失目标定义要求具备,但当前事实中没有足够能力或证据。进入新增任务包。
补证可能已有能力,但缺少运行数据、样本、日志、消费反馈或工程核对。先做评估 / 审计 / 样本验证。
后置属于 Data Horizon 定义边界,但不阻断 P0 / P1 第一阶段硬闭环。放入后续阶段或低优先级任务包。

3. 感知覆盖差距矩阵

本节承接战略白皮书第四节「信息范围与感知版图」与系统 / 产品定义第三节「感知对象与覆盖优先」,把成熟态「应感知」的版图与当前「现状覆盖」逐层对齐,缺口即后续感知类任务来源。现状证据取自三源对照(治理定义 / 工程代码 / 生产库运行事实,2025-11→2026-05)。

3.1 按重要度层级(沿用战略白皮书第四节之三)

下表行按感知对象组织,「重要度层级」一列严格沿用战略白皮书第四节之三的成熟态分层(第一层公因子·高差异化 / 第二层市场纵深 / 第三层长尾),不另起一套分层;差异化主线(私域职业信号、实时突发事件)与跨市场宏观同属第一层。

感知对象(重要度层级)应感知(成熟态)现状覆盖证据判断主要缺口优先级任务包候选
跨市场宏观与政策(第一层)货币政策、财政、监管、地缘、突发宏观事件,覆盖全市场定价影响面代码层已接入 BLS / FRED / USASpending / Comtrade / GDELT 等宏观与另类源,但多以普通新闻行入库,未系统化为宏观 / 政策感知;无宏观事件日历、分类与影响面结构矫正 + 补证宏观 / 政策事件系统化(日历、分类、影响面、跨市场政策追踪),把已接入源从「新闻流」升级为「宏观感知资产」第一层·HighWP-MACRO-01 宏观与政策系统化感知
实时突发事件 / 突发新闻(第一层·差异化主线)突发识别、最高时效、跨源互证,服务事件驱动策略高频新闻 / 快讯流已运行,但未把突发事件单列为优先资产,无突发识别 / 时效标记 / 跨源互证结构缺失 + 矫正突发事件资产化(识别、时效、跨源互证、事件驱动输出契约)第一层·差异化主线(与私域职业信号并列、同为 P1 优先内核)WP-P1-04 突发事件资产
私域职业分析师 / 交易员信号(第一层·差异化主线·最高杠杆)职业分析师 / 交易员的实时策略观点与交易信号及可回看历史已有 Telegram / KOL / Discord 交易员频道接入雏形;但未区分「职业信号」与「一般 KOL 资讯」;source_type 实际只有 news / social,无 signal 类型;智能分析 / 信号提炼 agent 层当前休眠(仅 3 个转发 agent 启用)缺失 + 矫正区分并资产化私域职业信号(实时观点 / 交易信号 + 历史信号可回测沉淀);唤醒并矫正信号提炼链路第一层·差异化主线(与 P1 并列)WP-P2-04 私域职业信号资产化
各市场板块 / 个股资讯·研究·链上·另类(第二层 市场纵深)各主要市场板块 / 个股层公开新闻、研究、链上与另类数据高频新闻 / RSS / TelegramRSS 已运行,但覆盖偏置明显:语言 zh 约 81% / en 约 19%,板块以加密为主,部分源已数月无数据(死源);FIRMS / ReliefWeb / EPA / 卫星·海事等另类源有采集痕迹但未资产化保留 + 矫正 + 缺失矫正语言与板块覆盖偏置、清理 / 替换死源、向股票 / 外汇 / 商品 / 债券扩展;另类数据资产化与事件关联第二层·High(覆盖偏置)/ Later(另类)WP-P0-02 来源健康(含覆盖偏置矫正)+ WP-ALT-01 另类数据资产化(后置)
结构化行情底座 K 线 / 盘口 / 成交(第二层·低优先,第三方可自助)K 线、盘口、成交量等市场数据,可标准化检索无结构化行情表(无 kline / orderbook / ohlc);K 线仅在图像分析中被读取;yfinance / treasury 等以新闻行入库缺失 + 后置历史 / 实时行情结构化入库与检索;但消费方多可从第三方自助获取,确认较低优先、不以重复路由为主线第二层·Low复用 WP-P3-01(历史市场数据包评估)
细分衍生品 / 期权·长尾市场·深度多模态(第三层 长尾)细分衍生品 / 期权、长尾市场、低频另类、深度多模态(直播 / 音视频)基本未覆盖后置完整性所需,按价值与成本逐步纳入第三层·Later后续阶段补齐

3.2 按市场维度(覆盖偏置)

现状覆盖在市场维度上高度集中于加密 + 中文社交 / KOL,其余市场覆盖薄弱。这是成熟态全市场感知版图与第一阶段现状之间的结构性偏置,登记为覆盖缺口而非缺陷否定。

市场现状覆盖判断缺口方向
加密重点覆盖(社交 / KOL / 新闻 / 价格异动监控)保留 + 矫正从「人类分发」升级为「机器可消费资产」;区分职业信号与一般 KOL
美股 / 全球股票部分宏观与新闻触达,板块 / 个股稀疏缺失 + 补证系统化公司 / 行业事件与公告感知
外汇 / 利率宏观源有触达(FRED / treasury),未系统化矫正 + 补证宏观事件结构化(并入第一层 WP-MACRO-01)
商品 / 大宗另类源有痕迹(Comtrade / 卫星 / 海事),未资产化缺失 + 后置另类数据资产化(WP-ALT-01)
债券 / 信用覆盖薄弱缺失后续阶段补齐

覆盖矩阵不要求第一阶段铺满全市场,但要求把「应感知却未覆盖 / 覆盖错位」逐项登记为任务来源,并体现差异化优先:私域职业信号、突发事件、宏观系统化先行,结构化行情与另类数据后置。

4. 第一阶段闭环差距矩阵

闭环定义要求当前事实证据判断主要差距优先级任务包候选
P0 数据视界运营闭环运营人员可以配置来源和规则,观察链路状态,复核资产,干预异常,处理告警,并控制输出。现有系统已有控制台、Agent 管理、来源管理、LLM 配置、执行记录、API Key 管理和部分运行证据。保留 + 矫正 + 缺失管理系统仍偏工程菜单;缺少按运营工作流组织的来源状态、处理状态、复核队列、告警处理、输出控制和消费反馈总览。P0-HardWP-P0-01 数据视界运营工作台;WP-P0-02 来源与链路健康控制;WP-P0-03 复核 / 干预 / 输出控制闭环。
P1 实时公开金融信息 -> AI Trading Matrix 输出闭环公开金融事件进入 Data Horizon 后,可被处理成 AI Trading Matrix 可消费的事件或信号输入,并留下消费证据。高频新闻 / RSS / TelegramRSS / 宏观与市场相关采集、标准化任务、分发任务、推送任务和 Open API 候选已存在。保留 + 矫正 + 补证事件 / 信号对象和 AI Trading Matrix 消费契约未冻结;突发事件 / 事件驱动需作为优先内核单列(突发识别、时效、跨源互证);时效、去重、质量、失败补偿和消费反馈需量化;能推送不等于已形成稳定机器消费闭环。P1-HardWP-P1-01 标准化事件与信号对象;WP-P1-02 AI Trading Matrix 输出契约;WP-P1-03 消费反馈与交付证据;WP-P1-04 突发事件资产。
P2 私域 / KOL 金融信号闭环合法授权或可使用的私域 / KOL 信息可接入、保留证据、过滤噪声、提炼信号,并进入复核和输出控制。Telegram、KOL、Topic、source 管理、KOL source 查询和部分私域来源处理能力已有雏形,但未区分职业信号与一般 KOL,且信号提炼 agent 层当前休眠。保留 + 缺失 + 补证来源授权、适用限制、证据保留、低密度高价值筛选、噪声过滤、复核责任和输出限制需补齐;区分并资产化职业分析师 / 交易员信号(实时 + 可回测),唤醒信号提炼链路P2-High(其中私域职业信号资产化为差异化主线,与 P1 并列)WP-P2-01 私域来源与授权边界;WP-P2-02 KOL 信号候选与复核;WP-P2-03 私域信号输出限制;WP-P2-04 私域职业信号资产化。
P3 历史市场数据资产化闭环交易所历史数据包、K 线、订单簿、交易量等市场数据可标准化入库、检索和复用。现有文档只确认市场相关采集候选和部分宏观 / 市场数据接入痕迹。缺失 + 补证交易所历史数据包导入、清洗、标准化、存储、检索、复用、质量校验和与事件 / 信号关联都需单独补证。P3-Low(结构化行情第三方可自助,不以重复路由为主线)WP-P3-01 历史市场数据包评估;WP-P3-02 市场数据资产模型;WP-P3-03 检索复用与质量校验。
P4 FinBayes 消费闭环FinBayes 可消费 Data Horizon 的事件、信号、证据和历史材料,用于金融认知、问答、研究和线索生成。FinBayes 已被定义为第二验证场景,现有系统有信息查询面和机器接口候选。后置 + 缺失FinBayes 需要的 evidence package、研究材料、问答引用边界、消费协议和反馈回流尚未定义。P4-LaterWP-P4-01 FinBayes 消费材料规格;WP-P4-02 证据包与引用边界;WP-P4-03 反馈回流。

上表优先级在 P0–P4 编号框架内做差异化加权(与系统 / 产品定义第五节一致):P0 运营闭环、P1 实时公开信息(突出突发事件)先做硬;P2 中的私域职业信号资产化提为与 P1 并列的差异化主线;P3 历史市场数据确认较低优先。编号表示资产门类与闭环归属,不表示线性让位顺序。

5. 信息资产差距矩阵

信息资产第一阶段定义当前事实证据判断需求映射
原始信息资产保留原文、来源、时间、格式、授权、采集上下文和适用限制。已有 原始信息 / 原始新闻 / source 相关对象雏形。保留 + 矫正统一原始信息对象语义;补来源授权、采集上下文、适用限制和追溯入口。
标准化事件资产清洗、去重、翻译、分类、结构化后的金融事件对象。已有标准化、翻译、去重、分类、摘要、资产识别能力。保留 + 补证定义合格事件对象;补置信度、质量样本、失败分类、重复事件处理和人工复核标记。
金融信号资产从事件、KOL、市场数据、指标变化或主题演化中提炼的可行动信号候选。Agent 分析、KOL / Topic、推送和下游消费候选存在。缺失 + 补证区分“事件”与“信号候选”;定义信号来源、证据、置信度、限制、复核状态和输出边界。
市场数据资产K 线、订单簿、交易量、指标、行情快照、历史数据包等标准化可检索数据。当前证据不足,只能确认市场数据相关痕迹。缺失建立历史数据包接入、标准化、存储、检索和质量校验需求。
运行证据资产采集、处理、复核、推送、失败、告警、质量、成本、延迟、下游使用结果和反馈。已有执行记录、错误、耗时、推送记录等碎片证据。保留 + 矫正从日志 / 记录升级为运营可读证据资产;补成本、质量、延迟、重复、失败原因、人工干预和消费反馈。
输出交付资产面向机器消费通道、Webhook、消息通道和数据包形成的交付对象与消费记录。已有 Telegram、Webhook、Trading Matrix、Open API 和推送记录。保留 + 矫正定义交付对象、幂等、重试、失败补偿、回放、消费确认和契约版本。

6. 一主四辅需求映射

系统 / 产品形态当前基础第一阶段需求任务包倾向
数据视界管理系统已有控制台和配置管理面。从工程菜单重组为运营工作台,覆盖配置、观察、复核、干预、告警、输出控制。P0 第一优先。
信息接入工具族已有多源采集、source 管理、KOL / Topic 相关能力。明确公开源、私域源、API、历史包的接入边界、状态、授权和健康度。P0 / P1 / P2 / P3 分层推进。
信息处理框架已有清洗、翻译、去重、分类、摘要、LLM 辅助处理。明确规则 / 小模型 / 通用模型 / 人工复核的分层处理路径和质量证据。P1 优先,P2 补强。
信息资产库与检索系统已有原始信息、标准化信息、执行和推送记录。以六类信息资产重组对象语义、检索入口、追溯链路和证据结构。P0 / P1 共同优先。
资产输出机制已有 Telegram、Webhook、Trading Matrix、Open API 候选。明确 AI Trading Matrix 第一消费契约,再评估 API / MCP / SDK / CLI 等机器输出机制。P1 第一优先,P4 后续。

7. 横向能力差距

横向能力当前判断第一阶段最低需求任务包映射
来源可靠性有 source 管理雏形,但可靠性、健康度、失败恢复需补证。能看到来源状态、失败原因、重复率、延迟和暂停 / 重试动作。WP-P0-02
标准化质量有标准化能力,但缺质量样本和失败分类。能抽样评估事件质量,区分成功、低置信、失败、需复核。WP-P1-01
去重与聚合有去重候选,但效果未量化。能解释重复事件如何识别、聚合、保留差异和避免污染下游。WP-P1-01
输出契约有多通道输出,但契约未冻结。AI Trading Matrix 至少具备稳定对象、幂等键、状态、失败补偿和消费确认。WP-P1-02
运营干预有后台能力,但工作流未重组。运营人员能暂停来源、复核资产、阻止输出、触发重试和处理告警。WP-P0-01 / WP-P0-03
成本与延迟有耗时 / 执行记录碎片,但不足以形成运营视图。能看关键链路基础延迟、失败、重复处理和高成本处理路径。WP-P0-01
授权与限制私域 / KOL 边界缺证据。私域来源需保留授权、适用限制、输出限制和复核责任。WP-P2-01
反馈回流当前下游价值反馈不足。至少能记录 AI Trading Matrix 消费结果、失败、低价值反馈或使用证据。WP-P1-03

8. 第一批任务包建议

本文只给出任务包候选,不直接进入工程设计。本表为首批子集(P0/P1 硬闭环 + 差异化主线优先),完整任务包集合分散在第四节闭环差距矩阵、第五节资产差距矩阵与第七节横向能力差距中(如 WP-P2-02/03、WP-P3-02/03、WP-P4-01/02/03 等在矩阵列出、尚未进入首批)。

任务包目标覆盖闭环产出物
WP-P0-01 数据视界运营工作台把控制台从工程菜单重组为运营人员可用的主工作台。P0运营角色任务流、工作台信息架构、状态总览、基础指标和证据入口。
WP-P0-02 来源与链路健康控制让运营人员能管理 source、观察健康度、处理失败和暂停 / 重试。P0 / P1 / P2来源状态模型、健康度指标、失败分类、重试 / 暂停动作。
WP-P0-03 复核 / 干预 / 输出控制闭环支撑关键事件、私域信号和高风险输出的人工复核与控制。P0 / P1 / P2复核队列、干预动作、输出阻断 / 放行、操作证据。
WP-P1-01 标准化事件与信号对象定义 AI Trading Matrix 可消费的事件 / 信号候选对象。P1标准化事件对象、信号候选对象、质量标记、追溯证据。
WP-P1-02 AI Trading Matrix 输出契约固化第一机器消费契约。P1输出对象、幂等、状态、失败补偿、回放、消费确认。
WP-P1-03 消费反馈与交付证据证明输出被消费,并让反馈回流来源、处理和资产质量判断。P1消费记录、反馈状态、低价值 / 失败 / 延迟证据。
WP-P2-01 私域来源与授权边界明确私域 / KOL 信息可接入、可处理、可输出的边界。P2授权记录、适用限制、来源类型、输出限制。
WP-P3-01 历史市场数据包评估先补证历史市场数据闭环是否具备工程基础。P3数据包清单、导入路径、质量样本、标准化需求。
WP-P2-04 私域职业信号资产化区分并资产化职业分析师 / 交易员的实时观点与交易信号,并把历史信号沉淀为可回测样本。P2(差异化主线)职业信号对象(实时 / 历史两形态)、来源职业属性、置信与复核标记、可回测样本结构。
WP-P1-04 突发事件资产把突发事件 / 事件驱动单列为优先资产,支撑 News-Trading / Event-Driven 消费。P1突发事件识别、时效标记、跨源互证、事件驱动输出契约。
WP-MACRO-01 宏观与政策系统化感知把已接入宏观 / 另类源从新闻流升级为系统化宏观感知。第一层宏观事件日历、分类、影响面、跨市场政策追踪。
WP-ALT-01 另类数据资产化(后置)评估卫星 / 海事 / 灾害 / 供应链等另类源资产化与事件关联。第三层·Later另类源清单、资产化路径、事件关联评估。
WP-SEC-01 凭证与配置迁移(工程债)把生产配置中的明文凭证迁出代码,硬编码配置外置;建立密钥管理与轮换基线。横向·安全(M0 前高优)凭证清单(config.railway.prod.yaml 4 处明文:JWT / Telegram BotToken / Google API Key / 代理凭证)、密钥管理方案、配置外置(env / secret)、迁移与验证步骤。承接 L3 §24 风险登记 + ADR-候选-10。
WP-TEST-01 主链路测试覆盖(工程债)为「采集 → 标准化 → 推送」主链路(internal/job + internal/standardize)补关键路径测试,建立回归基线。横向·质量(M0 前高优)主链路测试用例、关键路径(去重 0.95/1h、标准化失败置标记、push 幂等 / 重试)覆盖、回归基线与验收命令。承接 L3 §24 风险(主链路零测试)。

9. 进入实施方案前的核对清单

在拆正式实施方案前,需要完成以下核对:

核对项目的
Data Horizon 工程仓核对确认 source、standardization、push、Open API、console、execution evidence 的最新真实状态。
数据库 / 运行数据抽样确认当前对象、状态、失败、延迟、重复和推送记录不是只停留在代码层。
AI Trading Matrix 消费需求确认明确第一机器消费对象需要 event、signal、feed、alert 还是 evidence package。
运营人员工作流确认明确运营人员每天需要看什么、判断什么、能做什么干预动作。
私域 / KOL 边界确认明确可接入来源、授权、适用限制和输出限制。
AI Trading Matrix 两类策略需求确认明确 (1) 私域职业信号跟单 + 历史可回测沉淀、(2) 突发事件 / 事件驱动两类策略各自需要的资产形态、时效与消费契约。

10. 后续承接

本文完成后,后续工作建议按以下顺序推进:

  1. 进入 Data Horizon 第一阶段实施承接区,查看当前任务包索引、推进看板和第一优先级任务;
  2. DH-WP-001 Trading Matrix 信源候选与样本交付任务包设计 跑通第一条真实业务牵引闭环;
  3. 基于样板任务包经验,再下推其他 P0 / P1 任务包设计;
  4. 对每个任务包再做工程设计,包括 schema、API、状态机、页面、权限、任务调度、模型、测试和验收命令;
  5. system-product-definition.md 的五条最低验收标准做阶段复盘。

Changelog / 演化记录

2026-06-05:M0 工程就绪化承接——第八节首批任务包新增两条工程债 WP:WP-SEC-01 凭证与配置迁移(明文凭证迁出、密钥管理;承接 L3 §24 + ADR-候选-10)、WP-TEST-01 主链路测试覆盖(采集→标准化→推送零测试补齐;承接 L3 §24)。来源:governance/workstreams/data-horizon-doc-chain-review/(C 类工程债)→ data-horizon-m0-engineering-readiness/

2026-06-01:L2 下推对齐(B1–B4)——新增第三节「感知覆盖差距矩阵」(按重要性层级 + 按市场维度,用三源证据落「应感知 vs 现状覆盖」;原三–九节顺延为四–十节);闭环差距矩阵按差异化加权重述优先级(私域职业信号资产化提为与 P1 并列、P1 突出突发事件、P3 历史行情确认较低优先,保留 P0–P4 编号);任务包候选新增 WP-P2-04 私域职业信号资产化、WP-P1-04 突发事件资产、WP-MACRO-01 宏观与政策系统化、WP-ALT-01 另类数据资产化(后置);核对清单新增 AI Trading Matrix 两类策略需求。可溯源到战略白皮书第四节、系统 / 产品定义第三 / 五节与 governance/workstreams/data-horizon-l2-downstream-sync/

2026-05-26:将 DH-WP-001 承接入口调整为独立任务包目录,后续相关产出统一放在该目录下。 2026-05-26:补充后续承接路径,将任务包推进入口指向 implementation/ 子目录,并明确 DH-WP-001 作为第一条真实业务牵引闭环。

2026-05-26:创建第一版轻量差距分析与需求映射表,承接战略白皮书、现有系统与战略映射图、系统 / 产品定义,形成 P0 / P1 优先的任务包候选。