Data Horizon 现有系统与战略映射图

版本：2026-05-26 用途：为战略白皮书、system-product-definition.md、现实差距分析和逐项评估提供一份“当前真实能力映射图” 边界：本文不是产品定义、不是路线图、不是研发 current-state 报告，也不把当前实现视为目标形态

Data Horizon 现有系统与战略映射图总览

图 1：本文把已运行系统事实、战略白皮书和后续定义工作连接起来，作为事实校准层，而不是目标产品形态。

1. 文档定位

Data Horizon 在 FinTec AI Ecosystem 中的定位，是面向外部信息世界的感知层：持续采集市场、宏观、产业、社交和新闻信号，将结构化、半结构化和非结构化金融信息转化为可消费、可追踪、可分发的标准化信息资产，并向数据视界管理系统、FinBayes、AI Trading Matrix、Telegram、人类运营界面和机器接口供给。

本文只回答一个问题：

当前 Data Horizon 已经具备哪些可被战略和系统 / 产品定义复用的系统事实，以及哪些地方还只是工程实现、历史遗留或未经验证的假设。

因此，本文刻意不从代码文件、数据库表、任务名出发，而从系统能力、对象、边界、流程和评估问题出发。工程证据只放在附录中，用来校验事实来源。

2. 一句话结论

Data Horizon 当前已经不是一个单纯的“新闻爬虫”或“推送脚本”。它已经形成了一个可运行的感知管线雏形：

但它还没有自然长成一套完整产品定义。当前最适合被保留的是“感知管线、标准化能力、分发机制、运营控制面和机器接口”的系统骨架；最需要谨慎的是“把现有字段、旧文档链路或当前菜单直接上升为正式产品对象”。

3. 与战略白皮书的关系

战略白皮书应回答 Data Horizon 为什么存在、服务哪个生态位置、长期要成为什么。本文回答的是：当前工程事实能支撑白皮书里的哪些主张，哪些主张还缺证据。

Data Horizon 从现有事实到后续定义的承接关系

图 2：本文承接战略白皮书，并为系统 / 产品定义和逐项评估提供可校验的输入。

映射时建议遵守三条规则：

战略语言不能直接替代系统对象定义。
当前实现可以作为证据，但不能自动成为目标形态。
旧文档和历史任务记录只能作为来源线索，不能覆盖当前真实链路。

Data Horizon Step 0.5 到系统产品定义的承接关系

图 3：Step 0.5 的职责，是把战略、共识和工程事实校准为 system-product-definition.md 可使用的事实输入；它不直接冻结 API、schema、菜单或实施任务。

4. 当前系统边界

Data Horizon 当前可被理解为五层系统。这里的“五层”是从已运行链路观察当前系统，不等同于战略白皮书中的“五大能力域”。

Data Horizon 当前系统能力骨架

图 4：当前系统已经形成从信息接入、标准化、Agent 路由到交付分发的骨架；运营控制和运行证据是后续定义与评估的重要支撑。

当前最清晰的边界是：

层级	当前已有事实	不应过早声明
信息源层	已接入多类新闻、Telegram、RSS、宏观和市场相关来源	来源覆盖已经足够完整
采集与接入层	已有周期性采集和入库机制	所有采集器都稳定生产
标准化层	已有清洗、翻译、去重、LLM 辅助结构化能力	标准化质量已经达到产品级
决策与分发层	已有 Agent、订阅、直推和推送记录	已形成最终策略决策引擎
消费与反馈层	已有 Telegram、Webhook、Trading Matrix、Open API 和控制台面	已有完整闭环反馈和归因体系

4.1 与五大能力域的对应关系

战略白皮书中的五大能力域是能力地图，不是业务流、团队边界或部署边界。真实业务闭环可以跨多个能力域一体化完成。

战略能力域	当前事实组	对 Step 1 的定义问题
信息接入域	信息源层、采集与接入层、来源感知	哪些公开源、私域源、API / MCP / SDK、历史数据包应纳入第一阶段边界
信息处理域	标准化层、感知处理、Agent 与路由	哪些处理由规则完成，哪些由本地模型或通用大模型完成，哪些需要人工复核
信息资产域	Raw Signal、Perception Record、Operating Evidence	什么对象可以被称为金融感知资产，需要携带哪些证据、状态、质量和可检索属性
资产输出域	交付分发、机器接口、Delivery Artifact	第一阶段输出先服务谁，以什么契约输出，如何证明被消费和产生价值
运营管理域	数据视界管理系统、运行证据、配置与干预点	内部团队如何配置、观察、复核、干预、告警和控制输出

5. 系统能力地图

从当前实现观察，系统能力可以分成六组。这是“当前实现能力组”，不是战略能力域；它用于帮助五大能力域找到现有事实锚点。

这张图的含义不是“这些能力已经完美”，而是“这些能力已经有可被评估和复用的系统位置”。

能力组	当前可确认的含义	对 Step 1 的价值
来源感知	系统已经能把多类外部信息源纳入采集范围	帮助定义第一阶段要服务哪些信息域和来源边界
感知处理	系统已经具备从原始信息到标准化信息的处理链	帮助定义核心输出资产和质量要求
Agent 与路由	系统已经有按配置处理、订阅和分发的机制	帮助判断 Agent 是产品对象、处理单元还是内部路由能力
交付分发	系统已经能向人和下游系统输出结果并留下记录	帮助定义消费者、交付契约和第一阶段产品形态
数据视界管理系统	系统已经有人类可操作的管理界面雏形	帮助定义运营角色、内部工作流和人工干预点
机器接口	系统已经有面向机器消费的信息查询面	帮助定义 API/feed/search 等机器消费产品边界

6. 当前核心对象

为了后续系统 / 产品定义，建议先使用概念对象，而不是直接沿用当前工程命名。

概念对象	当前含义	后续定义重点
Source	信息来源、采集入口、KOL、RSS、API 或外部数据源	来源可靠性、覆盖范围、权限、成本、健康度
Raw Signal	未完成标准化的原始信息材料	原文、时间、来源、去重线索、采集上下文
Perception Record	已标准化的信息资产候选	摘要、分类、资产、语言、置信度、证据链
Agent	对信息进行转发、分析或筛选的处理单元	触发方式、可见性、订阅关系、输出责任
Delivery Artifact	面向人或机器的实际输出	目标、payload、状态、失败原因、重试策略
Consumer	下游消费方	Trading Matrix、Telegram、人类运营、Open API 客户端
Operating Evidence	系统运行证据	延迟、成本、错误、重复、执行记录、质量反馈

当前数据库和代码里已经能看到这些对象的雏形，但对象命名、字段边界和产品语义仍需要后续正式定义。

7. 当前主流程

当前真实主流程可以概括为四段。

7.1 进入系统

系统从多个外部渠道采集信息，形成原始材料。当前这个阶段已经有周期性任务和多种 source 类型，但仍需要评估真实运行覆盖、成功率、重复率和失败恢复能力。

7.2 变成可理解的信息

原始材料会被清洗、翻译、去重，并通过规则或 LLM 辅助提取分类、关键词、相关资产和摘要。这个阶段是 Data Horizon 最重要的“感知能力”雏形，也是后续最应该做质量评估的地方。

7.3 决定谁需要它

标准化后的信息会进入 Agent、订阅或直推逻辑。当前已经具备“转发”和“分析”两类处理方向，但它们更像处理路径雏形，还不应直接等同正式产品中的智能体体系。

7.4 交付给消费者

系统能够向 Telegram、Webhook、Trading Matrix 和 Open API 消费方输出信息，并记录推送状态、错误和耗时。这给后续 delivery contract、SLA、失败补偿和消费反馈提供了基础。

8. 子系统构成

8.1 Source Operations

负责把外部世界纳入系统可管理范围。它不仅是“爬虫”，还包括 source 注册、启停、分类、Topic/KOL 管理和后续 source reliability 的入口。

8.2 Perception Processing

负责把原始信息变成可消费的信息资产。它是 Data Horizon 区别于普通信息抓取系统的核心层，需要被正式定义为质量、证据、成本和可追踪性的综合能力。

8.3 Agent & Routing

负责决定信息如何被处理和送往哪里。当前已经有 Agent 和订阅/直推机制，但后续需要明确 Agent 是运营配置、分析能力、规则路由，还是更完整的产品对象。

8.4 Delivery Hub

负责输出给不同消费者，并留下交付证据。它是连接 Trading Matrix、Telegram 和外部 API 消费方的现实接口层。

8.5 Data Horizon / 数据视界管理系统

负责让人能配置、观察、复核、干预和控制输出。它是第一阶段最需要优先满足的内部产品形态，不只是普通后台页面集合。当前控制台能力已经覆盖多个管理面，但还需要按实际用户工作流重新组织，而不是简单继承工程菜单。

8.6 Machine Interface

负责让机器消费 Data Horizon 的标准化信息。当前接口可以作为候选，但正式系统 / 产品定义需要明确权限、幂等、分页、过滤、语义版本和消费契约。

8.7 Operating Evidence

负责支撑系统可信度。当前已经有错误、耗时、执行和推送记录，但还不足以支撑“感知质量”“来源可靠性”“下游价值贡献”等高阶判断。

9. 战略能力映射

战略能力	当前事实基础	当前不足	后续评估问题
市场感知	多源采集和标准化管线已经存在	覆盖范围、时效、稳定性未充分量化	哪些 source 构成最小有效感知网络
信息结构化	已有翻译、去重、分类、摘要、资产识别	质量、置信度、失败样本缺评估	什么才算一个合格 Perception Record
生态供给	已能向 TM、Telegram、Webhook、API 输出	消费契约和反馈闭环未固化	下游需要的是 feed、alert、signal 还是 evidence package
人机协同运营	控制台已有配置与观察能力	工作流未按角色重组	运营者每天真正要完成哪些判断和动作
Agent 化处理	已有转发和分析处理路径	Agent 语义偏工程配置	Agent 是产品角色、处理器、策略单元还是订阅规则
可追踪性	有执行、错误、耗时和推送记录	provenance 与质量证据不完整	输出应携带哪些可解释证据
RMF/反馈闭环	战略上需要与交易/风控反馈连接	当前证据不足	是否存在可回流的价值评估和归因数据

10. 第一阶段闭环事实映射

第一阶段不是从零建设，也不是把当前工程原样固化。它应围绕三类业务闭环校准已有基础、缺口和定义风险。

第一阶段闭环	当前事实基础	当前判断	对 `system-product-definition.md` 的影响
实时公开信息闭环	高频新闻 / RSS / TelegramRSS / 宏观与市场相关采集任务、标准化任务、分发任务、推送任务和 Open API 候选已经存在	当前事实基础最强，已经形成部分闭环；但覆盖、时效、去重、质量和反馈仍需量化	应定义公开金融信息资产、实时 / 准实时流、输出验证和运营复核方式
私域 / KOL 信息闭环	Telegram、KOL、Topic、source 管理、KOL source 查询和部分私域来源处理能力已有雏形	当前已有部分基础，优先级高；但来源授权、证据保留、低密度高价值信息筛选和复核机制需要补证	应定义私域金融信号资产、权限 / 合规边界、复核责任和输出控制
历史市场数据闭环	已有市场相关采集候选和部分宏观 / 市场数据接入痕迹	当前不能声明完整闭环；交易所历史数据包导入、清洗、标准化入库、检索复用仍需单独补证	应作为第一阶段补齐目标之一，而不是作为已经完成的能力来写

三类闭环都不应被拆成彼此割裂的实施域。五大能力域用于定义能力地图，真实业务闭环可以在一个工作流里同时经过信息接入、信息处理、信息资产、资产输出和运营管理。

11. 系统/产品定义映射

后续系统 / 产品定义不宜从“已有菜单”开始，而应从使用者、任务、资产和系统边界开始。第一阶段建议先形成 system-product-definition.md：它同时承接产品侧的消费者、场景、价值和系统侧的对象、能力域、运行边界。若后续需要更细拆分，再从该文档下推独立的产品定义或系统定义。

11.1 可能的使用者

使用者	可能任务	当前支撑情况
数据视界运营人员	配置来源、观察处理状态、复核异常、干预关键结果、控制输出规则	有管理系统雏形，但工作流需重组，是第一阶段最优先的内部产品面
FinBayes	消费标准化信息、证据材料、事件材料和情绪 / 研报材料，支撑金融认知	战略消费方明确，当前直接消费契约需要补证
Trading Matrix	消费结构化信息，辅助策略或风险判断	有交付链路，消费契约需要补清
研究/分析人员	查看高价值事件、追踪资产和主题	有信息查询面，分析体验不足
机器客户端	搜索、拉取、订阅标准化信息	有 Open API 候选，协议需正式定义
生态管理者	判断系统覆盖、质量、成本和贡献	有运行证据碎片，缺仪表盘和指标体系

11.2 产品对象候选

正式系统 / 产品定义可以围绕这些对象展开，而不是围绕当前数据库表或后台页面展开。

12. 系统定义映射

system-product-definition.md 中的系统定义部分建议重点回答以下问题：

主题	需要定义	当前底图给出的线索
系统边界	Data Horizon 负责到哪里，Trading Matrix 从哪里接手	当前有 TM 推送，但反馈边界不清
对象协议	Source、Signal、Record、Agent、Delivery 的正式含义	当前已有对应实现雏形
状态机	信息从进入系统到交付完成的状态变化	当前已有原始信息状态和推送状态
消费契约	下游如何拉取、订阅、确认、回放	当前有 API 和 push，但契约未冻结
质量口径	去重、分类、摘要、资产识别如何验收	当前有能力，但缺样本评估
运营控制	人能在哪些环节干预、回滚、禁用、复核	当前有控制台，但工作流未抽象
可观测性	如何看 source、任务、LLM、推送、成本、错误	当前证据分散，需要指标化

13. 当前错位与矫正方向

错位	表现	矫正方向
把 Data Horizon 写成旧式新闻标准化链路	旧文档仍保留过时任务和旧表述	用“感知管线”替代旧任务链描述
把工程实现当成产品对象	直接使用表名、任务名、菜单名定义系统	先抽象 Source、Signal、Record、Delivery 等对象
把已有推送等同生态供给	能发出去不等于形成下游契约	补定义消费协议、失败补偿、反馈闭环
把 Agent 当成已经成熟的智能体体系	当前 Agent 更像处理和路由配置	明确 Agent 的产品语义和职责层级
把控制台当成产品体验	现有页面偏工程管理	从角色任务重组运营工作流
把 LLM 输出当成标准化质量	有 LLM 处理不代表质量可靠	建立抽样、置信度、失败分类和人工复核机制

14. 后续逐项评估框架

建议后续每个能力都用同一组标签评估：

标签	含义
保留	当前事实符合战略方向，可进入系统 / 产品定义
挑战	方向可能正确，但质量、边界、成本或价值需要证明
重构候选	职责正确，但表达、对象或接口不适合长期使用
废弃候选	与当前真实链路或战略方向冲突
补证	需要运行数据、样本、日志、用户反馈或下游证据
迁移治理	应进入正式战略/产品知识库，而非只留在工程仓库

评估顺序建议：

15. 需要补证的关键问题

问题	为什么重要
当前哪些 source 真正在稳定运行	决定“市场感知覆盖”是否成立
标准化结果质量如何	决定是否能上升为 Perception Record
去重是否可靠	决定下游是否会被重复信息污染
Trading Matrix 如何消费这些信息	决定 Data Horizon 是否真的形成生态供给
Telegram / Webhook / API 消费者是谁	决定系统 / 产品定义中的用户和场景
Agent 输出是否有明确价值	决定 Agent 是否应成为核心产品对象
运营人员如何使用控制台	决定控制台是内部工具还是产品界面
错误、成本、延迟如何被观察	决定系统是否具备生产级可信度
是否存在反馈和归因闭环	决定 Data Horizon 是否能从 feed 系统升级为 RMF 感知层

16. 承接关系

本文完成 Step 0.5 的现有系统映射校准职责后，后续工作应按以下顺序推进：

用本文承接正式战略白皮书，识别当前已有事实、缺口和决策问题。
基于战略白皮书、已收束共识和本文重建 system-product-definition.md，定义消费者、场景、输出资产、产品形态、五大能力域和第一阶段边界。
基于 system-product-definition.md 和当前工程事实做现实差距分析，识别已有能力可承接、已有能力需矫正、空白能力需补齐。
对 source coverage、standardization quality、delivery contract、operator workflow、machine feed contract 分别做评估。
评估完成后再拆工程任务，避免让当前实现反向决定系统 / 产品形态。

进入 system-product-definition.md 前，本文应提供以下输入：

输入	本文应提供的状态
消费者与协同对象	数据视界运营人员、FinBayes、AI Trading Matrix、机器客户端和生态管理者的候选任务
三类业务闭环	实时公开信息、历史市场数据、私域 / KOL 信息的已有基础、缺口和优先级
五大能力域	信息接入、信息处理、信息资产、资产输出、运营管理与当前事实组的对应关系
管理系统优先级	数据视界管理系统作为第一阶段内部产品面，FinBayes / AI Trading Matrix 输出作为验证场景
暂不冻结项	API、SDK、MCP、schema、菜单结构、Agent 语义和工程任务包

附录 A：工程证据锚点

以下只作为事实校验入口，不作为正文叙述中心。

主题	证据入口
当前运行任务注册	`server/internal/job/cron_manager.go`
标准化处理	`server/internal/job/standardize_job.go`、`server/internal/standardize/standardize.go`
分发与 Agent 处理	`server/internal/job/raw_news_job.go`、`server/internal/agent/`
推送执行	`server/internal/job/push_message_job.go`
核心数据结构	`docs/sql/`
后台与 Open API	`server/api/`
控制台路由	`web/src/router/routes/modules/datahorizon.ts`
Python 采集候选	`python-service/`
旧链路漂移来源	`README.md`、`AGENTS.md`、`CLAUDE.md`、部分历史任务文档

Changelog / 演化记录

2026-05-26：认知层下游对象从 FinClaw 同步为 FinBayes，与生态对象注册表中 2026-05-24 完成的对象重命名对齐；生态自称由「Curvature 金融生态」校正为「FinTec AI Ecosystem」，与本仓统一术语一致；maturity 收敛为模板枚举 active。

1. 文档定位​

2. 一句话结论​

3. 与战略白皮书的关系​

4. 当前系统边界​

4.1 与五大能力域的对应关系​

5. 系统能力地图​

6. 当前核心对象​

7. 当前主流程​

7.1 进入系统​

7.2 变成可理解的信息​

7.3 决定谁需要它​

7.4 交付给消费者​

8. 子系统构成​

8.1 Source Operations​

8.2 Perception Processing​

8.3 Agent & Routing​

8.4 Delivery Hub​

8.5 Data Horizon / 数据视界管理系统​

8.6 Machine Interface​

8.7 Operating Evidence​

9. 战略能力映射​

10. 第一阶段闭环事实映射​

11. 系统/产品定义映射​

11.1 可能的使用者​

11.2 产品对象候选​

12. 系统定义映射​

13. 当前错位与矫正方向​

14. 后续逐项评估框架​

15. 需要补证的关键问题​

16. 承接关系​

附录 A：工程证据锚点​

Changelog / 演化记录​