Data Horizon / 数据视界 战略白皮书
Data Horizon / 数据视界 是 FinTec AI Ecosystem 在金融信息逻辑链路「感知 -> 认知 -> 执行」中的感知环节。
它负责对金融信息进行全方位感知、自动化标准化处理、资产化沉淀和对外输出。这里的感知不只是“抓新闻”,也不只是读取行情数据,而是把公开或私域、实时或历史、结构化或非结构化的金融信息,经过接入、处理、组织、溯源、质量判断和输出控制后,转化为可被人和系统持续消费的金融感知资产。
Data Horizon 既可以服务 FinTec AI 生态内部的认知、执行、反馈学习和模型能力建设,也具备独立作为金融信息系统、金融信息产品乃至商业化数据服务的潜力(对外产品 / 商业化形态属后续阶段方向,不牵引第一阶段)。
图 1:Data Horizon 位于外部金融信息世界与 FinBayes、AI Trading Matrix、RLE(Reinforcement Learning Engine,强化学习引擎)、FEFM(Financial Expert Foundation Model,金融专家基础模型)之间,核心产出是可被生态持续消费和反馈改进的金融感知资产。
0. 文档定位
本文是 Data Horizon 的项目级战略事实源,回答五个问题:
- Data Horizon 在 FinTec AI Ecosystem 中是什么;
- 它为什么在 AI 与金融信息结构变化的当下变得必要;
- 什么是金融感知资产;
- 第一阶段应如何基于已有系统继续推进;
- 后续系统 / 产品定义、参考评估和工程迭代应如何从本文下推。
本文重点放在战略层。系统 / 产品定义会承接消费者、核心场景、输出资产、产品 / 系统形态、能力域、对象模型、数据流、接口形态、运行结构和第一阶段边界;工程任务会承接具体 schema、API、页面、任务、模型、数据库和验收命令。
当前 Data Horizon 项目已经有早期系统和局部闭环在运行。本文不是从零设计新系统,也不是为旧系统背书,而是为已有系统提供新的战略坐标,并为 Step 1 的系统 / 产品定义讨论提供上位口径。
1. 一句话定义
Data Horizon 是 FinTec AI Ecosystem 感知环节中的金融感知资产生产与输出系统。
更完整地说:
Data Horizon 面向公开金融信息、私域 / KOL 信息和市场数据,把实时或历史、结构化或非结构化、标准或非标准的金融信息,组织成可追踪、可标准化、可检索、可复用、可复核、可输出的金融感知资产,并通过数据视界管理系统和生态内消费机制支撑人类团队、FinBayes、AI Trading Matrix 及后续外部产品形态。
“金融感知资产生产与输出系统”是本文的中文主表达。它比“新闻采集系统”更宽,因为 Data Horizon 不只处理新闻;它比“数据平台”更聚焦,因为它围绕金融信息的感知、资产化和输出;它也不是 FinBayes 或 AI Trading Matrix 的后台模块,而是具有独立系统价值和产品价值的感知层。
2. 为什么现在需要 Data Horizon
金融市场一直依赖信息,但信息优势正在变化。
过去很长一段时间,优势主要来自谁能更快获得结构化数据、谁有更好的行情终端、谁能更熟练地使用公开数据、谁能更早看到新闻和公告。价格、K 线、成交量、财务指标、宏观数据、交易数据仍然重要,但这些结构化信息越来越商品化、工具化,也越来越容易被复制和接入。
与此同时,真正影响金融理解和市场叙事的信息形态正在扩张。
新闻、公告、社媒、研报、访谈、政策文本、项目更新、链上叙事、社区讨论、图片、音视频、直播内容,以及由大模型生成、改写、摘要和传播的内容,都在更快进入金融场景。它们往往不是标准字段,不是单一来源,也不是天然可信。它们会重复、冲突、被截断、被误读、被情绪化传播,也会在不同语言、平台和时间窗口之间快速迁移。
这个变化不是结构化信息消失,而是金融信息优势的重心正在移动:
图 2:结构化数据仍然重要,但增量优势正在转向复杂、多源、实时、非标准化信息的持续感知、降噪、组织和资产化。
AI 进一步改变了这个局面。
一方面,AI 降低了人们获取和初步理解信息的门槛。更多人可以更快读懂新闻、翻译公告、总结研报、搜索历史材料。传统“信息差”被压缩。
另一方面,AI 也让金融信息场变得更复杂。信息生产、搬运、改写和扩散的速度更快,噪声更多,真假更难区分,人的注意力和团队处理能力反而更容易被耗尽。
新的优势不再只是“谁看到了信息”,而是:
谁能持续把复杂、多源、实时、非标准化的金融信息流,转化为可追踪、可标准化、可复用、可输出的金融感知资产。
这就是 Data Horizon 的战略位置。
Data Horizon 的差异化优势,在于持续产出别处难以自助获取的金融感知资产——私域职业分析师 / 交易员的策略观点与信号、突发事件的实时合成、跨源去重与印证、非标信息的资产化。对于第三方 API 可直接自助获取的商品化数据(如标准行情),Data Horizon 不以"重复路由"为优先,而是在需要时将其作为上下文纳入,把资源投向差异化、高价值、可追溯的感知资产。
3. Data Horizon 的系统使命
Data Horizon 的使命,是把金融世界中的信息输入转化为稳定、可消费、可协同的感知资产。
它面对的信息范围包括两大类。
| 信息类型 | 例子 | Data Horizon 的处理重点 |
|---|---|---|
| 结构化金融信息 | 价格、K 线、成交量、财务指标、宏观数据、链上数据、市场状态 | 接入、组织、时间化、与事件和主题建立上下文关系 |
| 非结构化 / 半结构化金融信息 | 新闻、公告、社媒、研报、访谈、政策、图片、音视频、AI 生成内容、社区讨论 | 监听、清洗、去重、抽取、标准化、溯源、质量判断和输出 |
Data Horizon 不放弃结构化信息。结构化市场数据仍然是金融理解的重要基础。
但 Data Horizon 最独特的战略增量,在于把传统系统难以稳定处理的非结构化和半结构化金融信息纳入同一条感知链路,并让它们能够与结构化市场数据形成上下文关系。
因此,Data Horizon 的核心动作可以概括为八件事:
- 采集:持续接入多市场、多来源、多语言、多格式的金融信息;
- 监听:对高价值来源、主题、资产、事件和异常变化保持持续关注;
- 清洗:去除噪声、格式污染、低价值重复和不可用内容;
- 去重:识别同一事件的多源转载、改写和重复传播;
- 标准化:把不同形态的信息转成可比较、可组织、可输出的对象;
- 组织:按时间、资产、实体、主题、事件、来源和消费场景重新编排;
- 溯源:保留来源、时间、原文、处理链路、授权和适用限制;
- 输出:向生态内系统、人类团队、外部客户或内容生产场景提供可消费的信息资产。
这套能力的目标不是让信息“更多”,而是让信息“能被持续使用”。
4. 信息范围与感知版图
一个金融感知层的首要问题,不是"现在能接多少源",而是:作为一个站在 AI 能力底座上的新一代金融感知系统,它应当感知整个金融世界的哪些信息、按什么重要度组织,才能持续产出可信、可复用的金融感知资产。
现行战略白皮书已经区分了结构化与非结构化信息,并给出公开、私域、市场数据三类核心资产。本节在此之上补一张成熟态感知版图:先以全金融市场、面向未来的尺度,按重要度设计"应当感知什么";再映射当前实践覆盖到哪;二者之差,构成 Data Horizon 从今天走向成熟态的演进路径与优先补全任务。
版图是成熟态愿景,不被第一阶段或现有实现裁剪。 它分三层展开:AI 时代的感知能力前沿 → 按重要度的完整感知版图 → 从成熟态映射现实与演进路径。
4.1 感知对象的三维坐标
任何一类金融信息,都可放在三个维度上描述(其中"结构化程度"是第三节"结构化 / 非结构化两大类"的细化展开,增设"半结构化"一档;第三节定义信息形态,本节给出全市场版图与优先级,二者互补):
| 维度 | 取值(面向全市场、可持续扩展) |
|---|---|
| 结构化程度 | 结构化 / 半结构化 / 非结构化 |
| 信息类型 | 快讯与新闻、公司公告与披露、监管与政策、研究与分析、社媒/KOL/社区、行情与市场数据、衍生品与期权数据、链上数据、宏观指标、另类数据(卫星/航运/供应链/舆情)、多模态(图片/音视频/直播)、AI 生成内容 |
| 市场与板块 | 加密(现货/合约/DeFi/链上)、美股、A股、港股及其他全球股市、宏观(利率/通胀/就业/央行/财政/地缘)、商品(能源/金属/农产)、外汇、债券与利率、衍生品 |
同一条信息往往同时落在三维上:如"某国央行利率决议"= 结构化+非结构化 × 监管/政策+宏观 × 跨市场。
4.2 AI 时代的感知能力前沿
传统信息系统的感知范围,受限于人力带宽与结构化数据的可得性。站在 AI 能力底座上,新一代金融感知系统的范围上限被重新定义——它应当具备这些过去做不到、或做不稳的感知能力:
- 把海量、多语种、多模态、非结构化信息纳入同一条实时感知链路并标准化;
- 跨源去重、跨源印证、事件聚合与时间线重建,而非让人重复阅读碎片;
- 从私域、KOL、另类数据中提取低密度但高价值的信号;
- 把结构化行情与非结构化叙事建立上下文关联(看到价格,也知道为什么);
- 对 AI 生成与传播的内容保持可追溯、可质量标记的感知;
- 让每一份资产持续可溯源、可复核、可复用。
这定义了感知版图的“应然上限”:不再由人力决定,而由 AI 能力底座与战略覆盖意愿决定。
需要界定一条边界:这里的“跨源印证、事件合成”属事实层聚合(把分散事实对齐、去重、关联成可追溯结构),不等于解释层结论(是否看多看空、风险判断、反证组织由 FinBayes 承接)——Data Horizon 合成事实,不代为认知。
4.3 按重要度的完整感知版图(成熟态,面向全市场)
哪些"信息类型 × 市场"组合,对一个完整成熟的金融感知系统更重要?用六个驱动衡量——市场影响力/叙事驱动力、时效价值、风险敏感度、下游消费需求、差异化与稀缺性、可获取性与成本——给出成熟态重要度分层(重要度分层为战略可调参数;本版按下表组织,后续可由项目负责人调整):
| 重要度层级 | 组合(信息类型 × 市场) | 主要理由 |
|---|---|---|
| 第一层 公因子 · 高影响 · 高差异化 | 跨市场宏观与政策(央行/利率/通胀/就业/财政/地缘);各主要市场的重大事件、公告与监管;实时突发事件/突发新闻;私域职业分析师/交易员的实时策略观点与交易信号(及其可回看历史) | 驱动跨市场叙事、时效与风险敏感度最高;且是下游正在消费、第三方难以自助获取的差异化信息 |
| 第二层 市场纵深 | 各主要市场(加密/美股/A股/港股…)的板块/个股层资讯、研究与分析;链上与另类数据;结构化行情底座(K线/盘口/成交,第三方 API 可自助获取,DH 不必优先重复路由) | 构成纵深;其中结构化行情差异化低,优先级随"是否第三方可自助"下调 |
| 第三层 长尾与精细 | 细分衍生品/期权、长尾市场、低频另类数据、深度多模态(直播/音视频) | 完整性所需,按价值与成本逐步纳入 |
这是成熟态的应然设计,覆盖加密、股票(美/A/港)、宏观、商品、外汇、债券、衍生品等全市场——不以第一阶段为限。
下游消费需求的具体牵引(示例):生态内 Trading Matrix 正在开发两类策略,直接拉高相应数据的优先级——
- 跟单策略 + 策略沉淀:基于 Data Horizon 已有的私域职业分析师/职业交易员的实时策略观点与交易信号做跟单;并对其历史信号做学习/模仿/回测,筛选沉淀进核心策略库。
- News Trading / 事件驱动策略:基于 Data Horizon 的实时突发事件/突发新闻(辅以第三方源)。
因此 Data Horizon 应优先把这两类差异化、第三方难以自助获取的信息,做成可实时消费、且可回看/可回测的感知资产——这正体现"差异化稀缺性 + 下游消费需求"两个重要度驱动。(Data Horizon 只负责把信号与事件做成可信、可回测的资产;是否形成策略、跟单与执行由 Trading Matrix 承接。)
4.4 从成熟态映射现实:当前覆盖、第一阶段切入、演进缺口
成熟态版图是目标。把当前实践(以代码库、生产库与现有系统映射为事实源)映射上去,得到现实坐标与演进路径:
| 感知对象 | 当前覆盖 | 概述 |
|---|---|---|
| 加密 快讯/新闻、KOL/社交/私域 | 🟩 强 | 多源高量;私域差异化资产;人类分发已验证闭环 |
| 宏观、美股 | 🟨 部分 | 已接入若干源,未系统化、深度有限 |
| 监管/公告、链上 | 🟧 弱-散 | 零散,未成体系 |
| 结构化行情(K线/盘口/成交) | 🟥 空白 | 无结构化存储;K线仅在图像分析中被"读图" |
| A股/港股/商品/外汇/债券/衍生品 | 🟥 基本空白 | 未接入 |
| 语言结构 | — | 以中文为主,英文为辅 |
由此得到三件事:
- 当前重心:落在「加密 + 中文 + KOL/社交」,是已验证可闭环的一块,但只覆盖成熟态版图的一角。
- 第一阶段切入(路径起点,非边界):在现有强项(私域/KOL 已 🟩 强)上做最高杠杆的事——把私域职业分析师/交易员的策略观点与信号从"消息流"升级为可实时消费 + 可回看/可回测的感知资产(直接服务 Trading Matrix 的跟单与策略沉淀),并补实时突发事件/突发新闻资产(服务事件驱动策略)与宏观系统化。结构化行情底座因第三方可自助获取,不占第一阶段 P0/P1 主线(它仍在第一阶段定义内——见第八节之二"历史市场数据闭环"——只是优先级低于差异化资产)。
- 演进缺口 = 任务:成熟态版图减去当前覆盖,按"重要度 × 杠杆 × 差异化"排序,得 Data Horizon 走向成熟态的工程化任务序列(向下喂给缺口分析与实施工作包):私域职业信号资产化(实时 + 历史/可回测)→ 突发事件/新闻实时资产 → 宏观系统化 → 监管/公告与链上 → 各市场纵深(美/A/港)→ 商品/外汇/债券/衍生品 → 结构化行情底座(按需,第三方可自助、优先级低)→ 深度多模态。
三套视角的对应(贯穿第四–六节):感知对象(本节:结构化度 × 类型 × 市场,回答“感知什么”)经能力域(第六节:接入 → 处理 → 资产 → 输出 → 运营,回答“如何处理”)沉淀为资产类型(第五节:公开 / 私域 / 市场数据,回答“产出什么”)——三者是同一条感知链路的不同切面:
| 资产类型(第五节) | 典型感知对象(本节) | 能力侧重(第六节) |
|---|---|---|
| 公开金融信息资产 | 新闻 / 公告 / 监管 / 宏观(非结构化为主) | 接入 → 处理(清洗 / 标准化)→ 资产 → 输出 |
| 私域金融信号资产 | 私域职业分析师 / 交易员信号、KOL | 接入(授权)→ 处理(解析 / 证据保留)→ 资产 → 输出 |
| 市场数据资产 | 行情 / K线 / 盘口(结构化为主) | 接入 → 组织 / 时间化 → 资产 |
4.5 写作纪律边界
- 本节定义成熟态应当感知什么、按什么重要度、当前覆盖到哪、如何演进(战略层版图)。
- 成熟态版图面向当前与未来全金融市场;第一阶段只是路径起点,不是版图与能力的边界。
- 不下沉到具体来源清单、采集器、字段或接口(属系统/产品定义 L2 与工程 L3)。
- 重要度分层是战略可调参数;当前覆盖以事实源为准、随现实演进维护。
5. 核心输出:金融感知资产
Data Horizon 的上位输出不是单纯数据,也不是普通资讯,更不是直接交易动作。
它生产的是金融感知资产。
金融感知资产是经过感知、清洗、去重、标准化、组织和溯源后的金融信息对象。它可以被人阅读,可以被系统消费,可以被下游认知层引用,可以被执行支持层作为输入,也可以在未来形成数据服务、资讯产品、语料资产或内容素材。
它的生产链路可以概括为:
图 3:Data Horizon 的核心转化,是把原始金融信息输入变成带来源、质量、状态、证据和输出记录的金融感知资产。
这个概念分三层理解。
5.1 底层信息资产
底层信息资产包括:
- 原始信息记录;
- 标准化信息记录;
- 事件材料;
- 情绪材料;
- 数据材料;
- 研报和公告材料;
- 来源与证据材料;
- 质量和溯源链路元数据;
- 历史信息包和主题资料包;
- 可供训练、评估和反馈分析的语义语料。
这些资产可以来自公开信息,也可以来自合法授权的私域信息;可以是实时输入,也可以是历史沉淀。
从第一阶段系统 / 产品定义看,Data Horizon 至少需要沉淀三类核心资产:
| 资产类型 | 覆盖范围 | 说明 |
|---|---|---|
| 公开金融信息资产 | 新闻、快讯、公告、政策、宏观指标、公开数据、社媒公开内容 | 可以处在实时、准实时或历史沉淀状态。 |
| 私域金融信号资产 | KOL / KOC、私域频道、半公开来源中的观点、线索、情绪、风险提示和交易相关信号 | 重点不是简单转存内容,而是保留观点、证据、状态和后续反馈。 |
| 市场数据资产 | K 线、成交、订单簿、交易量、行情快照、交易所历史数据包 | 第一阶段以历史数据包闭环为基础,同时保留向实时市场数据扩展的边界。 |
“实时 / 历史”不是资产类型本身,而是资产的时效状态。同一类资产可以在发生时进入实时流,也可以在处理和沉淀后成为可检索、可复用的历史资产。
无论哪类资产,作为“可信感知资产”都应具备一组必含维度(此处只立维度,字段与结构由系统 / 产品定义承接):来源、双时间戳(原始发布时间 / 系统入库时间)、原文与处理链路证据、质量标记、处理 / 消费状态、授权与适用限制、下游反馈。
5.2 生态内消费形态
Data Horizon 在 FinTec AI 生态内不是孤立系统。它向不同对象提供不同形态的感知资产。
| 消费方 | Data Horizon 可提供什么 |
|---|---|
| FinBayes | 面向金融认知的标准化信息来源、情报材料、事件材料、数据材料、情绪材料、研报材料和可追溯证据材料 |
| AI Trading Matrix | 面向交易决策与执行流程的情报输入、事件输入、市场状态变化和交易信号候选 |
| Reinforcement Learning Engine | 面向强化学习的事件样本、结果回看材料、质量标签、误报 / 漏报 / 延迟案例和反馈学习材料 |
| Financial Expert Foundation Model | 面向金融专家大模型预训练、中训练、后训练和评估的金融语义语料、结构化事件语料和任务样本 |
每类输出都应带最小消费契约:粒度(原始 / 标准化事件 / 信号候选 / 数据集)、时效(实时流 / 准实时 / 历史)、以及是否携带来源证据与质量标记——使下游能按契约稳定消费(具体契约形态由系统 / 产品定义承接)。
这些输出在不同消费方那里会被继续解释、判断、执行或学习。Data Horizon 的职责是把上游信息变成可靠输入,而不是替所有下游系统完成它们自己的工作。
5.3 生态外产品形态
Data Horizon 也可以独立面向生态外运作。
它的外部产品形态可以包括:
- 面向 To B 的非标金融数据、情报、另类数据和信息资产服务;
- 面向 To C 的 AI Native 金融资讯、监控、追踪和解释平台;
- 面向虚拟金融 KOL 或内容团队的素材、选题、事件追踪和内容输出系统;
- 面向研究、训练或评估的数据包和金融语义语料服务。
这些形态不要求当前阶段一次性全部建设,但它们说明 Data Horizon 不是某个下游产品的后台模块。它本身具有系统价值、产品价值和商业化潜力。
6. 战略能力版图
Data Horizon 的能力不应从“有几个采集器”“用了什么模型”“接了哪个数据库”来定义,而应从它要生产什么金融感知资产来定义。
能力版图应围绕“金融感知资产”展开:
简言之:第五节定义产出什么(金融感知资产),第六节定义如何产出(五大能力域)。能力是动词、资产是名词;五大能力域都围绕第五节的金融感知资产组织,而不是反过来由"有几个采集器、用了什么模型"来定义。
图 4:Data Horizon 的五大域是能力地图,不是业务流、团队、部署或实施边界。真实闭环可以跨多个能力域一体化完成。
6.1 信息接入
信息接入域回答“金融信息如何进入 Data Horizon”。它覆盖多种来源和形态:
- 金融新闻、财经媒体、快讯和 RSS;
- 上市公司公告、监管披露、政策文本和宏观材料;
- 社媒、KOL、社区讨论和项目更新;
- API、MCP、SDK 或数据包提供的结构化 / 非结构化金融信息;
- 私域频道、KOL / KOC、研究材料和未来合法授权的信息来源;
- 价格、成交量、K 线、订单簿、链上数据、市场状态等市场数据。
覆盖不是盲目追求“越多越好”。有价值的覆盖必须同时考虑来源质量、授权边界、延迟、重复度、处理成本和消费场景。
覆盖优先级也应向差异化、第三方难以自助获取的信息倾斜。
6.2 信息处理
Data Horizon 的战略难点,是把结构化数据和非结构化信息放入同一套感知逻辑。
结构化数据可以告诉团队市场发生了什么变化。非结构化信息可以解释变化背后的事件、叙事、预期和冲突。两者分离时,团队容易看到价格但不知道原因,或看到消息但无法判断它与市场状态的关系。
标准化是 Data Horizon 从“信息搬运”走向“信息资产生产”的关键。
标准化不只是摘要,也不只是翻译。它包括:
- 统一来源和时间语义;
- 抽取资产、实体、主题、事件和关键词;
- 形成可比较的信息对象;
- 标记语言、市场、来源和处理方式;
- 保留原始材料和处理链路;
- 为不同输出场景准备可消费形态。
没有标准化,Data Horizon 只是更快的资讯入口。有了标准化,Data Horizon 才能成为生态内外可复用的信息基础设施。
金融信息往往不是一条条孤立出现的。
同一个事件会被不同媒体、社媒账号、研究员、项目方和 AI 工具反复表达;同一个主题会在数小时、数天甚至数月内不断演化;同一个资产会被不同叙事同时影响。
Data Horizon 需要识别重复、聚合相关材料、保留重要差异,并把信息组织成事件、主题、资产、实体和时间线,而不是让团队不断重复阅读碎片。
6.3 信息资产
信息资产域回答“处理后的金融信息如何沉淀、检索、复用和追踪”。
它不只是保存标准化结果,也要保存原始证据、来源、处理状态、质量判断、版本、使用限制、输出记录和下游反馈。公开金融信息资产、私域金融信号资产和市场数据资产都需要同时支持实时流、批量导入、历史沉淀、检索复用等状态。
金融信息不能只追求速度。
Data Horizon 必须让消费方知道:
- 信息来自哪里;
- 原始发布时间和系统入库时间是什么;
- 是否有更原始来源;
- 是否重复、过时、缺失或低可信;
- 是否适合继续传播或对外输出;
- 是否有授权、隐私或合规限制;
- 经过了什么自动化或人工处理。
质量和溯源不是附加能力,而是 Data Horizon 能否成为可信信息系统的底线。
实时能力用于捕捉突发事件、市场状态变化、新闻更新和社媒传播。历史能力用于追踪事件演化、回看来源质量、构建语料、支持研究、评估误报漏报和形成数据服务。只有实时没有历史,Data Horizon 容易退化成推送系统;只有历史没有实时,它又无法承担感知层职责。
6.4 资产输出
Data Horizon 的输出不应被限制在单一页面或单一接口。
它可以通过数据视界管理系统、Feed、API、MCP、Webhook、CLI、SDK、数据包、语料包、报告、内容素材和未来更多接口形态输出。不同消费方需要不同颗粒度和不同表达方式。
战略重点不是现在冻结某个接口,而是确认 Data Horizon 需要具备“面向多消费方输出金融感知资产”的能力。
第一阶段的资产输出优先服务内部运营控制面,并通过 FinBayes 与 AI Trading Matrix 的具体场景验证生态内可消费性。外部开放式 API / SDK 平台可以作为后续演进方向,但不牵引第一阶段战略实践。
6.5 运营管理
运营管理域是横向控制面,不是普通后台页面集合。它回答“内部团队如何确认系统真实可运行、可观察、可复核、可干预、可输出”。
Data Horizon / 数据视界管理系统应优先支撑以下能力:信息接入可配置、处理流程可观察、金融信息资产可查看和追踪、异常与关键结果可复核 / 可干预、资产输出可控制。这些能力不等同于最终菜单结构或页面划分,后续产品设计应围绕真实业务闭环和内部运营任务组织。
6.6 横向约束:成本与质量路径
成本与质量路径不是第六个能力域,而是贯穿五大能力域的横向约束。Data Horizon 是高频、持续、长期运行的系统,不能默认所有信息都进入最昂贵的 AI 处理链路。
不同信息应走不同处理路径:
- 低价值、高重复信息可以通过规则、过滤和轻量处理;
- 高价值、复杂或高风险信息可以使用更强模型或人工复核;
- 结构化来源可以优先使用解析器和规则;
- 可复用结果应缓存和沉淀;
- 质量不确定的信息应标记限制,而不是强行包装成确定判断。
成本控制不是后置优化,而是 Data Horizon 能否持续运行和商业化的战略前提。
7. 生态内协同关系
Data Horizon 位于 FinTec AI Ecosystem 的感知环节,但它不是孤岛。它向下游提供感知资产,也从下游获得反馈和改进信号。
本文开头的生态位置图表达两层关系:上行是 Data Horizon 把外部金融信息转成可消费的金融感知资产;下行是 FinBayes、AI Trading Matrix、RLE 和 FEFM 把使用结果、质量判断、错误案例、延迟、噪声和成本信号反馈给感知层。
这种反馈回流不是为了增加管理复杂度,而是为了让 Data Horizon 知道哪些来源更可靠、哪些处理路径更有效、哪些输出真的被使用、哪些资产应被降权、修正或停止输出。
7.1 与 FinBayes
FinBayes 需要把信息转成金融认知。Data Horizon 为它提供标准化、去噪、可追溯的金融信息来源和证据材料。
这种协同关系的重点不是把 Data Horizon 写成 FinBayes 的后台摘要模块,而是让 FinBayes 在形成认知前拥有更稳定的上游材料。FinBayes 可以使用 Data Horizon 的新闻、情报、事件、数据、情绪、研报和证据材料,但金融解释、风险分析、反证组织和任务推理仍由 FinBayes 承接。
7.2 与 AI Trading Matrix
AI Trading Matrix 面向交易决策与执行流程。Data Horizon 可以为它提供情报输入、事件输入、市场状态变化和交易信号候选。
这里的“交易信号候选”不是交易动作。Data Horizon 可以说明某个事件、数据变化或信息组合值得进入交易决策流程,但是否形成策略、是否触发执行、如何授权、如何风控和如何审计,属于 AI Trading Matrix 的职责。
需区分两类“信号”:一类是 Data Horizon 从事件、数据或信息组合中提示“值得进入交易决策流程”的信号候选;另一类是 Data Horizon 采集并资产化的他人(私域职业分析师 / 交易员)的策略观点与交易信号——后者 Data Horizon 只做忠实采集、标准化与可回测资产化,不代为判断其对错。两者都不是交易动作,是否进入策略与执行由 AI Trading Matrix 承接。
7.3 与 Reinforcement Learning Engine
Reinforcement Learning Engine 需要从真实结果、错误、案例和反馈中学习。Data Horizon 可以提供事件样本、结果回看材料、质量标签、误报 / 漏报 / 延迟案例和反馈学习材料。
这些材料能帮助生态理解:哪些来源更可靠,哪些类型的信息容易误报,哪些处理路径成本过高,哪些输出对下游更有用。
7.4 与 Financial Expert Foundation Model
Financial Expert Foundation Model 需要高质量金融语义材料和任务样本。Data Horizon 可以为预训练、中训练、后训练和评估提供金融语义语料、结构化事件语料和任务样本。
这不意味着 Data Horizon 自己就是模型训练系统。它的价值在于生产和沉淀高质量、可追溯、可治理的金融信息材料,让模型能力建设有更可靠的输入。
8. 第一阶段战略实践
Data Horizon 不是从零开始。
我们已经有一套早期系统在持续运行,覆盖了部分采集、标准化、推送、Open API 和控制台能力。新版战略白皮书的任务不是为旧系统背书,也不是把旧系统的表结构、接口和推送方式直接升级为正式系统 / 产品定义。
当前阶段的任务,是在已有系统基础上,把 Data Horizon 从“新闻采集 / 标准化 / 推送 / 下游供血”的工程表达,校正为“金融感知资产生产与输出系统”的战略表达,并形成可运营、可复核、可输出的业务闭环。
第一阶段应优先跑通三类业务闭环——但三者并非同级,需分清主线与底座:第一阶段的优先主线是把已具差异化优势的能力做成资产——私域职业信号资产化(实时策略观点 / 交易信号 + 可回看可回测历史)、突发事件 / 事件驱动资产、以及数据视界管理控制面;历史市场数据闭环是基础资产底座,按需补齐、不与主线同级争资源(详见第四节感知版图的重要度分层与演进序列)。
图 5:第一阶段围绕实时公开信息、历史市场数据、私域 / KOL 信息三类闭环建设,并以数据视界管理系统作为优先控制面。
8.1 实时公开信息闭环
实时公开信息闭环覆盖新闻、快讯、公告、政策、指标、公开数据和公开社媒等金融信息。它应从接入、处理、标准化、资产沉淀到输出验证形成完整链路。
这一闭环优先级高,因为它直接承接当前已有系统的实时信息基础,也直接服务 FinBayes、AI Trading Matrix 和内部运营团队对实时金融信息的协同需求。其中应进一步区分普通公开资讯与突发事件 / 事件驱动资产:后者(突发新闻、重大事件)时效最强、对下游事件驱动策略价值最高,是本闭环的优先内核;常规公开资讯作为底层覆盖。
8.2 历史市场数据闭环
历史市场数据闭环覆盖交易所历史数据包、K 线、成交、订单簿、交易量和行情快照等市场数据。第一阶段重点不是把所有市场数据能力一次性做完,而是让关键市场数据能够导入、清洗、标准化入库、检索和复用。
这一闭环是基础资产闭环。它让 Data Horizon 不只处理文本信息流,也能补齐金融数据资产底座,并为后续研究、验证、回测、策略评估和生态输出提供可复用材料。需要说明:历史市场数据是基础底座、非第一阶段 P0/P1 主线,优先级低于差异化感知资产(私域职业信号、突发事件资产);其中标准行情第三方 API 可自助获取,Data Horizon 以按需纳入为主、不优先重复路由(与第四节口径一致)。
8.3 私域 / KOL 信息闭环
私域 / KOL 信息闭环覆盖私域频道、KOL / KOC、半公开社区和高价值非标准来源中的观点、线索、情绪、风险提示和交易相关信号。
这一闭环优先级高,因为它体现 Data Horizon 的差异化价值:不是简单复制公开新闻,而是把非标准、低密度但高价值的信息,通过获取、解析、复核、证据保留、资产沉淀和输出控制,转化为可使用的金融信号资产。本阶段这一闭环的最高杠杆动作,是把私域职业分析师 / 交易员的实时策略观点与交易信号升级为可实时消费、且可回看 / 可回测的信号资产(直接服务 Trading Matrix 的跟单与策略沉淀),并保留其历史以支撑学习与回测——这是第一阶段的优先内核(详见第四节之四的演进序列)。
由于私域 / KOL 信号是最高优先的差异化资产,其获取与使用须在合法授权与合规边界内进行;授权状态与适用限制作为资产的一等元数据随资产保留。
8.4 数据视界管理系统优先
第一阶段最先需要被满足的内部产品形态,是 Data Horizon / 数据视界管理系统。
如果内部团队无法稳定配置来源、观察处理状态、查看资产、复核异常、干预关键结果、控制输出规则并看到下游消费反馈,Data Horizon 就无法证明自己是可运营的金融感知资产系统。给 FinBayes 和 AI Trading Matrix 的输出,是资产输出域第一阶段的关键验证场景;但这些输出能力需要建立在内部全链路可观察、可复核、可干预的基础上。
8.5 第一阶段核心基础产物
第一阶段真正需要产出的不是单份文档、单个接口或单个采集器,而是一组能持续运行和持续沉淀的基础产物。
| 产物 | 含义 |
|---|---|
| 数据视界管理系统 | 能支撑配置、观察、复核、干预、告警和输出控制的内部运营控制面。 |
| 三类业务闭环 | 实时公开信息、历史市场数据、私域 / KOL 信息都能形成可运行、可沉淀、可复用的链路。 |
| 三类金融信息资产 | 公开金融信息资产、私域金融信号资产、市场数据资产具备证据、状态、质量和检索能力。 |
| 资产输出机制 | 能先满足内部管理系统,并通过 FinBayes、AI Trading Matrix 验证生态内可消费性。 |
| 反馈改进能力 | 能把使用结果、质量判断、误报漏报、延迟、成本和下游价值信号回流到感知质量改进中。 |
8.6 已实现能力的复用与重构判别原则
面对已经在运行的早期系统,团队对每一项已实现能力用同一把尺子判别,避免两极:
- 保留 / 夯实:符合成熟态战略方向与金融感知资产定位、质量与边界达标 → 保留并夯实;
- 矫正:职责方向正确,但表达、对象命名或接口不适合长期 → 保留能力、校正表达 / 对象 / 接口;
- 重构 / 废弃:与战略方向或感知资产定位冲突 → 重构或废弃;
- 补证:价值或质量尚不确定 → 先用运行数据 / 样本补证,再决定归档。
这把尺子与 Data Horizon 现有系统与战略映射(system-fact-map)的逐项评估标签一致,在战略层只立原则;具体逐项结论由系统 / 产品定义与缺口分析展开。
9. 长期演进方向
Data Horizon 的长期方向不是做一个更大的爬虫系统,也不是做一个更快的资讯页面。
它可以沿五个层级演进。
9.1 内部生态感知层
首先,Data Horizon 应成为 FinTec AI 生态内部稳定的感知层,为认知、执行、学习和模型层提供上游信息资产。
9.2 金融感知资产生产系统
其次,它应从“信息处理系统”升级为“金融感知资产生产系统”,让原始信息、标准化结果、事件材料、证据材料、质量元数据和历史语料都能持续沉淀。
9.3 独立金融信息产品
当内部消费和质量机制稳定后,Data Horizon 可以形成独立信息产品,服务人类用户、研究团队、内容团队或机构客户。
9.4 金融数据服务与语料基础设施
再往后,它可以成为金融非标数据服务、金融语义语料、结构化事件数据、评估样本和反馈资产的基础设施。
9.5 可持续商业化的信息基础设施
最终,Data Horizon 的壁垒不只是信息源数量,而是持续把复杂金融信息流转化为可信、可追溯、可复用金融感知资产的能力。这种能力可以支撑生态协同,也可以支撑独立商业化。
10. 职责分工与战略边界
Data Horizon 在生态内与 FinBayes、AI Trading Matrix、FEFM 各守其位、清晰分工。以下明确各自的承接关系——既是分工,也是避免角色坍缩的边界。
10.1 金融认知由 FinBayes 承接
Data Horizon 可以提供新闻、情报、数据、情绪、研报和证据材料,但不负责输出最终金融研究结论、投资判断、风险解释或反证分析。
这些能力由 FinBayes 承接。
10.2 交易执行由 AI Trading Matrix 承接
Data Horizon 可以提供面向交易决策与执行流程的情报输入、事件输入、市场状态变化和交易信号候选,但不直接决定交易动作,不触发真实账户、订单、资金或合约操作。
交易策略、授权、风控、审计和执行支持属于 AI Trading Matrix。
10.3 信号候选经下游决策流程方进入执行
金融信息可能影响交易,但“值得进入交易决策流程的信息”不等于“应当执行的交易”。
Data Horizon 可以产生信号候选或事件输入,但它们必须经过认知、策略、风控和授权流程后,才可能进入执行域。
10.4 模型训练与治理由 FEFM 承接
Data Horizon 可以为 Financial Expert Foundation Model 提供金融语义语料、结构化事件语料和任务样本,但它不替代模型训练、模型评估或模型治理系统。
它的职责是生产高质量、可追溯、可治理的上游材料。
10.5 战略定义优先于旧系统
已有早期系统是重要实践资产,但它不是最终战略定义。
旧系统中有效的能力应被保留和夯实;不匹配新战略定位的表达、对象、接口和流程,应在后续系统 / 产品定义和工程迭代中被校正。
11. 团队如何判断第一阶段做成了
Data Horizon 第一阶段战略成立的标志,不是文档数量增加,也不是单个采集器、接口或页面完成,而是团队能持续回答以下问题:
- 哪些公开信息、私域 / KOL 信息和市场数据正在进入系统;
- 哪些信息已经被标准化、资产化、沉淀为可检索对象;
- 哪些资产带有原始证据、来源、时间、状态、质量和处理链路;
- 哪些异常、低置信度或高价值信息需要人工复核和干预;
- 哪些资产正在输出给数据视界管理系统、FinBayes、AI Trading Matrix 或内部工具;
- 哪些输出被下游实际使用,哪些被判定为噪声、延迟、误报或低价值;
- 系统是否越来越能稳定生产、管理、复用和输出金融感知资产。
如果这些问题能被系统化回答,Data Horizon 就不只是资讯抓取或下游供血工具,而是 FinTec AI Ecosystem 感知环节中真正可复利的金融感知资产系统。
12. 下推关系
本文确认 Data Horizon 的战略方向。后续工作应按以下顺序承接:
图 6:战略白皮书固定方向,定义基线承接共识,系统 / 产品定义先合并展开用户、场景、对象、能力域和运行结构;后续如有必要再拆分产品定义或系统定义。
系统 / 产品定义应先回答谁使用、使用什么、获得什么价值,以及能力边界、对象模型、数据流、接口形态和运行结构。
Data Horizon 现有系统与战略映射图、Data Horizon 代码仓库和 Data Horizon 数据库可以作为事实校准来源。它们用于确认已有能力可承接、已有能力需矫正、空白能力需补齐,不直接替代系统 / 产品定义。
第三方参考评估应挑战 Data Horizon 在信息覆盖、标准化、质量溯源、接口输出、工作流和商业化上的假设。
工程重构与迭代任务应基于已有系统,不从零设计,也不盲目维护旧路径,而是围绕“金融感知资产生产与输出系统”进行对齐、夯实和演进。
为减少下游各自发挥,下游每类文档应至少回答以下问题:
- 产品定义:服务对象是谁(内部团队 / FinBayes / AI Trading Matrix / ToB / ToC / 内容方)?核心场景与任务?交付哪些资产与形态?消费契约与价值?第一阶段边界?
- 系统定义:核心对象与状态机?资产生命周期与质量 / 溯源维度?数据流与消费契约?各能力域运行边界?反馈如何回流?
- 技术架构:实时 / 批量边界与延迟等级?存储分层与证据不可变?权限 / 授权 / 合规边界?成本-质量分层落点?输出通道与优先级?
Changelog / 演化记录
2026-06-01(轻矫正批次 2):第十节由“5 个不…”集中护栏正向化为「职责分工与战略边界」(各守其位 / 由 X 承接,内容不缩减);SVG 图注 FinClaw→FinBayes 重绘完成(ecosystem-sensing-role / sensing-asset-pipeline / stage-one-practice-loop)。
2026-06-01(评审矫正):据完整白皮书双路独立评审(CC + Codex)做局部矫正——第一阶段分清主线(私域职业信号资产化 / 突发事件资产 / 管理控制面)与底座(历史市场数据按需补齐),统一第八节与第四节行情口径;第八节之一突发事件列为优先内核;第八节之三突出私域职业信号“可回看 / 可回测资产化”最高杠杆并补授权合规;第七节之二区分“采集的他人信号”与“自产信号候选”;引言弱化对外商业化措辞;补消费方最小契约(第五节之二)、资产对象必含维度(第五节之一)、三套视角映射表(第四节)、下游必答问题模板(第十二节)、事实层聚合 vs 解释层结论边界(第四节之二)。覆盖完整性:原各节论点全部保留;SVG 图注 FinClaw→FinBayes 重绘登记为独立任务。
2026-06-01:新增“信息范围与感知版图”节(成熟态全市场感知版图 + AI 能力前沿 + Trading Matrix 两类策略牵引 + 差异化价值原则),原第四–十一节顺延为第五–十二节;补"复用 vs 重构判别原则"(第八节)与"能力产出资产"衔接(第六节)。依据 ADR-001/002/003/004(第三节为信息形态定义、第四节为全市场版图与优先级,二者互补无重复)。覆盖完整性:原各节核心论点全部保留。
2026-05-26:将认知层下游对象从 FinClaw 全文同步为 FinBayes,与 生态对象注册表 和 当前生态基线 中 2026-05-24 完成的对象重命名对齐;maturity 收敛为模板枚举 active。SVG 图注中的 FinClaw 标签暂未同步,待后续 svg 重绘单独处理。
2026-05-23:将后续定义承接口径校正为先形成 system-product-definition.md,并明确成本与质量路径是贯穿五大能力域的横向约束,不是第六个能力域。
2026-05-22:参考 AI Trading Matrix 战略白皮书和大白话版,补充文档定位、一句话定义、第一阶段战略实践、三类核心资产、五大能力域、数据视界管理系统优先级、团队判断标准和后续文档下推关系;新增 SVG 可视化图,替代原有纯文本图,降低团队阅读和转述成本。
2026-05-22:补充战略位置、信息结构变化、金融感知资产生产链路、能力版图、生态协同、当前阶段推进路径和长期演进方向的可视化文本图,降低全文纯文字阅读负担,帮助团队更直观理解 Data Horizon 的定位、链路和推进关系。
2026-05-21:重构项目层战略白皮书。新版以“金融信息逻辑链路中的感知环节”和“金融感知资产”为核心命题,降低治理元信息和边界护栏在正文中的占比,突出 Data Horizon 在 AI 与金融信息结构变化周期下的系统使命、生态协同、生态外产品可能和已有系统的战略对齐任务。
2026-05-19:创建项目层战略白皮书,吸收生态白皮书中“金融信息感知 -> 认知 -> 执行支持 -> 反馈学习 -> 模型能力”的上位链路,并根据当时战略讨论将 Data Horizon 的背景主轴校准为“AI 消解传统信息差后的金融信息爆炸、非结构化信息治理和人类处理带宽瓶颈”。