Data Horizon 系统 / 产品定义
版本:2026-06-01
本文定义 Data Horizon 第一阶段要成为怎样的系统 / 产品组合:服务哪些使用者和协同对象,支撑哪些业务闭环,沉淀哪些金融信息资产,以什么系统 / 产品形态承载能力,以及第一阶段的边界和验收方式。
本文不是工程文档、不是工程手册、不是代码说明书、不是治理手册。本文不展开数据库表、代码模块、API 字段、任务拆解、研发排期或治理制度;这些内容应在后续现实差距分析、实施方案、任务包和工程设计文档中承接。
本文的一页读法是:
| 需要确认的决定 | 本文结论 |
|---|---|
| Data Horizon 是什么 | FinTec AI Ecosystem 感知环节中的金融感知资产生产与输出系统。 |
| 第一阶段先感知什么 | 按重要度三层:第一层 = 跨市场宏观政策 + 实时突发事件 + 私域职业信号(差异化主线、最高杠杆);第二层 = 市场纵深 + 结构化行情底座(第三方可自助、优先级低);第三层 = 长尾 / 衍生品 / 深度多模态。优先感知他处难自助、对下游杠杆高的对象。 |
| 第一阶段先服务谁 | 先服务 Data Horizon / 数据视界运营人员,再用 AI Trading Matrix 验证机器消费闭环,FinBayes 随后承接研究和问答型消费。 |
| 第一阶段先跑通什么 | P0 数据视界运营闭环和 P1 实时公开金融信息到 AI Trading Matrix 输出闭环先做硬。 |
| 第一阶段沉淀什么 | 原始信息、标准化事件、金融信号、市场数据、运行证据、输出交付六类信息资产。 |
| 第一阶段用什么形态承载 | 一主四辅:数据视界管理系统为主产品面,信息接入工具族、信息处理框架、信息资产库与检索系统、资产输出机制共同支撑。 |
本文不提前决定具体页面、字段、接口、任务包和排期。本文确认的是系统 / 产品定义层的对象、边界和优先级。
导读:如何阅读和维护本文
本文面向团队协同阅读,不要求每个读者从头读到尾。建议按角色进入:
| 读者 | 建议先读 | 用它做什么 |
|---|---|---|
| 生态管理者 / 业务负责人 | 一页读法、文档定位、第一阶段边界、验收标准 | 判断 Data Horizon 第一阶段是否与生态战略和阶段目标一致。 |
| 数据视界运营人员 | 感知对象与覆盖优先、使用者与协同对象、业务闭环优先级、系统 / 产品形态、五大能力域 | 判断管理系统需要支撑哪些真实运营动作。 |
| 产品 / 设计 / 项目推进人员 | 信息资产定义、概念对象与运行流、后续文档承接关系 | 把本文下推为现实差距分析、实施方案和任务包。 |
| 工程 / Agent 协作者 | 概念对象与运行流、五大能力域、横向约束、定义依据 | 对照现有工程事实,识别可保留能力、错位能力和空白能力。 |
本文在文档链路中的位置如下。
维护本文时遵守四条规则:
| 维护规则 | 说明 |
|---|---|
| 先改定义,再改任务 | 现实差距分析、实施方案和任务包应从本文下推;不要先有任务再反向改定义。 |
| 只写系统 / 产品层 | 本文不写数据库字段、API 细节、后台页面清单、代码模块和排期。 |
| 结论变化要能溯源 | 如果调整主用户、闭环优先级、资产分类或边界,需要能追溯到战略白皮书、事实映射图或新的讨论共识。 |
| 每次实质变更写演化记录 | 便于团队判断本文哪些结论是新增、修正或强化。 |
图 1:Data Horizon 第一阶段不是单一产品,而是以数据视界管理系统为主产品面,由信息接入、信息处理、信息资产库与资产输出机制共同支撑的系统群。
1. 文档定位与定义边界
本文承接 Data Horizon / 数据视界 战略白皮书、Data Horizon 现有系统与战略映射图 和 Step 1 讨论收束共识,用于回答一个问题:
Data Horizon 第一阶段应被定义为怎样的系统 / 产品组合,才能支撑金融信息感知、处理、资产化、运营控制和输出交付。
本文的正文主线是:
- 感知对象与覆盖优先;
- 使用者与协同对象;
- 第一阶段业务闭环;
- 第一阶段信息资产;
- 系统 / 产品形态;
- 五大能力域映射;
- 第一阶段边界;
- 验收与评估标准;
- 后续文档承接关系。
本文只在必要位置引用现有系统事实。现有事实用于约束定义,避免从空白理想状态出发;但当前代码、表结构、任务、后台菜单和接口不自动成为目标形态。
2. Data Horizon 的系统 / 产品定位
Data Horizon 是 FinTec AI Ecosystem 感知环节中的金融感知资产生产与输出系统。
更完整地说:
Data Horizon 面向公开金融信息、私域 / KOL 信息和市场数据,把实时或历史、结构化或非结构化、标准或非标准的金融信息,经过接入、处理、组织、溯源、质量判断和输出控制后,转化为可被人和系统持续消费的金融感知资产。
因此,Data Horizon 不应被定义成单一“产品”,也不应被收窄为“新闻采集系统”“数据后台”或某个下游系统的附属服务。它是由一组产品面、工具族、处理框架、信息资产库和输出机制组成的系统群。
第一阶段的产品主语是 Data Horizon / 数据视界管理系统及其支撑系统群。其中,数据视界管理系统是内部运营人员直接使用的主产品面;信息接入工具族、信息处理框架、信息资产库与检索系统、资产输出机制是支撑这个主产品面和外部输出场景的系统能力。
这个定义的前提是:AI 正在压缩传统信息差,同时放大金融信息的数量、速度、噪声、真假混杂和多模态复杂度。Data Horizon 的价值不是让团队看到更多碎片信息,而是把复杂、多源、实时、非标准化的金融信息流,持续转化为可追踪、可标准化、可复用、可输出的金融感知资产。
在「转化为可被人和系统持续消费的金融感知资产」这个总目标下,Data Horizon 的取舍遵循一条差异化原则:优先生产他处难以自助获取、对下游决策杠杆高的资产(私域职业信号、事件研判、跨源互证),而非优先重复路由已商品化、可被第三方自助获取的数据。这条原则贯穿感知对象选择、闭环排序与资源投入。
3. 感知对象与覆盖优先
战略白皮书第四节用「市场 × 板块 × 信息类型」三维坐标描述 Data Horizon 成熟态应覆盖的全市场感知版图。系统 / 产品定义层不重复展开整张版图,只确认两件事:第一阶段优先感知哪些对象,覆盖优先级如何排序。完整的「应感知 vs 现状覆盖」差距矩阵在现实差距分析文档中建立。
感知对象按重要度分三层(沿用战略白皮书第四节之三的成熟态重要度分层;重要度为战略可调参数):
| 重要度层级 | 感知对象(信息类型 × 市场) | 定义层含义 |
|---|---|---|
| 第一层(公因子·高影响·高差异化) | 跨市场宏观与政策(央行 / 利率 / 通胀 / 就业 / 财政 / 地缘);各主要市场的重大事件、公告与监管;实时突发事件 / 突发新闻;私域职业分析师 / 交易员的实时策略观点与交易信号(及可回看历史) | 跨市场叙事、时效与风险敏感度最高,且下游正在消费、第三方难以自助获取——差异化主线集中在此层。 |
| 第二层(市场纵深) | 各主要市场(加密 / 美股 / A股 / 港股…)的板块 / 个股资讯与研究;链上与另类数据;结构化行情底座(K 线 / 盘口 / 成交,第三方 API 可自助获取、Data Horizon 不必优先重复路由) | 构成市场纵深;其中结构化行情差异化低,优先级随「是否第三方可自助」下调。 |
| 第三层(长尾与精细) | 细分衍生品 / 期权、长尾市场、低频另类数据、深度多模态(直播 / 音视频) | 完整性所需,按价值与成本逐步纳入。 |
覆盖优先级遵循一条判断:Data Horizon 优先感知「他处难以自助获取、且对下游决策杠杆高」的对象,而不是优先重复路由已商品化、可被第三方自助获取的数据。据此,第一层中的私域职业分析师 / 交易员信号、实时突发事件、跨市场宏观是第一阶段感知重心;第二层的结构化行情底座纳入版图但不抢占主线。
第一阶段感知覆盖以「能支撑 P0 运营闭环与 P1 输出闭环、并体现上述差异化」为约束,不追求一次铺满整张版图。覆盖缺口本身就是后续任务来源,逐项登记在现实差距分析文档的感知覆盖差距矩阵中。
4. 第一阶段使用者与协同对象
第一阶段使用者与协同对象按主次关系定义如下。
| 层级 | 使用者 / 协同对象 | 定义 |
|---|---|---|
| 第一主用户 | Data Horizon / 数据视界运营人员 | 配置、观察、复核、干预、告警处理和输出控制整条金融信息链路的人。 |
| 第一验证场景 | AI Trading Matrix | 优先验证 Data Horizon 的实时事件、交易相关信号、结构化输出和机器消费契约。 |
| 第二验证场景 | FinBayes | 后续验证 Data Horizon 对研究、问答、解释、线索生成和证据材料消费的支撑能力。 |
| 第一机器输出对象 | API / MCP / SDK / CLI 等机器客户端 | 通过稳定协议查询、订阅、拉取或接收 Data Horizon 信息资产的系统或 Agent。 |
| 第一管理观察对象 | 生态管理者 / 业务负责人 | 观察 Data Horizon 是否支撑生态战略、资产沉淀、输出价值和阶段推进。 |
| 后续生态反馈对象 | Reinforcement Learning Engine / Financial Expert Foundation Model | 第一阶段不作为主验证场景,但保留反馈学习、质量样本、语料和模型能力建设的战略边界。 |
第一阶段协同关系可以理解为“运营先成立,机器消费先验证,生态反馈后回流”。
这个排序不是价值排序,而是第一阶段落地顺序。Data Horizon 必须先让内部运营闭环成立,再优先用 AI Trading Matrix 检验低延迟、结构化、机器可消费的金融信息输出;FinBayes 作为重要生态验证对象,承接更丰富的研究、解释和问答型资产消费。
AI Trading Matrix 当前在推进两类策略,决定了它对 Data Horizon 的两类消费需求:
- 私域职业信号跟单与策略沉淀:消费私域职业分析师 / 交易员的实时策略观点与交易信号做跟单,并把其历史信号学习、模仿、回测、沉淀为可用策略,筛选进入核心策略库——对应 Data Horizon 的私域职业信号资产(需实时与可回测两种形态)。
- 突发事件 / 事件驱动策略:基于 Data Horizon 实时突发事件 / 突发新闻,辅以第三方信息源互证,驱动 News-Trading / Event-Driven 策略——对应标准化事件资产与突发事件资产。
这两类需求,是后文 P1 突出突发事件、以及把私域职业信号提为差异化主线的直接依据。
第一阶段的典型运营场景包括:
- 来源异常处理:运营人员发现某个来源采集失败、内容重复或质量下降,可以查看来源状态、暂停或调整规则、触发重试,并确认是否影响下游输出。
- 高价值事件复核:公开金融事件进入系统后,运营人员可以查看原始材料、标准化结果、处理证据和输出状态,必要时复核、纠错或阻止输出。
- 私域 / KOL 信号控制:私域信息进入系统后,运营人员可以确认授权和可用边界,保留证据,过滤噪声,决定是否进入信号候选和机器输出。
- 输出效果观察:运营人员和业务负责人可以看到哪些资产被 AI Trading Matrix、FinBayes 或机器客户端实际消费,哪些输出出现延迟、误报、重复或低价值反馈。
5. 第一阶段业务闭环优先级
第一阶段不以“功能清单完整”为主要目标,而以关键闭环能否成立为目标。
| 优先级 | 闭环 | 第一阶段定义 |
|---|---|---|
| P0 | 数据视界运营闭环 | 运营人员可以配置来源和规则,观察链路状态,复核资产,干预异常,处理告警,并控制输出。 |
| P1 | 实时公开金融信息 -> AI Trading Matrix 输出闭环 | 公开金融新闻、快讯、事件、指标或市场相关信息进入 Data Horizon 后,可以被处理成 AI Trading Matrix 可消费的事件或信号输入;其中突发事件 / 事件驱动信息是该闭环优先做硬的内核(最高时效、最高决策杠杆)。 |
| P2 | 私域 / KOL 金融信号闭环 | 私域信息含两层:职业分析师 / 交易员的策略观点与交易信号(差异化主线、最高杠杆)与一般 KOL 资讯。二者都可被接入、保留证据、过滤噪声、提炼信号,并进入复核和输出控制。 |
| P3 | 历史市场数据资产化闭环 | 交易所历史数据包、K 线、订单簿、交易量等市场数据可以被标准化入库、检索和复用。 |
| P4 | FinBayes 消费闭环 | FinBayes 可以消费 Data Horizon 的事件、信号、证据和历史材料,用于金融认知、问答、研究和线索生成。 |
P0–P4 是闭环归属编号,不是线性优先级。 P0–P4 标识「属于哪个业务闭环」,不等于「P1 一定比 P2 重要」。感知重要度另由第三节三层版图定:私域职业分析师 / 交易员信号虽归 P2 闭环,但在重要度上属第一层差异化主线(与突发事件、跨市场宏观并列、最高杠杆);结构化行情虽可落 P1/P3,重要度却随「第三方可自助」下调。读优先级时须分清两轴:P0(运营底座)确是所有闭环前提,P1 是第一阶段先做硬的对外输出闭环,但 P2 私域信号的战略权重不因编号在后而降低。
闭环之间的推进关系如下。
P0 是所有闭环成立前必须先具备的运营控制面。P1 实时公开金融信息输出闭环最先用 AI Trading Matrix 验证机器消费,其中突发事件 / 事件驱动是优先内核。
差异化主线:依据「优先感知他处难以自助、对下游杠杆最高的信息」这条差异化判断(见第三节,对应战略白皮书第八节第一阶段主线),P2 私域 / KOL 闭环中的私域职业分析师 / 交易员信号资产化,在第一阶段的差异化价值上与 P1 并列,而非次于 P1——它是 Data Horizon 最难被第三方替代、对 AI Trading Matrix 跟单与策略沉淀杠杆最高的资产。因此 P2 的编号表示资产门类,不表示它整体让位于 P1;其中私域职业信号部分与 P1 同为第一阶段差异化主线。
战略白皮书中的三类业务闭环是实时公开信息、历史市场数据、私域 / KOL 信息。本文没有取消这三类闭环,而是把它们放进第一阶段定义后再做实施排序与差异化加权。其中 P3 历史市场数据资产化确认为较低优先:结构化行情多可由消费方从第三方自助获取,Data Horizon 不以重复路由为主线。P3、P4 纳入第一阶段定义和分阶段目标,保留评估与补证,不应被理解成“以后再说”。
6. 第一阶段信息资产定义
Data Horizon 的输出不能只写成“新闻”“数据”“信号”或“API 返回结果”。战略白皮书中的三类核心资产是公开金融信息资产、私域金融信号资产、市场数据资产;本文的六类信息资产,是对这三类核心资产在系统 / 产品定义层的拆解,不是替换战略资产分类。
| 信息资产 | 定义 | 主要服务对象 |
|---|---|---|
| 原始信息资产 | 从公开源、私域源、API、历史包等接入的原始内容、来源、时间、格式、上下文、授权和适用限制。 | 运营人员、证据追溯、复核场景 |
| 标准化事件资产 | 被清洗、去重、翻译、分类、结构化后的金融事件对象。 | AI Trading Matrix、FinBayes、机器客户端 |
| 金融信号资产 | 含两类:① 由 Data Horizon 从事件、KOL、市场数据、指标变化或主题演化中提炼的信号候选;② 采集并资产化的他人(私域职业分析师 / 交易员)策略观点与交易信号。二者都是可信、可回测的感知资产,本身不是交易动作(是否成策略 / 跟单 / 执行由 AI Trading Matrix 承接)。 | AI Trading Matrix 优先,FinBayes 后续 |
| 市场数据资产 | K 线、订单簿、交易量、指标、行情快照、历史数据包等标准化后的可检索数据。 | AI Trading Matrix、研究分析、回测与复盘 |
| 运行证据资产 | 采集、处理、复核、推送、失败、告警、质量、成本、延迟、下游使用结果和反馈等过程证据。 | 数据视界运营人员、生态管理者 |
| 输出交付资产 | 面向机器消费通道、Webhooks、消息通道和后续数据包等输出形态形成的交付对象和消费记录。 | 机器客户端、生态系统、外部消费端 |
三类战略资产与六类系统 / 产品定义资产之间的关系如下。
这些资产不是数据库表名称,而是系统 / 产品定义层的对象。后续工程设计可以根据这些对象下推字段、索引、状态机和接口契约。
第一阶段的资产优先级是:
- 运行证据资产:支撑 P0 运营闭环;
- 标准化事件资产:支撑 P1 实时公开金融信息到 AI Trading Matrix;
- 金融信号资产:支撑 P1 / P2 的高价值输出;
- 原始信息资产:支撑追溯、纠错和复核;
- 市场数据资产:支撑 P3;
- 输出交付资产:支撑机器消费通道和其他输出形态。
无论属于哪一类,每一项信息资产在定义层都必含以下维度,缺一即不可追溯:
- 来源与采集上下文(Source、原始格式、采集入口);
- 双时间戳(两个):源侧时间(信息发生 / 发布)与系统侧时间(系统接入 / 处理),两者都保留以支撑时效判断与回测;
- 证据链:从原始材料到当前形态的处理与复核证据;
- 质量与置信标记:置信度、复核状态或质量限制;质量不确定时显式标记,而非包装成确定判断;
- 状态:在采集、处理、复核、输出生命周期中的当前状态;
- 授权与适用限制:私域 / 受限来源的授权、隐私与输出边界;
- 反馈记录:下游消费结果、误报 / 漏报与人工干预回流。
这些维度是后续工程设计下推字段、状态机与接口契约的定义层依据。
7. 概念对象与运行流
第一阶段定义层需要先确认概念对象之间的关系,而不是提前冻结数据库表、字段或接口。
| 概念对象 | 定义层含义 |
|---|---|
| Source | 信息来源、采集入口、API、私域频道、KOL、数据包或市场数据来源。 |
| 原始信息 | 尚未完成标准化的原始信息材料,保留原文、来源、时间、格式、授权和采集上下文。 |
| 标准化记录 | 经过清洗、去重、翻译、分类、结构化、质量判断后的感知记录。 |
| Information Asset | 可被检索、复核、复用和输出的原始信息、事件、信号、市场数据或证据资产。 |
| 交付记录 | 面向下游人或机器消费形成的输出对象、交付记录和状态。 |
| Consumer | AI Trading Matrix、FinBayes、机器客户端、运营人员或后续外部消费方。 |
| Feedback / Evidence | 下游使用结果、质量判断、误报 / 漏报、延迟、成本、噪声、失败和人工干预证据。 |
其中 标准化记录 与 Information Asset 必须承载第六节列出的资产必含维度(来源、双时间戳、证据、质量、状态、授权、反馈),后续工程设计据此下推 schema 与状态机。
这个运行流用于支撑后续现实差距分析:当前工程事实应被映射到这些概念对象和关系上,再判断哪些已有能力可保留、哪些需要矫正、哪些仍是空白。
8. 系统 / 产品形态
第一阶段 Data Horizon 采用“一主四辅”的系统 / 产品形态。
| 形态 | 定义 | 第一阶段作用 |
|---|---|---|
| 数据视界管理系统 | 面向内部运营人员的主产品面。 | 配置、观察、复核、干预、告警、输出控制。 |
| 信息接入工具族 | 面向公开源、私域源、API / MCP / SDK、历史包等的接入工具集合。 | 把不同来源、不同格式、不同场景的金融信息带入系统。 |
| 信息处理框架 | 清洗、去重、翻译、分类、结构化、信号提炼、规则和模型调度等处理框架。 | 把原始信息转化为可用资产。 |
| 信息资产库与检索系统 | 存储、索引、检索、追溯原始信息、事件、信号、市场数据和运行证据。 | 支撑运营复核、机器消费、历史沉淀和资产复用。 |
| 资产输出机制 | API / MCP / SDK / CLI / Webhook / Telegram 等输出通道和契约。 | 优先服务 AI Trading Matrix,再扩展 FinBayes 和其他机器客户端。 |
“一主四辅”的关系如下:管理系统不是旁路后台,而是把接入、处理、资产和输出纳入可观察、可复核、可干预的主产品面。
数据视界管理系统是第一阶段主产品面,但不等于 Data Horizon 全部。Data Horizon 是系统群,管理系统是它的运营入口和控制面。
面向机器消费的输出,除资产本身外还须携带消费方最小契约:粒度(单条事件 / 信号 / 批量数据包等输出单元)、时效(产生到可消费的延迟与时间戳)、证据与质量标记(来源、置信度、复核状态、适用限制)。最小契约让 AI Trading Matrix 等消费方能判断「这条输出是什么、多新、可信到什么程度、能否据以行动」,而不是只收到一段文本。最小契约是面向消费方的最小可判定集;交付对象自身的生命周期字段(幂等键、状态、失败补偿、回放、消费确认)属输出交付资产(见第六节),在差距映射表的输出契约与交付证据任务包(WP-P1-02 / WP-P1-03)中细化。
9. 五大能力域映射
战略白皮书中的五大能力域用于组织系统能力,不应被理解成团队边界、部署边界或孤立业务流。真实闭环可以跨多个能力域一体化完成。
| 能力域 | 第一阶段定义 | 主要承接闭环 |
|---|---|---|
| 信息接入域 | 管理公开源、私域源、API、数据包和市场数据进入系统的方式、边界、状态和证据。 | P0、P1、P2、P3 |
| 信息处理域 | 将原始信息转成标准化事件、金融信号、市场数据资产和可复核材料。 | P1、P2、P3 |
| 信息资产域 | 组织、存储、索引、追溯和复用六类信息资产。 | P0、P1、P2、P3、P4 |
| 资产输出域 | 以明确契约向 AI Trading Matrix、FinBayes、机器客户端和其他通道输出资产。 | P1、P4 |
| 运营管理域 | 让运营人员能配置、观察、复核、干预、告警处理和控制输出。 | P0 |
五大能力域是能力地图,不是把真实业务流拆断。一个事件或信号从进入到输出,会横跨多个能力域;运营管理域负责把这些能力域串成可控闭环。
这五大能力域是定义地图,不是实施顺序。第一阶段实施优先级仍以 P0 运营闭环和 P1 AI Trading Matrix 输出闭环为主。
10. 横向约束:成本与质量路径
成本与质量路径不是第六个能力域,而是贯穿信息接入、信息处理、信息资产、资产输出和运营管理的横向约束。
Data Horizon 是高频、持续、长期运行的系统,不能默认所有信息都进入最昂贵的 AI 处理链路。第一阶段需要在定义层确认以下原则:
| 原则 | 定义 |
|---|---|
| 分层处理 | 低价值、高重复信息优先走规则、过滤、缓存和轻量处理;高价值、复杂或高风险信息才进入更强模型或人工复核。 |
| 质量限制 | 质量不确定的信息应标记限制、置信度或复核状态,而不是包装成确定判断。 |
| 成本可见 | 关键处理链路应能看到基础成本、延迟、失败和重复处理情况。 |
| 结果可反馈 | 下游消费结果、误报、漏报、低价值输出和人工干预应能回流到来源、处理路径和资产质量判断中。 |
| 授权可控 | 私域、半公开或受限制来源必须保留授权、隐私、适用限制和输出限制。 |
| 差异化优先 | 在感知、处理与输出的资源投入上,优先投向他处难以自助、对下游杠杆高的资产;商品化、可第三方自助的数据不以重复路由为优先。 |
这些原则不要求本文定义具体指标阈值,但后续现实差距分析和实施方案必须检查现有系统是否具备相应证据和控制点。
11. 第一阶段边界与优先级
第一阶段采用“完整定义、分层推进”的边界原则:
纳入 Data Horizon 系统群的完整定义,但实施优先保证 P0 数据视界运营闭环和 P1 AI Trading Matrix 输出闭环;其中 P2 的私域职业信号资产化(WP-P2-04)作为差异化主线与 P1 并列(见第五节),而非 P2 闭环整体并列;其余 P2 / P3 / P4 能力进入定义和分阶段目标,不作为一期同等优先级。
| 边界项 | 第一阶段纳入 | 第一阶段暂不强求 |
|---|---|---|
| 主用户 | 数据视界运营人员。 | 面向外部商业客户的完整 SaaS 用户体系。 |
| 验证场景 | AI Trading Matrix 优先,FinBayes 后续。 | 同时支撑所有生态系统的一致成熟体验。 |
| 信息闭环 | P0 运营闭环、P1 实时公开金融信息到 AI Trading Matrix、P2 私域 / KOL 信号雏形、P3 历史市场数据补齐目标。 | 所有金融信息源、所有资产类别全覆盖。 |
| 信息资产 | 六类资产均可定义,优先跑通运行证据、标准化事件和金融信号。 | 一开始就把所有资产都做成完整数据产品。 |
| 系统形态 | 一主四辅都要有定义和阶段目标。 | 每个形态都达到最终产品化成熟度。 |
| 输出机制 | 明确 API / MCP / SDK / CLI / Webhook / Telegram 的评估方向和优先级。 | 一期全部实现并稳定对外开放。 |
| 管理系统 | 支持配置、观察、复核、干预、告警、输出控制的核心闭环。 | 一期做成完整企业级后台平台。 |
| 历史市场数据 | 纳入第一阶段定义和补齐目标。 | 优先于 P0 / P1 / P2。 |
| 治理与评估 | 保留必要验收标准和现实差距分析。 | 把治理文档膨胀成主工作量。 |
| 生态反馈 | 保留 RLE、FEFM 和后续模型能力建设需要的反馈样本、质量标签、语料材料边界。 | 一期直接建设完整反馈学习和模型训练平台。 |
| 外部产品 | 保留 To B、To C、内容团队、研究训练评估数据包等长期产品边界。 | 让外部商业化牵引第一阶段主线。 |
外部金融信息产品、商业化数据服务、语料基础设施和内容素材系统,都是 Data Horizon 的长期产品边界。第一阶段不由这些外部形态牵引实施,但不能把 Data Horizon 收缩理解为内部后台工具。
12. 验收与评估标准
第一阶段验收不采用复杂评分体系,只采用五条最低可判定标准。
| 标准 | 问题 | 通过含义 |
|---|---|---|
| 闭环可运行 | P0 / P1 是否能从信息进入到输出或运营处理跑通? | 不是只存在模块,而是形成实际业务流。 |
| 资产可追溯 | 事件、信号、输出能否回到来源、授权、适用限制和处理证据? | 可以复核、纠错、解释来源和使用边界。 |
| 输出可消费 | AI Trading Matrix 或机器客户端是否能按契约消费,并反馈使用结果? | 不是只推送文本,而是按消费方最小契约(粒度 / 时效 / 证据·质量标记)形成稳定机器输出和消费证据。 |
| 运营可干预 | 运营人员能否配置、暂停、复核、重试、告警处理? | 管理系统不是只读看板,而是控制面。 |
| 质量可评估 | 能否看见基础质量、时效、失败、重复、误判、成本指标? | 不要求完美评分体系,但要能判断变好或变坏。 |
更细的延迟、准确率、召回、成本、失败率、覆盖率和质量评分,应在后续现实差距分析或实施方案中逐项定义,不在本文提前写死。
13. 定义依据:战略共识与现有系统事实
本文依据三类输入形成。
| 输入 | 在本文中的作用 |
|---|---|
| 战略白皮书 | 提供 Data Horizon 的生态位置、长期角色、金融感知资产概念、五大能力域、成本质量路径和反馈学习边界。 |
| Step 1 讨论共识 | 提供第一阶段使用者、闭环优先级、六类信息资产、一主四辅形态、概念对象流和验收口径。 |
| 现有系统与战略映射图 | 提供当前已有能力、真实链路、可保留资产、明显错位点和补证方向。 |
从现有系统事实看,Data Horizon 已经具备公开信息实时闭环和私域 / KOL 信息闭环的局部基础,也已经有管理系统、分发、机器接口和运行证据的雏形。这些事实说明第一阶段不是从零开始。
同时,现有系统事实不能直接替代目标定义。当前字段、菜单、Job、表结构和接口只能作为现实差距分析的证据,不应在本文中被直接冻结为最终产品形态。
14. 与后续文档的承接关系
本文确认后,后续文档应按以下顺序推进:
- 现实差距分析:基于本文和当前工程事实,按 P0 / P1 优先级、六类信息资产、一主四辅、五大能力域、概念对象流和成本质量路径,识别已有能力可承接、已有能力需矫正、空白能力需补齐。
- 实施方案:把差距分析转成分阶段实施路径、优先级和系统改造方案。
- 实施任务包:把实施方案拆成可执行、可验证、可并行推进的任务包。
- 工程设计文档:在任务包层面定义 schema、API、状态机、页面、权限、任务调度、模型和测试。
- 验收报告或阶段复盘:按五条最低可判定标准和后续量化指标检查第一阶段是否成立。
本文是 Step 1 的正式定义产物。它不直接生成工程任务,也不替代现实差距分析。其中第十五节「面向 L3 系统架构设计的承接补强」是 L2 → L3 的直接抓手(关键场景清单、对象关系与跨层映射、状态轮廓、外部接触契约、边界不变量与 ADR 候选、质量取舍),供 L3 系统架构设计文档承接。
15. 面向 L3 系统架构设计的承接补强
本节是 L2 → L3 的承接抓手,回应 L3 就绪度评审(governance/workstreams/data-horizon-l2-downstream-sync/reviews/2026-06-01-l3-readiness-synthesis.md)。原则:L2 给清单 / 轮廓 / 候选,L3 画完整流转图 / 状态机 / 容器与子系统。本节不写字段、schema、接口与排期;这些在 L3 架构与工程包承接。
15.1 第一阶段关键场景清单
每条场景给「触发 → 跨能力域流转 → 涉及概念对象 → 状态变化 → 业务约束」,作为 L3 场景流转图(S1..Sn)的承接清单;L3 据此画端到端时序与分支。
| 场景 | 触发 | 跨能力域流转 | 涉及概念对象 | 状态变化 | 业务约束 |
|---|---|---|---|---|---|
| S-运营·来源异常 | 来源采集失败 / 重复率升高 / 质量下降 | 接入域 → 运营管理域 | Source、Feedback | Source:活跃 → 降级 / 暂停 | 运营人员可暂停 / 调规则 / 重试,并确认是否影响下游输出 |
| S-公开·突发事件 → ATM(P1 主线) | 实时突发事件 / 突发新闻进入 | 接入 → 处理 → 资产 → 输出 | 原始信息、标准化记录、Information Asset(标准化事件 / 突发事件资产)、交付记录、Consumer(ATM) | 原始信息:待处理 → 已标准化;交付记录:待交付 → 已交付 → 已确认消费 | 最高时效优先;跨源互证;高价值可触发人工复核但不得阻塞突发事件实时主链路 |
| S-私域·职业信号资产化 → ATM(P2 差异化主线) | 私域职业分析师 / 交易员发出策略观点或交易信号 | 接入(授权)→ 处理(解析 / 证据保留)→ 资产 → 输出 | Source(职业信号源)、原始信息、Information Asset(金融信号资产·实时 + 可回测)、交付记录、Consumer(ATM) | 信息资产:草拟 → 可用 → 受限;交付记录:待交付 → 已交付 | 须保留授权与适用限制;区分职业信号与一般 KOL;实时与可回测两形态;不代为下单 |
| S-公开·高价值事件复核 | 公开金融事件进入,命中高价值 / 异常 | 处理 → 资产 → 运营管理域 | 标准化记录、Information Asset、Feedback | Record:生成 → 待复核 → 已复核 / 已纠错 | 运营人员可复核 / 纠错 / 阻止输出;质量不确定显式标记 |
| S-反馈回流 | ATM / 机器客户端 / FinBayes 消费后回传结果 | 输出 → 运营管理域 → 接入 / 处理 / 资产 | Consumer、Feedback、Source、标准化记录、Information Asset | Feedback:采集 → 已关联(回流到来源 / 处理路径 / 资产质量判断) | 误报 / 漏报 / 延迟 / 低价值反馈须可回流并影响后续质量判断 |
| S-FinBayes 证据包消费(P4,后置) | FinBayes 发起研究 / 问答检索 | 资产 → 输出 | Information Asset、Delivery、Consumer(FinBayes) | Delivery:待交付 → 已交付(拉取已取) | 只读消费;DH 提供事件 / 信号 / 证据 / 历史材料,不产认知结论 |
15.2 概念对象关系与跨层映射
承接第七节概念对象流,补两件 L3 必需的事:对象间关系 / 基数 / 归属能力域 / 是否持久化,以及「六类信息资产 ↔ 七概念对象」的归属,消解两套对象语言的二义性。
| 概念对象 | 主要关系(基数) | 归属能力域 | 是否持久化 |
|---|---|---|---|
| Source | 1 Source → N 原始信息 | 信息接入域 | 是 |
| 原始信息 | N 原始信息 → 1 标准化记录(去重 / 聚合后) | 接入 → 处理域 | 是 |
| 标准化记录 | 1 Record → 1..N Information Asset | 信息处理域 | 是 |
| Information Asset | 1 Asset → N 交付记录;N Asset ← 1 Record | 信息资产域 | 是 |
| 交付记录 | N Delivery → 1 Consumer | 资产输出域 | 是 |
| Consumer | 1 Consumer → N Feedback | (外部角色,DH 侧仅留订阅 / 消费记录) | 订阅与消费记录持久化 |
| Feedback / Evidence | 1 Feedback → 回流 Source / Record / Asset | 运营管理域(贯穿) | 是 |
六类信息资产 ↔ 七概念对象归属(消歧):要分清两套语言不是同一根轴。① 「六类信息资产」是资产分类(内容是什么):原始 / 标准化事件 / 金融信号 / 市场数据 / 运行证据 / 输出交付,都是 Information Asset 的子类型(泛化统称,非与之并列的第七类)。② 「七概念对象」是流转阶段对象(处在管道哪一环):Source / 原始信息 / 标准化记录 / Information Asset / 交付记录 / Consumer / Feedback。两轴是派生 / 留存关系而非等同:原始信息资产由 原始信息 留存而来、运行证据资产由 Feedback / Evidence 留存而来、输出交付资产是 Information Asset 对外交付时生成的快照(交付对象 交付记录)——并非「资产=那个对象」。由此 交付记录 的归属分两层、对应两条 ADR:其交付生命周期(待交付 / 已交付 / 失败 / 已确认消费)归资产输出域、由 ADR-候选-04 决定;其作为资产快照的存储与归档归信息资产域、由 ADR-候选-08 决定;二者非同物。L3 据此决定存储切分(六子类各表,或单表 + type 字段——属 L3 决策)。
15.3 对象状态轮廓与不变量
给每个对象的主要状态名 + 关键转移触发 + 终态(定义层口径,不到字段 / 阈值),作为 L3 状态机(stateDiagram)的承接轮廓。状态名与现行生产字段的对应(如原始信息 status、交付 push_status、重试上限)留 L3 / 工程包,不在本节冻结。对象与 15.2 的七概念对象一一对应。
| 对象 | 主要状态轮廓 | 关键转移触发 | 终态 |
|---|---|---|---|
| Source | 候选 → 活跃 → 降级 / 暂停 → 死源 / 退役 | 授权接入;连续失败 / 高重复率 → 降级;运营暂停;长期无数据 → 死源 | 退役 |
| 原始信息 | 待处理 → 已标准化 / 重复丢弃 / 处理失败 | 入库;标准化成功 → 已标准化;去重命中 → 丢弃;抽取失败 → 失败 | 已标准化 / 丢弃 / 失败 |
| 标准化记录 | 生成 → 待复核 → 已复核 / 已纠错;低置信待补 | 标准化产出;高价值 / 异常 → 待复核;人工处置 | 已复核 / 已纠错(L3 §11.3 在其后细化「已采纳」过渡终态,表示采纳为可用资产前的确认;本节为定义层轮廓,不冻结该细化态) |
| Information Asset | 草拟 → 可用 → 受限(授权 / 质量)→ 已归档 / 已撤回 | 复核通过 → 可用;授权或质量不足 → 受限;过期 → 归档 | 已归档 / 已撤回 |
| 交付记录 | 待交付 → 已交付(推送已发 / 拉取已取)→ 已确认消费;失败重试 → 失败终态 | 资产就绪;交付成功 → 已交付;收到消费确认 → 已确认;超重试上限 → 失败 | 失败终态 / 已确认消费 |
| Consumer | 已订阅 / 活跃 → 暂停 / 失效 | 订阅建立 / 撤销;消费记录写入 | 失效 |
| Feedback / Evidence | 采集 → 已关联 → 已归档 | 消费回传 → 采集;回流到来源 / 处理 / 资产 → 已关联 | 已归档 |
注:Consumer 是外部角色,DH 侧仅维护其订阅与消费记录,不持有完整内部生命周期。授权(Authorization)不是独立建模对象,而是 Source 与受限 Information Asset 的授权维度:其子状态「已授权 → 受限 → 过期 / 撤销」绑定在来源 / 资产上(授权过期或撤销 → 关联资产即转「受限」、不得对外输出);L3 决定它落为对象字段还是独立授权记录。
状态不变量(L3 细化的基线):① 终态不可回退(已标准化 / 丢弃 / 失败 / 已归档 / 已撤回 / 失败终态 / 已确认消费);② 受限或未授权资产不得对外输出(边界不变量 3);③ 质量不确定的 标准化记录 须显式标记,不得直接进入「可用」资产(边界不变量 6);④ 每个终态都应留运行证据,经 Feedback / Evidence 可追溯。
15.4 外部角色接触契约
承接第三 / 四节,给 L3 系统上下文与外部接触契约的逐角色骨架(输入 / 输出 / 控制权 / 禁止事项 / 接入条件)。具体协议字段在 L3 / 工程包细化。
| 外部角色 | 接触形态 | 输入 | 输出(DH 提供) | 控制权 | 禁止事项 | 第一阶段接入 |
|---|---|---|---|---|---|---|
| 数据视界运营人员 | 管理系统主产品面 | 配置 / 复核 / 干预指令 | 链路状态、资产、证据、告警可视 | 暂停 / 重试 / 复核 / 阻断输出 | 不代替下游做认知 / 执行决策 | P0 硬 |
| AI Trading Matrix | 资产输出机制(API / Webhook / 推送) | 拉取 / 订阅 | 标准化事件、突发事件资产、私域职业信号(实时 + 可回测)—— 具体形态待与 Trading Matrix 对齐(标准化事件 / 信号 / 数据流 / 告警 / 证据包);对齐后回填本节、第八节最小契约与 gap-map 第九节核对项 | 按契约消费 + 回传消费证据 | DH 不下单 / 不产交易动作 | P1 硬 + 私域信号差异化主线 |
| FinBayes | 信息查询 / 证据包 | 研究 / 问答检索 | 事件 / 信号 / 证据 / 历史材料 | 只读消费 | DH 不产认知结论 | P4 后置 |
| 机器客户端(API / MCP / SDK / CLI) | 稳定协议 | 查询 / 订阅 / 拉取 | 按消费方最小契约的资产 | 按权限消费 | 不得越权访问受限私域资产 | P1 起评估 |
| Reinforcement Learning Engine | 反馈样本 / 质量标签边界 | 后续 | 训练样本、质量信号(边界保留) | 后续 | 第一阶段不主供 | 边界保留 |
| Financial Expert Foundation Model | 语料 / 能力建设材料边界 | 后续 | 语料、质量标签(边界保留) | 后续 | DH 不做训练设施 | 边界保留 |
| 外部商业消费者(To B / To C) | 长期产品边界 | 后续 | 数据 / 资讯产品(待定形态) | 后续 | 不牵引第一阶段主线 | 边界保留 |
15.5 边界不变量与 ADR 候选索引
把散布在白皮书第十节、本文第十 / 十一节的边界不变量汇成一处,并列出 L3 必锁的架构决策候选,承接 L3 ADR 索引(参照 FinBayes 架构第二十三节)。
边界不变量(汇总,非新增):
- DH 合成事实,不代为认知(认知归 FinBayes)。
- 信号(含采集的他人职业信号)是资产,不是交易动作(执行归 AI Trading Matrix)。
- 私域 / 受限来源必须保留授权与适用限制,不得越权输出。
- 结构化行情第三方可自助,DH 不以重复路由为主线。
- DH 不做模型训练设施(归 FEFM);仅保留反馈样本 / 质量标签边界。
- 质量不确定时显式标记,不包装成确定判断。
- 每项信息资产必含七维度(第六节),缺一不可追溯。
ADR 候选索引: 优先级「高」= L3 起稿前需先有决策(否则起代码受阻),「中 / 低」可在实施中演化补。
| 候选 | 决策点 | 关键约束 | 优先级 |
|---|---|---|---|
| ADR-候选-01 | 突发事件识别口径与时效边界 | 时效优先内核;跨源互证 | 高 |
| ADR-候选-02 | 私域授权模型(授权 / 适用限制 / 输出限制) | 边界不变量 3 | 高 |
| ADR-候选-03 | AI Trading Matrix 消费对象形态 | 依赖与 Trading Matrix 对齐;对齐前仅 proposed,回填 §8 / §15.4 / gap 第九节后方可 accepted | 高(被该对齐阻塞) |
| ADR-候选-04 | 输出交付幂等 / 重试 / 回放 / 消费确认 | 对应 WP-P1-02 / 03;交付生命周期(见 15.2) | 高 |
| ADR-候选-05 | 人工复核触发条件(高价值 / 低置信 / 异常) | 不阻塞突发事件实时主链路 | 中 |
| ADR-候选-06 | 成本分层处理路径(规则 / 小模型 / 大模型 / 人工) | 第十节分层处理 | 中 |
| ADR-候选-07 | 结构化行情按需接入策略 | 属边界不变量 4 的落地约束,是否独立成 ADR 由 L3 判定 | 低 |
| ADR-候选-08 | 信息资产存储切分(六子类各表 vs 单表 + type) | 承接 15.2;与 ADR-04 分管交付的存储归档 vs 生命周期 | 高 |
说明:ADR-候选-01 / 05 / 06 在 L3 应进一步拆为「决策点 + 取舍方案」;ADR-候选-03 在 ATM 消费对象形态与 Trading Matrix 对齐前不冻结。
L3 评审后的索引漂移(回指):本表为 L2 定义层八条候选;L3 系统架构评审已将 ADR-候选-04 拆分(交付幂等 / 重试 / 回放 归 04,消费确认单列)并新增 09–12,最终共 12 条。完整、最新的 ADR 候选索引以 L3 §23 +
governance/workstreams/data-horizon-l3-architecture/decisions/README.md为准;本表不随之扩列(定义层只给候选基线,不承接 L3 拆分结果)。
15.6 质量属性相对取舍
第十节六原则与第十二节五验收是并列陈述;本节给冲突时的相对取舍,承接 L3 架构「质量取舍」一节(不写阈值,阈值在 L3 / 实施方案定)。
| 链路 | 相对优先 |
|---|---|
| 突发事件 / 事件驱动 | 时效 > 成本 > 完备(抢时效,允许后续补全) |
| 标准化事件 | 质量 / 可追溯 > 时效 |
| 私域职业信号 | 可追溯 / 授权合规 > 时效 |
| 历史市场数据闭环 | 成本 / 完整性 > 时效 |
| 反馈回流 | 可追溯 / 完整 > 时效(反馈可后到,但须可关联回来源 / 处理 / 资产质量判断) |
| 通则 | 质量不确定时,显式标记优先于强行下结论 |
上表为链路内相对取舍;L3 仍需在其上给一份总体质量属性排序(如 FinBayes 架构第三节「冲突时的取舍」),统摄跨链路冲突。
Changelog / 演化记录
2026-06-01:面向 L3 就绪度补强——据双路评审(CC + Codex,governance/workstreams/data-horizon-l2-downstream-sync/reviews/2026-06-01-l3-readiness-synthesis.md)新增第十五节「面向 L3 系统架构设计的承接补强」:15.1 第一阶段关键场景清单(S-突发事件 / S-私域职业信号等 6 条)、15.2 概念对象关系与跨层映射(含六类资产↔七对象归属)、15.3 对象状态轮廓与不变量、15.4 外部角色接触契约(逐角色骨架)、15.5 边界不变量与 ADR 候选索引、15.6 质量属性相对取舍。L2 给清单 / 轮廓 / 候选,L3 画完整流转图 / 状态机 / 容器。AI Trading Matrix 消费对象形态标记为待与 Trading Matrix 团队对齐的外部依赖。零顺延(仅在 §14 后追加)。
2026-06-01:L2 下推对齐——据更新后的战略白皮书(新增第四节感知版图、第五节资产、第七节两类信号、第八节主线 / 底座、第十二节下游必答 5 问)做 A1–A6 矫正:新增第三节「感知对象与覆盖优先」承接战略白皮书感知版图(原三–十三节顺延为四–十四节);业务闭环突出突发事件 / 事件驱动、把「私域职业信号资产化」提为与 P1 并列的差异化主线、历史市场数据确认较低优先(保留 P0–P4 编号不变);定位与横向约束补「差异化价值原则」;信息资产补「必含七维度」(来源 / 双时间戳 / 证据 / 质量 / 状态 / 授权 / 反馈);新增「消费方最小契约」与 AI Trading Matrix 两类策略消费场景。可溯源到战略白皮书与 governance/workstreams/data-horizon-l2-downstream-sync/。
2026-05-26:认知层下游对象从 FinClaw 全文同步为 FinBayes,与 生态对象注册表 中 2026-05-24 完成的对象重命名对齐;maturity 收敛为模板枚举 active。
2026-05-25:面向团队阅读、协同消费和持续维护优化文档结构,新增阅读路径、维护规则、文档链路图、协同对象图、闭环优先级图、战略资产到定义资产关系图、一主四辅关系图和五大能力域跨域闭环图。
2026-05-25:根据独立 Review 意见补强一页读法、典型运营场景、战略闭环桥接、六类资产与三类核心资产关系、概念对象与运行流、成本质量横向约束、生态反馈和长期产品边界。
2026-05-25:基于战略白皮书、现有系统与战略映射图和 Step 1 十轮讨论共识创建第一版系统 / 产品定义文档,明确第一阶段使用者、闭环优先级、信息资产、系统 / 产品形态、边界和验收标准。