Data Horizon 参考层入口

状态：Draft / reference hub 最后更新：2026-05-21 项目：Data Horizon / 数据视界

1. 定位

本文档是 Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。

本文档不是：

产品定义或 MVP 定义；
工程实施计划或 backlog；
当前实践正确性或最优性的证明；
竞品报告或市场分析。

本文档用于回答：

Data Horizon 应参考哪些外部产品、项目、架构、协议或实现，来回答自身的感知能力、信息覆盖、标准化、存储检索、接口形态、产品交互、成本控制和治理合规问题？

2. 参考评估问题域

参考评估应覆盖以下上位问题域：

优先级	维度	上位问题
P0	感知能力	同类产品/系统如何完成金融信息监听、采集、清洗、标准化？
P0	信息覆盖	同类产品/系统覆盖哪些市场、资产、信息源、数据类型？
P0	质量与溯源	同类产品/系统如何标记来源、时效、质量、授权和适用限制？
Core	标准化方式	规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层？
Core	存储检索	原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层？
Core	接口形态	API / feed / MCP / CLI / export 等形态的实际案例？
Core	成本控制	高频持久采集链路的成本结构和控制手段？
Extension	产品交互	内部控制台、B 端、C 端产品面的实际案例？
Extension	生态协同	感知层与认知/执行系统的协同模式？
Extension	治理合规	来源授权、非公开信息、用户误导风险的处理方式？

3. 参考项目筛选原则

筛选方式：

不从固定竞品分类出发；
不先假定 Bloomberg、金融新闻 API、另类数据商或开源 Agent 项目就是参考池；
先从 Data Horizon 的第一性角色、职责、场景和能力问题出发；
再为每个问题选择最合适的参考产品、项目、架构、协议、服务或实现；
每个参考对象必须明确回答上方问题域中的哪些维度。

4. 候选参考对象 Shortlist

当前状态：首批候选已登记 / 尚未评估

本 shortlist 只登记参考候选，不构成吸收建议、产品定义、MVP 输入或工程实施依据。每个候选对象都必须在后续独立分析或体验报告中完成证据记录后，才允许回流到 Data Horizon 项目事实源。

4.1 Benzinga News API

类型：金融新闻 API 服务
覆盖维度：感知能力、信息覆盖、接口形态、时间语义
回答的上位问题：商业金融新闻 API 如何提供实时新闻、过滤条件和机器消费接口？
评估方式：desk research / API docs review / 可选 API 测试
评估状态：待筛选
计划产出：Benzinga News API 独立参考分析报告
初始来源：Benzinga News API docs

4.2 SEC EDGAR APIs

类型：官方披露数据 API / 监管信息源
覆盖维度：信息覆盖、质量与溯源、授权边界、结构化披露数据
回答的上位问题：官方披露数据如何表达来源、时间、公司主体、归档路径和可复查性？
评估方式：official docs review / sample endpoint test / disclosure object mapping
评估状态：待筛选
计划产出：SEC EDGAR 独立参考分析报告
初始来源：SEC EDGAR API documentation、SEC Developer Resources

4.3 GDELT DOC 2.0 API

类型：全球新闻检索 / 事件资料库
覆盖维度：感知能力、信息覆盖、检索、跨语种新闻材料
回答的上位问题：大规模全球新闻资料库如何支持检索、时间窗口、主题观察和跨来源材料获取？
评估方式：desk research / query sample / coverage and freshness review
评估状态：待筛选
计划产出：GDELT DOC 2.0 API 独立参考分析报告
初始来源：GDELT DOC 2.0 API announcement

4.4 OpenBB Platform

类型：开源金融数据平台 / provider connector 架构参考
覆盖维度：接口形态、数据连接器、Python client / FastAPI、扩展机制
回答的上位问题：金融数据平台如何组织多 provider 接入、扩展、API / SDK 暴露和本地消费？
评估方式：docs review / connector architecture review / optional local exploration
评估状态：待筛选
计划产出：OpenBB Platform 独立参考分析报告
初始来源：OpenBB Platform developer guide

4.5 Dagster

类型：开源数据编排 / asset-based pipeline 参考
覆盖维度：架构、成本控制、可观测性、数据 lineage、freshness、pipeline testability
回答的上位问题：Data Horizon 这类持续感知系统如何把来源、处理链路、资产状态、刷新和可观测性建模为一等对象？
评估方式：docs review / asset model analysis / observability pattern mapping
评估状态：待筛选
计划产出：Dagster 独立参考分析报告
初始来源：Dagster platform overview、Dagster docs

4.6 Apache Airflow

类型：开源 workflow / DAG 编排参考
覆盖维度：采集任务编排、调度、重试、依赖、运维边界
回答的上位问题：当前 Cron / Job 链路在持续采集、失败恢复、任务依赖和运营可见性上应被哪些成熟编排模式挑战？
评估方式：docs review / workflow model comparison / current job chain mapping
评估状态：待筛选
计划产出：Apache Airflow 独立参考分析报告
初始来源：Apache Airflow documentation

4.7 Label Studio

类型：开源数据标注 / human review workflow 参考
覆盖维度：产品交互、人工复核、质量标注、数据集导入导出、API
回答的上位问题：内部操作员如何对感知输出做复核、纠错、质量标签和后续训练 / 评估数据沉淀？
评估方式：docs review / workflow mapping / optional local trial
评估状态：待筛选
计划产出：Label Studio 独立参考分析报告
初始来源：Label Studio API docs

首批候选覆盖关系：

类别	候选对象
金融信息 API 服务	Benzinga News API、GDELT DOC 2.0 API
官方 / 高 provenance 信息源	SEC EDGAR APIs
金融数据平台 / connector 架构	OpenBB Platform
开源 pipeline / 编排框架	Dagster、Apache Airflow
内部复核 / 标注工作流	Label Studio

每个候选对象应按以下格式登记：

### X.X <参考对象名>

- 类型：<API 服务 / 开源项目 / 商业平台 / 协议 / 架构参考>
- 覆盖维度：<覆盖维度列表>
- 回答的上位问题：<具体问题>
- 评估方式：<desk research / 注册体验 / API 测试 / 代码阅读 / 部署复现>
- 评估状态：<待筛选 / 待体验 / 待评估 / 已完成>
- 计划产出：<独立参考分析报告或复现 / 体验证据报告>

5. 已完成评估

截至 2026-05-18，暂无已完成评估。

6. 评估方法

参考第三方参考项目评估方法的通用方法。Data Horizon 专属补充：

Desk research 应产出独立参考分析报告；
复现 / 体验应产出可追溯证据报告；
多对象比较应产出交叉对比结论；
评估必须显式标注该参考对象对 Data Horizon 当前实践画像的挑战点和吸收建议

7. 输出对象参考评估优先级

Tier 1：参考评估必须覆盖

候选对象	参考评估需回答
Perception Record	单条金融信息感知记录应包含什么？质量、溯源和生命周期如何表达？
Financial Information Feed	面向不同消费者的 feed 形态如何区分？
Data Quality / Provenance Metadata	来源、时效、授权、质量和溯源链路的最小底线字段？

Tier 2：参考评估应覆盖

候选对象	参考评估需回答
Evidence Package	证据保留、原文快照、多源印证的最小可行方式？
Dataset Package	训练/评估/B端交付的数据包 manifest？
Source Reliability Profile	非交易化的来源质量观测维度？

Tier 3：接口与工作流

候选对象	参考评估需回答
Machine Feed Contract	REST / webhook / streaming / MCP / bulk export 选型依据？
Human Review / Quality Label	内部复核工作流最小能力集？
Retrieval Result	检索结果对象如何表达匹配原因、时间、来源、质量？

8. 与 Data Horizon 项目知识库的回流关系

参考评估的稳定结论应回写到：

结论类型	写回位置
参考对象分析	独立参考分析报告
复现/体验证据	可追溯证据报告
交叉对比结论	Data Horizon 参考对象交叉对比结论
对产品定义的回流	候选产品定义（创建后承接）
对系统定义的回流	候选系统定义（创建后承接）
对工程事实审计的回流	候选工程事实审计（创建后承接）
对当前入口的回流	Data Horizon 项目入口（由 Controller 判断）

参考评估结果不能直接成为产品定义、MVP、接口契约或工程实施计划。

1. 定位​

2. 参考评估问题域​

3. 参考项目筛选原则​

4. 候选参考对象 Shortlist​

4.1 Benzinga News API​

4.2 SEC EDGAR APIs​

4.3 GDELT DOC 2.0 API​

4.4 OpenBB Platform​

4.5 Dagster​

4.6 Apache Airflow​

4.7 Label Studio​

5. 已完成评估​

6. 评估方法​

7. 输出对象参考评估优先级​

Tier 1：参考评估必须覆盖​

Tier 2：参考评估应覆盖​

Tier 3：接口与工作流​

8. 与 Data Horizon 项目知识库的回流关系​

9. 相关文档​