跳到主要内容

Data Horizon 参考层入口

状态:Draft / reference hub 最后更新:2026-05-21 项目:Data Horizon / 数据视界

1. 定位

本文档是 Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。

本文档不是:

  • 产品定义或 MVP 定义;
  • 工程实施计划或 backlog;
  • 当前实践正确性或最优性的证明;
  • 竞品报告或市场分析。

本文档用于回答:

Data Horizon 应参考哪些外部产品、项目、架构、协议或实现,来回答自身的感知能力、信息覆盖、标准化、存储检索、接口形态、产品交互、成本控制和治理合规问题?

2. 参考评估问题域

参考评估应覆盖以下上位问题域:

优先级维度上位问题
P0感知能力同类产品/系统如何完成金融信息监听、采集、清洗、标准化?
P0信息覆盖同类产品/系统覆盖哪些市场、资产、信息源、数据类型?
P0质量与溯源同类产品/系统如何标记来源、时效、质量、授权和适用限制?
Core标准化方式规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层?
Core存储检索原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层?
Core接口形态API / feed / MCP / CLI / export 等形态的实际案例?
Core成本控制高频持久采集链路的成本结构和控制手段?
Extension产品交互内部控制台、B 端、C 端产品面的实际案例?
Extension生态协同感知层与认知/执行系统的协同模式?
Extension治理合规来源授权、非公开信息、用户误导风险的处理方式?

3. 参考项目筛选原则

筛选方式:

  • 不从固定竞品分类出发;
  • 不先假定 Bloomberg、金融新闻 API、另类数据商或开源 Agent 项目就是参考池;
  • 先从 Data Horizon 的第一性角色、职责、场景和能力问题出发;
  • 再为每个问题选择最合适的参考产品、项目、架构、协议、服务或实现;
  • 每个参考对象必须明确回答上方问题域中的哪些维度。

4. 候选参考对象 Shortlist

当前状态:首批候选已登记 / 尚未评估

本 shortlist 只登记参考候选,不构成吸收建议、产品定义、MVP 输入或工程实施依据。每个候选对象都必须在后续独立分析或体验报告中完成证据记录后,才允许回流到 Data Horizon 项目事实源。

4.1 Benzinga News API

  • 类型:金融新闻 API 服务
  • 覆盖维度:感知能力、信息覆盖、接口形态、时间语义
  • 回答的上位问题:商业金融新闻 API 如何提供实时新闻、过滤条件和机器消费接口?
  • 评估方式:desk research / API docs review / 可选 API 测试
  • 评估状态:待筛选
  • 计划产出:Benzinga News API 独立参考分析报告
  • 初始来源:Benzinga News API docs

4.2 SEC EDGAR APIs

  • 类型:官方披露数据 API / 监管信息源
  • 覆盖维度:信息覆盖、质量与溯源、授权边界、结构化披露数据
  • 回答的上位问题:官方披露数据如何表达来源、时间、公司主体、归档路径和可复查性?
  • 评估方式:official docs review / sample endpoint test / disclosure object mapping
  • 评估状态:待筛选
  • 计划产出:SEC EDGAR 独立参考分析报告
  • 初始来源:SEC EDGAR API documentationSEC Developer Resources

4.3 GDELT DOC 2.0 API

  • 类型:全球新闻检索 / 事件资料库
  • 覆盖维度:感知能力、信息覆盖、检索、跨语种新闻材料
  • 回答的上位问题:大规模全球新闻资料库如何支持检索、时间窗口、主题观察和跨来源材料获取?
  • 评估方式:desk research / query sample / coverage and freshness review
  • 评估状态:待筛选
  • 计划产出:GDELT DOC 2.0 API 独立参考分析报告
  • 初始来源:GDELT DOC 2.0 API announcement

4.4 OpenBB Platform

  • 类型:开源金融数据平台 / provider connector 架构参考
  • 覆盖维度:接口形态、数据连接器、Python client / FastAPI、扩展机制
  • 回答的上位问题:金融数据平台如何组织多 provider 接入、扩展、API / SDK 暴露和本地消费?
  • 评估方式:docs review / connector architecture review / optional local exploration
  • 评估状态:待筛选
  • 计划产出:OpenBB Platform 独立参考分析报告
  • 初始来源:OpenBB Platform developer guide

4.5 Dagster

  • 类型:开源数据编排 / asset-based pipeline 参考
  • 覆盖维度:架构、成本控制、可观测性、数据 lineage、freshness、pipeline testability
  • 回答的上位问题:Data Horizon 这类持续感知系统如何把来源、处理链路、资产状态、刷新和可观测性建模为一等对象?
  • 评估方式:docs review / asset model analysis / observability pattern mapping
  • 评估状态:待筛选
  • 计划产出:Dagster 独立参考分析报告
  • 初始来源:Dagster platform overviewDagster docs

4.6 Apache Airflow

  • 类型:开源 workflow / DAG 编排参考
  • 覆盖维度:采集任务编排、调度、重试、依赖、运维边界
  • 回答的上位问题:当前 Cron / Job 链路在持续采集、失败恢复、任务依赖和运营可见性上应被哪些成熟编排模式挑战?
  • 评估方式:docs review / workflow model comparison / current job chain mapping
  • 评估状态:待筛选
  • 计划产出:Apache Airflow 独立参考分析报告
  • 初始来源:Apache Airflow documentation

4.7 Label Studio

  • 类型:开源数据标注 / human review workflow 参考
  • 覆盖维度:产品交互、人工复核、质量标注、数据集导入导出、API
  • 回答的上位问题:内部操作员如何对感知输出做复核、纠错、质量标签和后续训练 / 评估数据沉淀?
  • 评估方式:docs review / workflow mapping / optional local trial
  • 评估状态:待筛选
  • 计划产出:Label Studio 独立参考分析报告
  • 初始来源:Label Studio API docs

首批候选覆盖关系:

类别候选对象
金融信息 API 服务Benzinga News API、GDELT DOC 2.0 API
官方 / 高 provenance 信息源SEC EDGAR APIs
金融数据平台 / connector 架构OpenBB Platform
开源 pipeline / 编排框架Dagster、Apache Airflow
内部复核 / 标注工作流Label Studio

每个候选对象应按以下格式登记:

### X.X <参考对象名>

- 类型:<API 服务 / 开源项目 / 商业平台 / 协议 / 架构参考>
- 覆盖维度:<覆盖维度列表>
- 回答的上位问题:<具体问题>
- 评估方式:<desk research / 注册体验 / API 测试 / 代码阅读 / 部署复现>
- 评估状态:<待筛选 / 待体验 / 待评估 / 已完成>
- 计划产出:<独立参考分析报告或复现 / 体验证据报告>

5. 已完成评估

截至 2026-05-18,暂无已完成评估。

6. 评估方法

参考 第三方参考项目评估方法 的通用方法。Data Horizon 专属补充:

  • Desk research 应产出独立参考分析报告;
  • 复现 / 体验应产出可追溯证据报告;
  • 多对象比较应产出交叉对比结论;
  • 评估必须显式标注该参考对象对 Data Horizon 当前实践画像的挑战点和吸收建议

7. 输出对象参考评估优先级

Tier 1:参考评估必须覆盖

候选对象参考评估需回答
Perception Record单条金融信息感知记录应包含什么?质量、溯源和生命周期如何表达?
Financial Information Feed面向不同消费者的 feed 形态如何区分?
Data Quality / Provenance Metadata来源、时效、授权、质量和溯源链路的最小底线字段?

Tier 2:参考评估应覆盖

候选对象参考评估需回答
Evidence Package证据保留、原文快照、多源印证的最小可行方式?
Dataset Package训练/评估/B端交付的数据包 manifest?
Source Reliability Profile非交易化的来源质量观测维度?

Tier 3:接口与工作流

候选对象参考评估需回答
Machine Feed ContractREST / webhook / streaming / MCP / bulk export 选型依据?
Human Review / Quality Label内部复核工作流最小能力集?
Retrieval Result检索结果对象如何表达匹配原因、时间、来源、质量?

8. 与 Data Horizon 项目知识库的回流关系

参考评估的稳定结论应回写到:

结论类型写回位置
参考对象分析独立参考分析报告
复现/体验证据可追溯证据报告
交叉对比结论Data Horizon 参考对象交叉对比结论
对产品定义的回流候选产品定义(创建后承接)
对系统定义的回流候选系统定义(创建后承接)
对工程事实审计的回流候选工程事实审计(创建后承接)
对当前入口的回流Data Horizon 项目入口(由 Controller 判断)

参考评估结果不能直接成为产品定义、MVP、接口契约或工程实施计划。

9. 相关文档