Data Horizon 参考层入口
状态:Draft / reference hub 最后更新:2026-05-21 项目:Data Horizon / 数据视界
1. 定位
本文档是 Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。
本文档不是:
- 产品定义或 MVP 定义;
- 工程实施计划或 backlog;
- 当前实践正确性或最优性的证明;
- 竞品报告或市场分析。
本文档用于回答:
Data Horizon 应参考哪些外部产品、项目、架构、协议或实现,来回答自身的感知能力、信息覆盖、标准化、存储检索、接口形态、产品交互、成本控制和治理合规问题?
2. 参考评估问题域
参考评估应覆盖以下上位问题域:
| 优先级 | 维度 | 上位问题 |
|---|---|---|
| P0 | 感知能力 | 同类产品/系统如何完成金融信息监听、采集、清洗、标准化? |
| P0 | 信息覆盖 | 同类产品/系统覆盖哪些市场、资产、信息源、数据类型? |
| P0 | 质量与溯源 | 同类产品/系统如何标记来源、时效、质量、授权和适用限制? |
| Core | 标准化方式 | 规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层? |
| Core | 存储检索 | 原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层? |
| Core | 接口形态 | API / feed / MCP / CLI / export 等形态的实际案例? |
| Core | 成本控制 | 高频持久采集链路的成本结构和控制手段? |
| Extension | 产品交互 | 内部控制台、B 端、C 端产品面的实际案例? |
| Extension | 生态协同 | 感知层与认知/执行系统的协同模式? |
| Extension | 治理合规 | 来源授权、非公开信息、用户误导风险的处理方式? |
3. 参考项目筛选原则
筛选方式:
- 不从固定竞品分类出发;
- 不先假定 Bloomberg、金融新闻 API、另类数据商或开源 Agent 项目就是参考池;
- 先从 Data Horizon 的第一性角色、职责、场景和能力问题出发;
- 再为每个问题选择最合适的参考产品、项目、架构、协议、服务或实现;
- 每个参考对象必须明确回答上方问题域中的哪些维度。
4. 候选参考对象 Shortlist
当前状态:首批候选已登记 / 尚未评估
本 shortlist 只登记参考候选,不构成吸收建议、产品定义、MVP 输入或工程实施依据。每个候选对象都必须在后续独立分析或体验报告中完成证据记录后,才允许回流到 Data Horizon 项目事实源。
4.1 Benzinga News API
- 类型:金融新闻 API 服务
- 覆盖维度:感知能力、信息覆盖、接口形态、时间语义
- 回答的上位问题:商业金融新闻 API 如何提供实时新闻、过滤条件和机器消费接口?
- 评估方式:desk research / API docs review / 可选 API 测试
- 评估状态:待筛选
- 计划产出:Benzinga News API 独立参考分析报告
- 初始来源:Benzinga News API docs
4.2 SEC EDGAR APIs
- 类型:官方披露数据 API / 监管信息源
- 覆盖维度:信息覆盖、质量与溯源、授权边界、结构化披露数据
- 回答的上位问题:官方披露数据如何表达来源、时间、公司主体、归档路径和可复查性?
- 评估方式:official docs review / sample endpoint test / disclosure object mapping
- 评估状态:待筛选
- 计划产出:SEC EDGAR 独立参考分析报告
- 初始来源:SEC EDGAR API documentation、SEC Developer Resources
4.3 GDELT DOC 2.0 API
- 类型:全球新闻检索 / 事件资料库
- 覆盖维度:感知能力、信息覆盖、检索、跨语种新闻材料
- 回答的上位问题:大规模全球新闻资料库如何支持检索、时间窗口、主题观察和跨来源材料获取?
- 评估方式:desk research / query sample / coverage and freshness review
- 评估状态:待筛选
- 计划产出:GDELT DOC 2.0 API 独立参考分析报告
- 初始来源:GDELT DOC 2.0 API announcement
4.4 OpenBB Platform
- 类型:开源金融数据平台 / provider connector 架构参考
- 覆盖维度:接口形态、数据连接器、Python client / FastAPI、扩展机制
- 回答的上位问题:金融数据平台如何组织多 provider 接入、扩展、API / SDK 暴露和本地消费?
- 评估方式:docs review / connector architecture review / optional local exploration
- 评估状态:待筛选
- 计划产出:OpenBB Platform 独立参考分析报告
- 初始来源:OpenBB Platform developer guide
4.5 Dagster
- 类型:开源数据编排 / asset-based pipeline 参考
- 覆盖维度:架构、成本控制、可观测性、数据 lineage、freshness、pipeline testability
- 回答的上位问题:Data Horizon 这类持续感知系统如何把来源、处理链路、资产状态、刷新和可观测性建模为一等对象?
- 评估方式:docs review / asset model analysis / observability pattern mapping
- 评估状态:待筛选
- 计划产出:Dagster 独立参考分析报告
- 初始来源:Dagster platform overview、Dagster docs
4.6 Apache Airflow
- 类型:开源 workflow / DAG 编排参考
- 覆盖维度:采集任务编排、调度、重试、依赖、运维边界
- 回答的上位问题:当前 Cron / Job 链路在持续采集、失败恢复、任务依赖和运营可见性上应被哪些成熟编排模式挑战?
- 评估方式:docs review / workflow model comparison / current job chain mapping
- 评估状态:待筛选
- 计划产出:Apache Airflow 独立参考分析报告
- 初始来源:Apache Airflow documentation
4.7 Label Studio
- 类型:开源数据标注 / human review workflow 参考
- 覆盖维度:产品交互、人工复核、质量标注、数据集导入导出、API
- 回答的上位问题:内部操作员如何对感知输出做复核、纠错、质量标签和后续训练 / 评估数据沉淀?
- 评估方式:docs review / workflow mapping / optional local trial
- 评估状态:待筛选
- 计划产出:Label Studio 独立参考分析报告
- 初始来源:Label Studio API docs
首批候选覆盖关系:
| 类别 | 候选对象 |
|---|---|
| 金融信息 API 服务 | Benzinga News API、GDELT DOC 2.0 API |
| 官方 / 高 provenance 信息源 | SEC EDGAR APIs |
| 金融数据平台 / connector 架构 | OpenBB Platform |
| 开源 pipeline / 编排框架 | Dagster、Apache Airflow |
| 内部复核 / 标注工作流 | Label Studio |
每个候选对象应按以下格式登记:
### X.X <参考对象名>
- 类型:<API 服务 / 开源项目 / 商业平台 / 协议 / 架构参考>
- 覆盖维度:<覆盖维度列表>
- 回答的上位问题:<具体问题>
- 评估方式:<desk research / 注册体验 / API 测试 / 代码阅读 / 部署复现>
- 评估状态:<待筛选 / 待体验 / 待评估 / 已完成>
- 计划产出:<独立参考分析报告或复现 / 体验证据报告>
5. 已完成评估
截至 2026-05-18,暂无已完成评估。
6. 评估方法
参考 第三方参考项目评估方法 的通用方法。Data Horizon 专属补充:
- Desk research 应产出独立参考分析报告;
- 复现 / 体验应产出可追溯证据报告;
- 多对象比较应产出交叉对比结论;
- 评估必须显式标注该参考对象对 Data Horizon 当前实践画像的挑战点和吸收建议
7. 输出对象参考评估优先级
Tier 1:参考评估必须覆盖
| 候选对象 | 参考评估需回答 |
|---|---|
| Perception Record | 单条金融信息感知记录应包含什么?质量、溯源和生命周期如何表达? |
| Financial Information Feed | 面向不同消费者的 feed 形态如何区分? |
| Data Quality / Provenance Metadata | 来源、时效、授权、质量和溯源链路的最小底线字段? |
Tier 2:参考评估应覆盖
| 候选对象 | 参考评估需回答 |
|---|---|
| Evidence Package | 证据保留、原文快照、多源印证的最小可行方式? |
| Dataset Package | 训练/评估/B端交付的数据包 manifest? |
| Source Reliability Profile | 非交易化的来源质量观测维度? |
Tier 3:接口与工作流
| 候选对象 | 参考评估需回答 |
|---|---|
| Machine Feed Contract | REST / webhook / streaming / MCP / bulk export 选型依据? |
| Human Review / Quality Label | 内部复核工作流最小能力集? |
| Retrieval Result | 检索结果对象如何表达匹配原因、时间、来源、质量? |
8. 与 Data Horizon 项目知识库的回流关系
参考评估的稳定结论应回写到:
| 结论类型 | 写回位置 |
|---|---|
| 参考对象分析 | 独立参考分析报告 |
| 复现/体验证据 | 可追溯证据报告 |
| 交叉对比结论 | Data Horizon 参考对象交叉对比结论 |
| 对产品定义的回流 | 候选产品定义(创建后承接) |
| 对系统定义的回流 | 候选系统定义(创建后承接) |
| 对工程事实审计的回流 | 候选工程事实审计(创建后承接) |
| 对当前入口的回流 | Data Horizon 项目入口(由 Controller 判断) |
参考评估结果不能直接成为产品定义、MVP、接口契约或工程实施计划。