Sync: Data Horizon Challenge-First Alignment Packet

日期：2026-05-12 来源项目 / 材料：Data Horizon / 数据视界、Labs-FinTecAI-Gov、/Users/mlabs/Programs/data-horizon 提交人 / 责任人：Curvature Labs ecosystem owner 当前状态：Draft / alignment packet skeleton 当前实践画像：projects/data-horizon/current-practice-profile.md 当前输出对象清单：projects/data-horizon/output-object-inventory.md

0. 当前定位

本文是 Data Horizon / 数据视界 的挑战优先对齐包初版。

它用于承载：

上游生态定义和 Data Horizon 正式定位；
当前本地工程实践画像；
当前实现需要被挑战的问题；
待建立的参考评估问题域；
第三方参考评估准入；
后续方案建议、工程输入和 sync / escalation 候选。

本文不是：

最终产品定义；
MVP 定义；
工程实施计划；
backlog；
对当前 /Users/mlabs/Programs/data-horizon 实现正确性或最优性的证明。

1. 上游定位

当前已对齐口径：

Data Horizon / 数据视界 是 FinTec AI Ecosystem 中的独立金融信息感知系统和产品；
它是金融信息链路中的“感知”环节，是金融“眼”；
它可以服务生态内对象，也可以形成 To B / To C 的独立商业化产品或系统；
它不承担主要金融认知中枢、最终研究结论、策略判断、交易执行或执行风控职责；
它的第一阶段价值不应被定义为“成功向 FinClaw 或 AI Trading Matrix 供数”，而应证明独立金融信息产品闭环成立。

当前治理事实源：

baseline/03-current-baseline.md
registry/project-registry.md
projects/data-horizon/project-anchor.md
projects/data-horizon/inherited-context.md
projects/data-horizon/current-state.md

2. 当前工程实践画像

本地工程仓库：

路径：/Users/mlabs/Programs/data-horizon
当前性质：早期工程实践资产，不是正式产品定义源。

初步已观察到的工程能力：

Go 后端：server/，基于 go-zero；
Python 采集服务：python-service/，当前更像补充或示例层；
前端控制台：web/；
Watchdog：watchdog/；
数据存储：MySQL、Redis、Weaviate；
核心链路：采集任务写入 dn_raw_news，标准化任务处理 pending 信息，后续进入 Agent / direct push / push log；
已存在信息源管理、标准化配置、订阅者配置、Open API、后台 news-feed 管理接口、Telegram / webhook / Trading Matrix 推送路径。

初步已观察到的信息源范围：

加密媒体与 RSS；
全球英文财经媒体；
中文快讯；
TelegramRSS；
宏观 / 市场信号；
部分权益新闻扩展分析材料；
部分宏观、财政、供应链、Yahoo Finance 信号任务。

初步已观察到的标准化能力：

内容清洗；
翻译；
可选图片分析；
LLM 抽取 subjects、category、keywords；
Weaviate 语义去重；
处理状态、错误、耗时记录。

初步已观察到的输出能力：

dn_raw_news 标准化记录；
std_content_zh / std_content_en；
subjects；
std_extra.category / std_extra.keywords；
Open API news latest/search/detail；
categories / hot assets；
Telegram / webhook / Trading Matrix push log；
后台 news-feed source tree、list、header、authors。

3. 当前文档漂移

本地工程仓库存在旧 PRD / 产品定义材料，其部分语言与当前上游口径冲突或需要降级为历史材料。

已识别的漂移包括：

将 Data Horizon 写成“认知层”；
将输出重点写成“交易信号”和“深度情报”；
将 Stage 1 目标写成服务 Trading Matrix 和跑通 RMF 闭环；
过早强调 PnL 反馈、信源信誉和信号准确率校准；
容易把感知层能力推向认知、执行支持或交易触发。

处理原则：

旧 PRD 不能反向覆盖 Labs-FinTecAI-Gov 中的上位生态定义和 Data Horizon 项目定义；
旧 PRD 可作为工程历史、实践线索和待挑战材料；
是否保留其中某些概念，必须通过当前对齐包和参考评估准入后再判断。

4. 挑战清单

后续 Data Horizon alignment 必须从上位定义反向挑战当前实现，而不是替当前实现背书。

初始挑战问题：

定位挑战
- 当前文档和实现是否仍把 Data Horizon 推向“认知层”“交易信号层”或 Trading Matrix 附属模块？
架构挑战
- 当前 Go + Python + MySQL + Redis + Weaviate + Web 的组合是否适合长期高频、低成本、可追溯的金融信息感知？
- 哪些部分应保留，哪些部分应重构、拆分、替换或降级？
流程挑战
- 当前是否过度依赖统一 AI 标准化流水线？
- 是否需要将规则/解析器、传统 NLP/搜索、本地小模型、缓存复用、云端 LLM 和人工复核分层？
数据模型挑战
- 当前 dn_raw_news 是否足以表达 provenance、质量、授权、覆盖、适用限制、生命周期、修订历史和证据包？
- 当前 subjects/category/keywords 是否过窄？
接口挑战
- 当前 Open API、webhook、push、news-feed 管理接口是否足以支撑内部人类控制台、机器消费、To B 和 To C 产品面？
- 是否需要 MCP、CLI、Skills、streaming feed、bulk export 或 dataset manifest？
控制台挑战
- 当前前端/后台是否应按现有菜单评估，还是按内部控制台工作流能力评估？
- 当前是否覆盖 source operations、ingestion monitoring、processing observability、information review、quality labeling、search/retrieval、subscription management、cost monitoring、failure recovery、export 和 evidence packaging？
成本挑战
- 当前采集、标准化、翻译、图片/多模态处理、向量索引、推送、重试、重复处理和人工复核的成本是否可被观测、约束和分层？
协同挑战
- 当前是否过早绑定 Trading Matrix 或某个下游系统？
- Data Horizon 与 FinClaw、AI Trading Matrix、RLE、FEFM 的协同模式是否先被清单化，而不是直接冻结接口契约？

5. 参考评估前置问题域

本阶段暂不冻结最小产品输出对象、结构定义、接口和架构。

应先建立以下参考评估前置问题域：

输出对象
- 初版：projects/data-horizon/output-object-inventory.md
- 状态：current implemented / current partial / documented but not implemented / reference candidate / proposed later / should avoid
- 范围：当前输出对象、文档中提出对象、参考对象、候选对象、应避免对象。
质量 / provenance 参考评估问题域
- 评估当前实践是否可追溯、可解释、可复核、可治理；
- 评估参考项目如何处理来源、时效、授权、覆盖、质量反馈和适用限制；
- 避免把感知对象伪装成确定性判断或交易触发器。
感知能力
- 评估当前实践和参考项目如何完成监听、采集、清洗、组织、标准化、来源 / 时间 / 质量标记和输出。
信息覆盖
- 评估非结构化信息、结构化金融数据、跨市场主题、事件流、项目更新和合法授权信息源的覆盖方式。
标准化方式
- 评估规则、解析器、传统 NLP / 搜索、本地或小模型、缓存复用、云端 LLM 和人工复核如何分工。
存储检索
- 评估原始内容、规范化结果、搜索、语义检索、证据材料、数据集和缓存如何被组织，但不在当前阶段冻结结构设计。
订阅推送与接口形态
- 评估 Open API、后台 API、Telegram / webhook / Trading Matrix push、MCP、CLI、Skills、streaming feed、bulk export 和 dataset package 等形态能回答哪些上位问题，但不冻结接口优先级。
产品交互
- 评估内部运营控制台、人类信息产品、机器消费面、外部 B 端和外部 C 端产品面分别需要验证什么价值。
成本控制
- 评估高频、持久、成本密集的金融信息感知链路如何在质量约束下控制采集、标准化、翻译、多模态处理、索引、推送、重试和人工复核成本。
治理合规

评估来源授权、非公开信息、可追溯、可解释、可复核、可治理和用户误导风险。

生态协同

评估 Data Horizon 与 FinClaw、AI Trading Matrix、Reinforcement Learning Engine、Financial Expert Foundation Model、外部 B 端 / C 端消费者的协同边界，但不冻结接口契约。

6. 参考评估准入

Data Horizon 后续增强建议前必须完成 reference evaluation gate。

筛选方式：

不从固定竞品分类出发；
不先假定 Bloomberg、金融新闻 API、另类数据商或开源 Agent 项目就是参考池；
先从 Data Horizon 的第一性角色、职责、场景和能力问题出发；
再为每个问题选择最合适的参考产品、项目、架构、协议、服务或实现。

当前参考评估维度候选：

能力范围；
架构框架；
技术栈与开发语言；
金融信息覆盖；
标准化处理；
存储模型；
检索能力；
订阅 / 推送；
协议定义；
接口形态；
人类产品交互；
生态协同；
成本控制；
质量与合规边界。

参考评估结果形成前，不输出正式工程重构、迭代、优化或修复建议。

7. 消费对象优先级

当前已对齐的第一阶段消费对象优先级：

内部人类操作员 / 研究员；
内部机器消费方；
外部 B 端用户；
外部 C 端用户。

含义：

第一阶段人类产品面是 Curvature Labs 内部 Data Horizon 后台系统 / 控制台 / Dashboard；
当前工程仓库已有部分实现，但不代表完整或最优方案；
后续应按内部工作流能力评估，而不是按当前菜单或页面结构评估；
不应一开始把 Data Horizon 变成 Trading Matrix 附属数据模块；
不应一开始以 To C 内容应用为主线。

8. 决策候选

以下内容目前只能作为候选，不应进入最终结论：

是否保留当前 Go 后端主线；
Python 采集服务应保留、增强、替换还是降级；
当前 MySQL 表结构是否继续作为主存储；
Weaviate 是否只用于去重，还是扩展为语义检索/聚类；
是否引入独立 Search Index；
是否引入对象存储和 dataset/export store；
是否建立 MCP / CLI / Skills；
是否重构控制台信息架构；
是否重新定义 Open API；
是否建立参考评估 case library；
哪些当前输出对象应保留、合并、改名或废弃。

这些候选必须等待 inventory 和 reference evaluation gate 后再进入方案建议。

9. 工程输入候选

当前仅记录候选，不形成 backlog：

本地工程实践画像补全；
当前实现挑战清单补全；
输出对象清单初版已形成，后续补充运行样例和参考评估对照；
质量 / provenance 参考评估问题域；
感知能力参考评估问题域；
信息覆盖参考评估问题域；
标准化方式参考评估问题域；
存储检索参考评估问题域；
订阅推送与接口形态参考评估问题域；
内部控制台工作流能力评估；
生态协同参考评估问题域；
参考评估计划；
参考评估 case library；
参考项目筛选、体验、测试、评估和交叉对比。

10. Sync / Escalation 候选

后续若出现以下情况，应考虑 sync 或 escalation：

当前实践证明生态基线中的 Data Horizon 感知边界不够用；
某些本地对象、结构定义、质量维度或协议应上升为生态共享定义；
当前实现已经进入认知、策略判断、决策支持或执行触发边界；
非公开信息、授权、合规或用户误导风险超出当前治理口径；
Data Horizon -> FinClaw 或 Data Horizon -> AI Trading Matrix 协同模式需要正式裁决；
参考评估发现当前项目定义需要重大修改；
成本控制约束要求改变架构或产品范围。

11. 当前下一步

建议下一步按顺序推进：

将本文作为 Data Horizon alignment packet draft 入口；
以 projects/data-horizon/current-practice-profile.md 作为当前工程实践画像初版；
基于画像建立当前实现挑战清单；
建立第三方参考项目筛选原则；
建立参考评估问题域，覆盖感知能力、信息覆盖、标准化方式、存储检索、订阅推送、接口形态、产品交互、成本控制、治理合规等上位问题；
制定参考评估第一批问题和参考对象筛选方法；
再进入参考项目筛选、体验、测试、评估和交叉对比。

12. 吸收状态

当前本文为 draft sync。

可能吸收位置：

projects/data-horizon/current-state.md
projects/data-horizon/project-anchor.md
projects/data-horizon/inherited-context.md
后续 projects/data-horizon/CONTEXT.md
governance/program-controller-operating-model.md
后续 Data Horizon Program Controller handoff

当前不应吸收为：

最终产品定义；
MVP 定义；
工程实施任务；
正式接口契约。

0. 当前定位​

1. 上游定位​

2. 当前工程实践画像​

3. 当前文档漂移​

4. 挑战清单​

5. 参考评估前置问题域​

6. 参考评估准入​

7. 消费对象优先级​

8. 决策候选​

9. 工程输入候选​

10. Sync / Escalation 候选​

11. 当前下一步​

12. 吸收状态​