Data Horizon 信源候选与样本交付任务书

本文给 Data Horizon 负责人、DH 执行 Agents 和 Trading Matrix 团队共用，目的是把“职业交易员 / 分析师信源如何进入 Trading Matrix 第一阶段验证闭环”拆成可执行任务、接口方案和验收标准。

本文承接 AI Trading Matrix 战略白皮书与 AI Trading Matrix 产品定义，并将第一阶段讨论中的 DH 信源、样本、质量初评和 Trading Matrix 验证分工整理为可领取的实施任务。

1. 核心结论

Data Horizon 在这项工作中的职责不是做回测、实盘、赛马或核心策略判断，而是稳定交付可归因、可抽样、可刷新、可交接的信源和信号样本。

Trading Matrix 负责把 DH 交付的信源和样本转成策略种子、候选策略、验证实例、赛马评估和策略资产状态。

第一阶段应按这个节奏推进：

静态报告只适合作为第一批 baseline。长期需要 DH 管理后台或 DH 数据服务提供动态候选列表，因为交易员的关注市场、交易风格、信号质量和活跃周期都会变化，也可能持续新增或淘汰信源。

2. 分工边界

事项	Data Horizon 负责	Trading Matrix 负责
信源发现	发现、登记、去重、更新职业交易员 / 分析师 / 频道。	接收信源引用，不重复维护发现链路。
原始样本	保存原始内容、发布时间、抓取时间、来源链接或原始记录。	引用样本生成策略种子，保留回链。
信源画像	输出市场侧重、标的偏好、周期、风格、活跃状态、噪声情况。	用画像做分组评估和赛马维度。
质量初评	评估样本完整性、时效性、可解析度、重复噪声、历史表现线索。	不把 DH 初评分当作收益表现，只作为候选优先级。
候选推荐	输出推荐进入验证的信源、样本和理由。	决定是否生成策略种子、候选策略和验证实例。
回测 / 模拟 / 实盘	不负责。	负责验证运行、资金边界、账户、风控和证据。
赛马和资产状态	不负责最终结论。	负责观察池、失败案例、核心策略候选等状态。

DH 的评分是“信息源质量评分”，Trading Matrix 的评分是“策略验证表现评分”。两者必须分开。

3. 交付目标

3.1 第一批 baseline

DH 需要先交付一份可导入或可对接的静态 baseline：

第一批职业交易员 / 分析师 / 频道候选名单；
每个信源的基础身份、来源渠道、状态和追踪理由；
每个信源近一段时间的代表性信号样本；
样本的原始内容、发布时间、抓取时间、涉及标的、方向、时间周期和置信线索；
初步分类：优先验证、继续观察、低优先级、暂不适合；
每个推荐信源进入 Trading Matrix 验证的理由。

第一批 baseline 的目的不是证明谁能赚钱，而是让 Trading Matrix 有足够真实、可追溯、可分类的输入样本来设计策略种子、回测和赛马机制。

3.2 动态能力

baseline 完成后，DH 应提供一个动态功能或数据服务，支持团队查看和刷新候选列表：

新增信源自动或半自动进入待复核队列；
信源活跃状态、市场侧重和风格标签可随时间更新；
样本可以按时间、标的、市场、方向、信源、质量状态筛选；
每个信源可以看到历史样本、近期样本、质量初评和 Trading Matrix 反馈；
Trading Matrix 可以定期拉取增量信源和增量样本。

该功能更适合由 DH 负责在 DH 管理后台或 DH 数据服务中落地。Trading Matrix 只需要消费标准化接口，并把验证结果反馈给 DH。

4. 工作包

DH-1 信源候选名单

目的：建立第一批可被 Trading Matrix 消费的信源注册表。

任务：

汇总当前 DH 已跟踪的职业交易员、分析师、频道、社群或其他信号来源；
给每个信源分配稳定 source_id；
标记 source_type，例如职业交易员、分析师、新闻源、链上观察源、社群频道；
记录来源渠道、展示名称、原始账号或频道标识、语言、地区、可访问状态；
标记当前状态：活跃、低活跃、待复核、暂停、淘汰；
记录入选原因和 DH 负责人备注。

验收标准：

至少能输出一批去重后的信源候选；
每个信源都有稳定 ID、来源渠道、状态和入选理由；
同一个人或频道跨平台出现时可以被合并或建立关联；
无来源不明、无法追溯的匿名候选进入优先验证列表。

DH-2 样本抽取与原始记录保真

目的：让 Trading Matrix 可以从真实样本生成策略种子，而不是只看信源简介。

任务：

为每个候选信源抽取历史样本和近期样本；
保留原始文本、图片描述、结构化字段、链接或原始记录引用；
记录样本发布时间、DH 抓取时间、样本进入系统时间；
标记涉及标的、市场、方向、交易周期、入场线索、退出线索、风险提示；
标记样本是否可解析为策略种子；
标记重复、过期、内容缺失、截图难解析等质量问题。

验收标准：

每条样本都能追溯到 source_id 和原始记录；
样本不因摘要处理丢失关键交易条件；
发布时间、抓取时间、入库时间三类时间字段不能混淆；
至少能区分“可生成策略种子”和“仅可作为背景观察”的样本；
重复样本不会被当作多条独立信号扩大权重。

DH-3 信源画像与动态标签

目的：让 Trading Matrix 能按同口径比较信源，而不是只看单条信号。

任务：

为每个信源维护市场侧重，例如 BTC、ETH、主流币、山寨币、宏观、链上、事件驱动；
维护交易周期，例如短线、日内、波段、中长期；
维护风格标签，例如趋势、反转、突破、套利、新闻驱动、风险提示、仓位管理；
维护内容类型，例如明确交易信号、观点分析、复盘、预警、持仓披露；
维护活跃窗口和近期变化；
记录标签置信度和人工复核状态。

验收标准：

每个优先验证信源至少有市场侧重、周期、风格、内容类型和活跃状态；
标签能随样本变化更新，不能一次性写死；
人工标签和自动标签要能区分；
低置信标签不能作为 Trading Matrix 自动执行依据。

DH-4 信息源质量初评

目的：在进入 Trading Matrix 前先排除明显低质量输入，并给验证优先级排序。

任务：

评估样本完整性：是否包含标的、方向、触发、退出或风险信息；
评估时效性：发布时间到 DH 捕获的延迟；
评估可解析度：是否能稳定转成结构化字段；
评估噪声和重复：广告、情绪化内容、重复搬运、事后复盘；
记录历史线索：过往观点是否有可验证表现，但不替代 Trading Matrix 验证；
输出 DH 初评等级：A 优先验证、B 继续观察、C 低优先级、D 暂不适合。

验收标准：

每个优先验证信源都有初评等级和理由；
初评理由必须来自样本证据，而不是主观印象；
初评不宣称收益能力，只说明输入质量和验证价值；
被判为 D 的信源要有明确原因，例如噪声高、不可追溯、严重滞后、无法解析。

DH-5 候选推荐与 Trading Matrix 交接

目的：把 DH 侧名单和样本转成 Trading Matrix 可以启动验证的候选包。

任务：

输出推荐信源清单；
为每个推荐信源提供代表样本和推荐理由；
标记适合的验证方向，例如跟单观察、事件策略、趋势策略、风险预警、交叉验证；
标记不适合直接进入验证的原因；
提供 source_id、sample_id、raw_ref 等交接字段；
接收 Trading Matrix 反馈，包括已生成策略种子、已进入验证、失败原因、降权或继续观察。

验收标准：

Trading Matrix 可以用 DH 候选包生成策略种子；
每个进入 Trading Matrix 的样本都有 DH 原始回链；
DH 能接收并展示 Trading Matrix 的验证反馈；
候选包不会混入无原始记录、无时间戳、无来源归因的数据。

DH-6 动态后台与接口

目的：把一次性报告升级为持续更新的数据能力。

任务：

在 DH 管理后台或数据服务中提供信源候选列表；
提供信源详情页或详情接口；
提供样本列表、筛选、导出或 API；
提供增量更新机制；
提供 Trading Matrix 反馈字段回写位置；
提供基础审计：谁修改了标签、等级、状态和推荐理由。

验收标准：

Trading Matrix 不依赖人工复制粘贴获取新信源和新样本；
新增信源、状态变化和样本增量可以被定期拉取；
DH 侧能看到 Trading Matrix 对信源和样本的验证反馈；
后台和接口的字段口径一致。

5. 最小字段口径

5.1 信源字段

字段	说明
`source_id`	DH 生成的稳定信源 ID。
`source_type`	职业交易员、分析师、频道、新闻源、链上源、其他。
`display_name`	展示名称。
`channel`	来源渠道。
`external_ref`	原始账号、频道、链接或内部引用。
`market_scope`	主要市场和标的范围。
`signal_style`	信号风格或内容风格。
`active_status`	活跃、低活跃、待复核、暂停、淘汰。
`dh_quality_grade`	A、B、C、D 初评等级。
`dh_quality_reason`	初评理由。
`last_sample_at`	最近样本发布时间。
`created_at`	信源登记时间。
`updated_at`	最近更新时间。

5.2 样本字段

字段	说明
`sample_id`	DH 生成的稳定样本 ID。
`source_id`	所属信源。
`raw_ref`	原始记录、链接、截图或内部对象引用。
`raw_content`	原始内容或可审计摘要。
`published_at`	原始发布时间。
`captured_at`	DH 捕获时间。
`ingested_at`	入库或交接时间。
`symbols`	涉及标的。
`direction`	多、空、观望、风险提示、未知。
`time_horizon`	日内、短线、波段、中长期、未知。
`entry_hint`	入场线索。
`exit_hint`	退出线索。
`risk_hint`	风险提示。
`parse_status`	可解析、需人工复核、不可解析。
`quality_flags`	重复、过期、缺字段、截图难解析、噪声等。

5.3 Trading Matrix 反馈字段

字段	说明
`tm_seed_status`	是否已生成策略种子。
`tm_validation_status`	是否进入回测、模拟或小资金实盘。
`tm_asset_status`	观察、失败、暂停、核心策略候选等状态。
`tm_feedback_reason`	Trading Matrix 的反馈理由。
`tm_last_feedback_at`	最近反馈时间。

6. 接口方案

第一阶段可以先用导出文件，随后升级为 API。

阶段	方式	说明
baseline	CSV / JSON / 表格导出	用于快速建立第一批信源和样本。
试运行	定时 JSON 导出或内部接口	Trading Matrix 定期拉取增量。
稳定阶段	DH API + 管理后台	DH 维护动态候选列表，Trading Matrix 消费和回写反馈。

建议最小接口：

GET /dh/trading-sources：获取信源候选列表；
GET /dh/trading-sources/{source_id}：获取信源画像；
GET /dh/trading-signals：按时间、信源、标的、状态获取样本；
POST /dh/trading-matrix-feedback：接收 Trading Matrix 验证反馈。

接口命名可以按 DH 现有规范调整，但字段语义应保持一致。

7. 推进节奏

阶段	时间建议	DH 交付	Trading Matrix 动作
S0 baseline	1-2 天	第一批信源名单和代表样本。	检查字段是否足够生成策略种子。
S1 初评分类	3-5 天	信源画像、样本质量标记、A/B/C/D 初评。	选择第一批进入策略种子和回测设计。
S2 动态服务	1-2 周	管理后台列表、详情、样本筛选、导出或 API。	建立定期拉取和反馈回写。
S3 持续刷新	持续	新增信源、样本增量、画像变化、质量复核。	将回测、模拟、实盘和赛马结论反馈 DH。

8. 总体验收标准

DH 交付完成时，应满足以下标准：

有一批可追溯、已去重、带状态的信源候选；
每个优先验证信源有足够代表样本；
样本保留原始记录、发布时间、抓取时间和入库时间；
样本能区分可解析、需复核和不可解析；
信源有市场侧重、交易周期、风格、内容类型和活跃状态；
DH 初评只表达输入质量和验证价值，不替代 Trading Matrix 收益表现判断；
Trading Matrix 可以使用交付字段生成策略种子；
Trading Matrix 可以把验证反馈回写给 DH；
长期机制不是一次性静态报告，而是可持续刷新的候选列表、样本列表和反馈闭环。

9. 风险控制

风险	控制方式
把信源热度当作交易能力	DH 只输出输入质量初评，收益表现由 Trading Matrix 验证。
样本摘要丢失关键条件	保留原始记录和可审计摘要。
信源画像过期	动态刷新活跃状态、市场侧重和风格标签。
多平台重复信源放大权重	使用稳定 `source_id` 和关联字段去重。
延迟样本进入实时验证	明确 `published_at`、`captured_at`、`ingested_at`。
自动标签误导执行	标记标签置信度和人工复核状态。
Trading Matrix 反馈无法回流	预留反馈字段和回写接口。

10. DH Agents 执行提示

DH 负责人可以把任务拆给以下 Agents：

Agent	任务	输出
`dh-source-inventory-agent`	汇总、去重、登记候选信源。	信源注册表。
`dh-signal-sample-agent`	抽取样本、保留原始记录、标注字段。	样本表和原始记录引用。
`dh-source-profile-agent`	生成市场、周期、风格、活跃状态画像。	信源画像和标签置信度。
`dh-quality-review-agent`	做样本完整性、时效性、可解析度和噪声评估。	DH 初评等级和理由。
`dh-api-contract-agent`	对齐导出字段、增量接口和反馈回写接口。	字段字典和接口说明。
`dh-admin-ops-agent`	落地后台列表、筛选、详情、审计和状态流。	DH 管理后台功能或数据服务。

每个 Agent 的输出都必须能回到 source_id、sample_id 和 raw_ref，否则不能进入 Trading Matrix 验证闭环。

11. 待确认事项

以下事项不阻塞 baseline，但需要在 S1 或 S2 前确认：

DH 当前是否已有稳定的信源 ID 和样本 ID；
第一批 baseline 的样本时间窗口和样本量；
DH 管理后台是否已有适合承载该功能的页面；
Trading Matrix 反馈回写采用 API、导出文件还是人工复核队列；
A/B/C/D 初评等级的默认阈值；
哪些信源存在访问权限、引用限制或隐私限制。

1. 核心结论​

2. 分工边界​

3. 交付目标​

3.1 第一批 baseline​

3.2 动态能力​

4. 工作包​

DH-1 信源候选名单​

DH-2 样本抽取与原始记录保真​

DH-3 信源画像与动态标签​

DH-4 信息源质量初评​

DH-5 候选推荐与 Trading Matrix 交接​

DH-6 动态后台与接口​

5. 最小字段口径​

5.1 信源字段​

5.2 样本字段​

5.3 Trading Matrix 反馈字段​

6. 接口方案​

7. 推进节奏​

8. 总体验收标准​

9. 风险控制​

10. DH Agents 执行提示​

11. 待确认事项​

1. 核心结论

2. 分工边界

3. 交付目标

3.1 第一批 baseline

3.2 动态能力

4. 工作包

DH-1 信源候选名单

DH-2 样本抽取与原始记录保真

DH-3 信源画像与动态标签

DH-4 信息源质量初评

DH-5 候选推荐与 Trading Matrix 交接

DH-6 动态后台与接口

5. 最小字段口径

5.1 信源字段

5.2 样本字段

5.3 Trading Matrix 反馈字段

6. 接口方案

7. 推进节奏

8. 总体验收标准

9. 风险控制

10. DH Agents 执行提示

11. 待确认事项