跳到主要内容

Data Horizon 信源候选与样本交付任务书

本文给 Data Horizon 负责人、DH 执行 Agents 和 Trading Matrix 团队共用,目的是把“职业交易员 / 分析师信源如何进入 Trading Matrix 第一阶段验证闭环”拆成可执行任务、接口方案和验收标准。

本文承接 AI Trading Matrix 战略白皮书AI Trading Matrix 产品定义,并将第一阶段讨论中的 DH 信源、样本、质量初评和 Trading Matrix 验证分工整理为可领取的实施任务。

1. 核心结论

Data Horizon 在这项工作中的职责不是做回测、实盘、赛马或核心策略判断,而是稳定交付可归因、可抽样、可刷新、可交接的信源和信号样本。

Trading Matrix 负责把 DH 交付的信源和样本转成策略种子、候选策略、验证实例、赛马评估和策略资产状态。

第一阶段应按这个节奏推进:

静态报告只适合作为第一批 baseline。长期需要 DH 管理后台或 DH 数据服务提供动态候选列表,因为交易员的关注市场、交易风格、信号质量和活跃周期都会变化,也可能持续新增或淘汰信源。

2. 分工边界

事项Data Horizon 负责Trading Matrix 负责
信源发现发现、登记、去重、更新职业交易员 / 分析师 / 频道。接收信源引用,不重复维护发现链路。
原始样本保存原始内容、发布时间、抓取时间、来源链接或原始记录。引用样本生成策略种子,保留回链。
信源画像输出市场侧重、标的偏好、周期、风格、活跃状态、噪声情况。用画像做分组评估和赛马维度。
质量初评评估样本完整性、时效性、可解析度、重复噪声、历史表现线索。不把 DH 初评分当作收益表现,只作为候选优先级。
候选推荐输出推荐进入验证的信源、样本和理由。决定是否生成策略种子、候选策略和验证实例。
回测 / 模拟 / 实盘不负责。负责验证运行、资金边界、账户、风控和证据。
赛马和资产状态不负责最终结论。负责观察池、失败案例、核心策略候选等状态。

DH 的评分是“信息源质量评分”,Trading Matrix 的评分是“策略验证表现评分”。两者必须分开。

3. 交付目标

3.1 第一批 baseline

DH 需要先交付一份可导入或可对接的静态 baseline:

  • 第一批职业交易员 / 分析师 / 频道候选名单;
  • 每个信源的基础身份、来源渠道、状态和追踪理由;
  • 每个信源近一段时间的代表性信号样本;
  • 样本的原始内容、发布时间、抓取时间、涉及标的、方向、时间周期和置信线索;
  • 初步分类:优先验证、继续观察、低优先级、暂不适合;
  • 每个推荐信源进入 Trading Matrix 验证的理由。

第一批 baseline 的目的不是证明谁能赚钱,而是让 Trading Matrix 有足够真实、可追溯、可分类的输入样本来设计策略种子、回测和赛马机制。

3.2 动态能力

baseline 完成后,DH 应提供一个动态功能或数据服务,支持团队查看和刷新候选列表:

  • 新增信源自动或半自动进入待复核队列;
  • 信源活跃状态、市场侧重和风格标签可随时间更新;
  • 样本可以按时间、标的、市场、方向、信源、质量状态筛选;
  • 每个信源可以看到历史样本、近期样本、质量初评和 Trading Matrix 反馈;
  • Trading Matrix 可以定期拉取增量信源和增量样本。

该功能更适合由 DH 负责在 DH 管理后台或 DH 数据服务中落地。Trading Matrix 只需要消费标准化接口,并把验证结果反馈给 DH。

4. 工作包

DH-1 信源候选名单

目的:建立第一批可被 Trading Matrix 消费的信源注册表。

任务:

  • 汇总当前 DH 已跟踪的职业交易员、分析师、频道、社群或其他信号来源;
  • 给每个信源分配稳定 source_id
  • 标记 source_type,例如职业交易员、分析师、新闻源、链上观察源、社群频道;
  • 记录来源渠道、展示名称、原始账号或频道标识、语言、地区、可访问状态;
  • 标记当前状态:活跃、低活跃、待复核、暂停、淘汰;
  • 记录入选原因和 DH 负责人备注。

验收标准:

  • 至少能输出一批去重后的信源候选;
  • 每个信源都有稳定 ID、来源渠道、状态和入选理由;
  • 同一个人或频道跨平台出现时可以被合并或建立关联;
  • 无来源不明、无法追溯的匿名候选进入优先验证列表。

DH-2 样本抽取与原始记录保真

目的:让 Trading Matrix 可以从真实样本生成策略种子,而不是只看信源简介。

任务:

  • 为每个候选信源抽取历史样本和近期样本;
  • 保留原始文本、图片描述、结构化字段、链接或原始记录引用;
  • 记录样本发布时间、DH 抓取时间、样本进入系统时间;
  • 标记涉及标的、市场、方向、交易周期、入场线索、退出线索、风险提示;
  • 标记样本是否可解析为策略种子;
  • 标记重复、过期、内容缺失、截图难解析等质量问题。

验收标准:

  • 每条样本都能追溯到 source_id 和原始记录;
  • 样本不因摘要处理丢失关键交易条件;
  • 发布时间、抓取时间、入库时间三类时间字段不能混淆;
  • 至少能区分“可生成策略种子”和“仅可作为背景观察”的样本;
  • 重复样本不会被当作多条独立信号扩大权重。

DH-3 信源画像与动态标签

目的:让 Trading Matrix 能按同口径比较信源,而不是只看单条信号。

任务:

  • 为每个信源维护市场侧重,例如 BTC、ETH、主流币、山寨币、宏观、链上、事件驱动;
  • 维护交易周期,例如短线、日内、波段、中长期;
  • 维护风格标签,例如趋势、反转、突破、套利、新闻驱动、风险提示、仓位管理;
  • 维护内容类型,例如明确交易信号、观点分析、复盘、预警、持仓披露;
  • 维护活跃窗口和近期变化;
  • 记录标签置信度和人工复核状态。

验收标准:

  • 每个优先验证信源至少有市场侧重、周期、风格、内容类型和活跃状态;
  • 标签能随样本变化更新,不能一次性写死;
  • 人工标签和自动标签要能区分;
  • 低置信标签不能作为 Trading Matrix 自动执行依据。

DH-4 信息源质量初评

目的:在进入 Trading Matrix 前先排除明显低质量输入,并给验证优先级排序。

任务:

  • 评估样本完整性:是否包含标的、方向、触发、退出或风险信息;
  • 评估时效性:发布时间到 DH 捕获的延迟;
  • 评估可解析度:是否能稳定转成结构化字段;
  • 评估噪声和重复:广告、情绪化内容、重复搬运、事后复盘;
  • 记录历史线索:过往观点是否有可验证表现,但不替代 Trading Matrix 验证;
  • 输出 DH 初评等级:A 优先验证、B 继续观察、C 低优先级、D 暂不适合。

验收标准:

  • 每个优先验证信源都有初评等级和理由;
  • 初评理由必须来自样本证据,而不是主观印象;
  • 初评不宣称收益能力,只说明输入质量和验证价值;
  • 被判为 D 的信源要有明确原因,例如噪声高、不可追溯、严重滞后、无法解析。

DH-5 候选推荐与 Trading Matrix 交接

目的:把 DH 侧名单和样本转成 Trading Matrix 可以启动验证的候选包。

任务:

  • 输出推荐信源清单;
  • 为每个推荐信源提供代表样本和推荐理由;
  • 标记适合的验证方向,例如跟单观察、事件策略、趋势策略、风险预警、交叉验证;
  • 标记不适合直接进入验证的原因;
  • 提供 source_idsample_idraw_ref 等交接字段;
  • 接收 Trading Matrix 反馈,包括已生成策略种子、已进入验证、失败原因、降权或继续观察。

验收标准:

  • Trading Matrix 可以用 DH 候选包生成策略种子;
  • 每个进入 Trading Matrix 的样本都有 DH 原始回链;
  • DH 能接收并展示 Trading Matrix 的验证反馈;
  • 候选包不会混入无原始记录、无时间戳、无来源归因的数据。

DH-6 动态后台与接口

目的:把一次性报告升级为持续更新的数据能力。

任务:

  • 在 DH 管理后台或数据服务中提供信源候选列表;
  • 提供信源详情页或详情接口;
  • 提供样本列表、筛选、导出或 API;
  • 提供增量更新机制;
  • 提供 Trading Matrix 反馈字段回写位置;
  • 提供基础审计:谁修改了标签、等级、状态和推荐理由。

验收标准:

  • Trading Matrix 不依赖人工复制粘贴获取新信源和新样本;
  • 新增信源、状态变化和样本增量可以被定期拉取;
  • DH 侧能看到 Trading Matrix 对信源和样本的验证反馈;
  • 后台和接口的字段口径一致。

5. 最小字段口径

5.1 信源字段

字段说明
source_idDH 生成的稳定信源 ID。
source_type职业交易员、分析师、频道、新闻源、链上源、其他。
display_name展示名称。
channel来源渠道。
external_ref原始账号、频道、链接或内部引用。
market_scope主要市场和标的范围。
signal_style信号风格或内容风格。
active_status活跃、低活跃、待复核、暂停、淘汰。
dh_quality_gradeA、B、C、D 初评等级。
dh_quality_reason初评理由。
last_sample_at最近样本发布时间。
created_at信源登记时间。
updated_at最近更新时间。

5.2 样本字段

字段说明
sample_idDH 生成的稳定样本 ID。
source_id所属信源。
raw_ref原始记录、链接、截图或内部对象引用。
raw_content原始内容或可审计摘要。
published_at原始发布时间。
captured_atDH 捕获时间。
ingested_at入库或交接时间。
symbols涉及标的。
direction多、空、观望、风险提示、未知。
time_horizon日内、短线、波段、中长期、未知。
entry_hint入场线索。
exit_hint退出线索。
risk_hint风险提示。
parse_status可解析、需人工复核、不可解析。
quality_flags重复、过期、缺字段、截图难解析、噪声等。

5.3 Trading Matrix 反馈字段

字段说明
tm_seed_status是否已生成策略种子。
tm_validation_status是否进入回测、模拟或小资金实盘。
tm_asset_status观察、失败、暂停、核心策略候选等状态。
tm_feedback_reasonTrading Matrix 的反馈理由。
tm_last_feedback_at最近反馈时间。

6. 接口方案

第一阶段可以先用导出文件,随后升级为 API。

阶段方式说明
baselineCSV / JSON / 表格导出用于快速建立第一批信源和样本。
试运行定时 JSON 导出或内部接口Trading Matrix 定期拉取增量。
稳定阶段DH API + 管理后台DH 维护动态候选列表,Trading Matrix 消费和回写反馈。

建议最小接口:

  • GET /dh/trading-sources:获取信源候选列表;
  • GET /dh/trading-sources/{source_id}:获取信源画像;
  • GET /dh/trading-signals:按时间、信源、标的、状态获取样本;
  • POST /dh/trading-matrix-feedback:接收 Trading Matrix 验证反馈。

接口命名可以按 DH 现有规范调整,但字段语义应保持一致。

7. 推进节奏

阶段时间建议DH 交付Trading Matrix 动作
S0 baseline1-2 天第一批信源名单和代表样本。检查字段是否足够生成策略种子。
S1 初评分类3-5 天信源画像、样本质量标记、A/B/C/D 初评。选择第一批进入策略种子和回测设计。
S2 动态服务1-2 周管理后台列表、详情、样本筛选、导出或 API。建立定期拉取和反馈回写。
S3 持续刷新持续新增信源、样本增量、画像变化、质量复核。将回测、模拟、实盘和赛马结论反馈 DH。

8. 总体验收标准

DH 交付完成时,应满足以下标准:

  • 有一批可追溯、已去重、带状态的信源候选;
  • 每个优先验证信源有足够代表样本;
  • 样本保留原始记录、发布时间、抓取时间和入库时间;
  • 样本能区分可解析、需复核和不可解析;
  • 信源有市场侧重、交易周期、风格、内容类型和活跃状态;
  • DH 初评只表达输入质量和验证价值,不替代 Trading Matrix 收益表现判断;
  • Trading Matrix 可以使用交付字段生成策略种子;
  • Trading Matrix 可以把验证反馈回写给 DH;
  • 长期机制不是一次性静态报告,而是可持续刷新的候选列表、样本列表和反馈闭环。

9. 风险控制

风险控制方式
把信源热度当作交易能力DH 只输出输入质量初评,收益表现由 Trading Matrix 验证。
样本摘要丢失关键条件保留原始记录和可审计摘要。
信源画像过期动态刷新活跃状态、市场侧重和风格标签。
多平台重复信源放大权重使用稳定 source_id 和关联字段去重。
延迟样本进入实时验证明确 published_atcaptured_atingested_at
自动标签误导执行标记标签置信度和人工复核状态。
Trading Matrix 反馈无法回流预留反馈字段和回写接口。

10. DH Agents 执行提示

DH 负责人可以把任务拆给以下 Agents:

Agent任务输出
dh-source-inventory-agent汇总、去重、登记候选信源。信源注册表。
dh-signal-sample-agent抽取样本、保留原始记录、标注字段。样本表和原始记录引用。
dh-source-profile-agent生成市场、周期、风格、活跃状态画像。信源画像和标签置信度。
dh-quality-review-agent做样本完整性、时效性、可解析度和噪声评估。DH 初评等级和理由。
dh-api-contract-agent对齐导出字段、增量接口和反馈回写接口。字段字典和接口说明。
dh-admin-ops-agent落地后台列表、筛选、详情、审计和状态流。DH 管理后台功能或数据服务。

每个 Agent 的输出都必须能回到 source_idsample_idraw_ref,否则不能进入 Trading Matrix 验证闭环。

11. 待确认事项

以下事项不阻塞 baseline,但需要在 S1 或 S2 前确认:

  • DH 当前是否已有稳定的信源 ID 和样本 ID;
  • 第一批 baseline 的样本时间窗口和样本量;
  • DH 管理后台是否已有适合承载该功能的页面;
  • Trading Matrix 反馈回写采用 API、导出文件还是人工复核队列;
  • A/B/C/D 初评等级的默认阈值;
  • 哪些信源存在访问权限、引用限制或隐私限制。