Data Horizon 信源候选与样本交付任务书
本文给 Data Horizon 负责人、DH 执行 Agents 和 Trading Matrix 团队共用,目的是把“职业交易员 / 分析师信源如何进入 Trading Matrix 第一阶段验证闭环”拆成可执行任务、接口方案和验收标准。
本文承接 AI Trading Matrix 战略白皮书 与 AI Trading Matrix 产品定义,并将第一阶段讨论中的 DH 信源、样本、质量初评和 Trading Matrix 验证分工整理为可领取的实施任务。
1. 核心结论
Data Horizon 在这项工作中的职责不是做回测、实盘、赛马或核心策略判断,而是稳定交付可归因、可抽样、可刷新、可交接的信源和信号样本。
Trading Matrix 负责把 DH 交付的信源和样本转成策略种子、候选策略、验证实例、赛马评估和策略资产状态。
第一阶段应按这个节奏推进:
静态报告只适合作为第一批 baseline。长期需要 DH 管理后台或 DH 数据服务提供动态候选列表,因为交易员的关注市场、交易风格、信号质量和活跃周期都会变化,也可能持续新增或淘汰信源。
2. 分工边界
| 事项 | Data Horizon 负责 | Trading Matrix 负责 |
|---|---|---|
| 信源发现 | 发现、登记、去重、更新职业交易员 / 分析师 / 频道。 | 接收信源引用,不重复维护发现链路。 |
| 原始样本 | 保存原始内容、发布时间、抓取时间、来源链接或原始记录。 | 引用样本生成策略种子,保留回链。 |
| 信源画像 | 输出市场侧重、标的偏好、周期、风格、活跃状态、噪声情况。 | 用画像做分组评估和赛马维度。 |
| 质量初评 | 评估样本完整性、时效性、可解析度、重复噪声、历史表现线索。 | 不把 DH 初评分当作收益表现,只作为候选优先级。 |
| 候选推荐 | 输出推荐进入验证的信源、样本和理由。 | 决定是否生成策略种子、候选策略和验证实例。 |
| 回测 / 模拟 / 实盘 | 不负责。 | 负责验证运行、资金边界、账户、风控和证据。 |
| 赛马和资产状态 | 不负责最终结论。 | 负责观察池、失败案例、核心策略候选等状态。 |
DH 的评分是“信息源质量评分”,Trading Matrix 的评分是“策略验证表现评分”。两者必须分开。
3. 交付目标
3.1 第一批 baseline
DH 需要先交付一份可导入或可对接的静态 baseline:
- 第一批职业交易员 / 分析师 / 频道候选名单;
- 每个信源的基础身份、来源渠道、状态和追踪理由;
- 每个信源近一段时间的代表性信号样本;
- 样本的原始内容、发布时间、抓取时间、涉及标的、方向、时间周期和置信线索;
- 初步分类:优先验证、继续观察、低优先级、暂不适合;
- 每个推荐信源进入 Trading Matrix 验证的理由。
第一批 baseline 的目的不是证明谁能赚钱,而是让 Trading Matrix 有足够真实、可追溯、可分类的输入样本来设计策略种子、回测和赛马机制。
3.2 动态能力
baseline 完成后,DH 应提供一个动态功能或数据服务,支持团队查看和刷新候选列表:
- 新增信源自动或半自动进入待复核队列;
- 信源活跃状态、市场侧重和风格标签可随时间更新;
- 样本可以按时间、标的、市场、方向、信源、质量状态筛选;
- 每个信源可以看到历史样本、近期样本、质量初评和 Trading Matrix 反馈;
- Trading Matrix 可以定期拉取增量信源和增量样本。
该功能更适合由 DH 负责在 DH 管理后台或 DH 数据服务中落地。Trading Matrix 只需要消费标准化接口,并把验证结果反馈给 DH。
4. 工作包
DH-1 信源候选名单
目的:建立第一批可被 Trading Matrix 消费的信源注册表。
任务:
- 汇总当前 DH 已跟踪的职业交易员、分析师、频道、社群或其他信号来源;
- 给每个信源分配稳定
source_id; - 标记
source_type,例如职业交易员、分析师、新闻源、链上观察源、社群频道; - 记录来源渠道、展示名称、原始账号或频道标识、语言、地区、可访问状态;
- 标记当前状态:活跃、低活跃、待复核、暂停、淘汰;
- 记录入选原因和 DH 负责人备注。
验收标准:
- 至少能输出一批去重后的信源候选;
- 每个信源都有稳定 ID、来源渠道、状态和入选理由;
- 同一个人或频道跨平台出现时可以被合并或建立关联;
- 无来源不明、无法追溯的匿名候选进入优先验证列表。
DH-2 样本抽取与原始记录保真
目的:让 Trading Matrix 可以从真实样本生成策略种子,而不是只看信源简介。
任务:
- 为每个候选信源抽取历史样本和近期样本;
- 保留原始文本、图片描述、结构化字段、链接或原始记录引用;
- 记录样本发布时间、DH 抓取时间、样本进入系统时间;
- 标记涉及标的、市场、方向、交易周期、入场线索、退出线索、风险提示;
- 标记样本是否可解析为策略种子;
- 标记重复、过期、内容缺失、截图难解析等质量问题。
验收标准:
- 每条样本都能追溯到
source_id和原始记录; - 样本不因摘要处理丢失关键交易条件;
- 发布时间、抓取时间、入库时间三类时间字段不能混淆;
- 至少能区分“可生成策略种子”和“仅可作为背景观察”的样本;
- 重复样本不会被当作多条独立信号扩大权重。
DH-3 信源画像与动态标签
目的:让 Trading Matrix 能按同口径比较信源,而不是只看单条信号。
任务:
- 为每个信源维护市场侧重,例如 BTC、ETH、主流币、山寨币、宏观、链上、事件驱动;
- 维护交易周期,例如短线、日内、波段、中长期;
- 维护风格标签,例如趋势、反转、突破、套利、新闻驱动、风险提示、仓位管理;
- 维护内容类型,例如明确交易信号、观点分析、复盘、预警、持仓披露;
- 维护活跃窗口和近期变化;
- 记录标签置信度和人工复核状态。
验收标准:
- 每个优先验证信源至少有市场侧重、周期、风格、内容类型和活跃状态;
- 标签能随样本变化更新,不能一次性写死;
- 人工标签和自动标签要能区分;
- 低置信标签不能作为 Trading Matrix 自动执行依据。
DH-4 信息源质量初评
目的:在进入 Trading Matrix 前先排除明显低质量输入,并给验证优先级排序。
任务:
- 评估样本完整性:是否包含标的、方向、触发、退出或风险信息;
- 评估时效性:发布时间到 DH 捕获的延迟;
- 评估可解析度:是否能稳定转成结构化字段;
- 评估噪声和重复:广告、情绪化内容、重复搬运、事后复盘;
- 记录历史线索:过往观点是否有可验证表现,但不替代 Trading Matrix 验证;
- 输出 DH 初评等级:A 优先验证、B 继续观察、C 低优先级、D 暂不适合。
验收标准:
- 每个优先验证信源都有初评等级和理由;
- 初评理由必须来自样本证据,而不是主观印象;
- 初评不宣称收益能力,只说明输入质量和验证价值;
- 被判为 D 的信源要有明确原因,例如噪声高、不可追溯、严重滞后、无法解析。
DH-5 候选推荐与 Trading Matrix 交接
目的:把 DH 侧名单和样本转成 Trading Matrix 可以启动验证的候选包。
任务:
- 输出推荐信源清单;
- 为每个推荐信源提供代表样本和推荐理由;
- 标记适合的验证方向,例如跟单观察、事件策略、趋势策略、风险预警、交叉验证;
- 标记不适合直接进入验证的原因;
- 提供
source_id、sample_id、raw_ref等交接字段; - 接收 Trading Matrix 反馈,包括已生成策略种子、已进入验证、失败原因、降权或继续观察。
验收标准:
- Trading Matrix 可以用 DH 候选包生成策略种子;
- 每个进入 Trading Matrix 的样本都有 DH 原始回链;
- DH 能接收并展示 Trading Matrix 的验证反馈;
- 候选包不会混入无原始记录、无时间戳、无来源归因的数据。
DH-6 动态后台与接口
目的:把一次性报告升级为持续更新的数据能力。
任务:
- 在 DH 管理后台或数据服务中提供信源候选列表;
- 提供信源详情页或详情接口;
- 提供样本列表、筛选、导出或 API;
- 提供增量更新机制;
- 提供 Trading Matrix 反馈字段回写位置;
- 提供基础审计:谁修改了标签、等级、状态和推荐理由。
验收标准:
- Trading Matrix 不依赖人工复制粘贴获取新信源和新样本;
- 新增信源、状态变化和样本增量可以被定期拉取;
- DH 侧能看到 Trading Matrix 对信源和样本的验证反馈;
- 后台和接口的字段口径一致。
5. 最小字段口径
5.1 信源字段
| 字段 | 说明 |
|---|---|
source_id | DH 生成的稳定信源 ID。 |
source_type | 职业交易员、分析师、频道、新闻源、链上源、其他。 |
display_name | 展示名称。 |
channel | 来源渠道。 |
external_ref | 原始账号、频道、链接或内部引用。 |
market_scope | 主要市场和标的范围。 |
signal_style | 信号风格或内容风格。 |
active_status | 活跃、低活跃、待复核、暂停、淘汰。 |
dh_quality_grade | A、B、C、D 初评等级。 |
dh_quality_reason | 初评理由。 |
last_sample_at | 最近样本发布时间。 |
created_at | 信源登记时间。 |
updated_at | 最近更新时间。 |
5.2 样本字段
| 字段 | 说明 |
|---|---|
sample_id | DH 生成的稳定样本 ID。 |
source_id | 所属信源。 |
raw_ref | 原始记录、链接、截图或内部对象引用。 |
raw_content | 原始内容或可审计摘要。 |
published_at | 原始发布时间。 |
captured_at | DH 捕获时间。 |
ingested_at | 入库或交接时间。 |
symbols | 涉及标的。 |
direction | 多、空、观望、风险提示、未知。 |
time_horizon | 日内、短线、波段、中长期、未知。 |
entry_hint | 入场线索。 |
exit_hint | 退出线索。 |
risk_hint | 风险提示。 |
parse_status | 可解析、需人工复核、不可解析。 |
quality_flags | 重复、过期、缺字段、截图难解析、噪声等。 |
5.3 Trading Matrix 反馈字段
| 字段 | 说明 |
|---|---|
tm_seed_status | 是否已生成策略种子。 |
tm_validation_status | 是否进入回测、模拟或小资金实盘。 |
tm_asset_status | 观察、失败、暂停、核心策略候选等状态。 |
tm_feedback_reason | Trading Matrix 的反馈理由。 |
tm_last_feedback_at | 最近反馈时间。 |
6. 接口方案
第一阶段可以先用导出文件,随后升级为 API。
| 阶段 | 方式 | 说明 |
|---|---|---|
| baseline | CSV / JSON / 表格导出 | 用于快速建立第一批信源和样本。 |
| 试运行 | 定时 JSON 导出或内部接口 | Trading Matrix 定期拉取增量。 |
| 稳定阶段 | DH API + 管理后台 | DH 维护动态候选列表,Trading Matrix 消费和回写反馈。 |
建议最小接口:
GET /dh/trading-sources:获取信源候选列表;GET /dh/trading-sources/{source_id}:获取信源画像;GET /dh/trading-signals:按时间、信源、标的、状态获取样本;POST /dh/trading-matrix-feedback:接收 Trading Matrix 验证反馈。
接口命名可以按 DH 现有规范调整,但字段语义应保持一致。
7. 推进节奏
| 阶段 | 时间建议 | DH 交付 | Trading Matrix 动作 |
|---|---|---|---|
| S0 baseline | 1-2 天 | 第一批信源名单和代表样本。 | 检查字段是否足够生成策略种子。 |
| S1 初评分类 | 3-5 天 | 信源画像、样本质量标记、A/B/C/D 初评。 | 选择第一批进入策略种子和回测设计。 |
| S2 动态服务 | 1-2 周 | 管理后台列表、详情、样本筛选、导出或 API。 | 建立定期拉取和反馈回写。 |
| S3 持续刷新 | 持续 | 新增信源、样本增量、画像变化、质量复核。 | 将回测、模拟、实盘和赛马结论反馈 DH。 |
8. 总体验收标准
DH 交付完成时,应满足以下标准:
- 有一批可追溯、已去重、带状态的信源候选;
- 每个优先验证信源有足够代表样本;
- 样本保留原始记录、发布时间、抓取时间和入库时间;
- 样本能区分可解析、需复核和不可解析;
- 信源有市场侧重、交易周期、风格、内容类型和活跃状态;
- DH 初评只表达输入质量和验证价值,不替代 Trading Matrix 收益表现判断;
- Trading Matrix 可以使用交付字段生成策略种子;
- Trading Matrix 可以把验证反馈回写给 DH;
- 长期机制不是一次性静态报告,而是可持续刷新的候选列表、样本列表和反馈闭环。
9. 风险控制
| 风险 | 控制方式 |
|---|---|
| 把信源热度当作交易能力 | DH 只输出输入质量初评,收益表现由 Trading Matrix 验证。 |
| 样本摘要丢失关键条件 | 保留原始记录和可审计摘要。 |
| 信源画像过期 | 动态刷新活跃状态、市场侧重和风格标签。 |
| 多平台重复信源放大权重 | 使用稳定 source_id 和关联字段去重。 |
| 延迟样本进入实时验证 | 明确 published_at、captured_at、ingested_at。 |
| 自动标签误导执行 | 标记标签置信度和人工复核状态。 |
| Trading Matrix 反馈无法回流 | 预留反馈字段和回写接口。 |
10. DH Agents 执行提示
DH 负责人可以把任务拆给以下 Agents:
| Agent | 任务 | 输出 |
|---|---|---|
dh-source-inventory-agent | 汇总、去重、登记候选信源。 | 信源注册表。 |
dh-signal-sample-agent | 抽取样本、保留原始记录、标注字段。 | 样本表和原始记录引用。 |
dh-source-profile-agent | 生成市场、周期、风格、活跃状态画像。 | 信源画像和标签置信度。 |
dh-quality-review-agent | 做样本完整性、时效性、可解析度和噪声评估。 | DH 初评等级和理由。 |
dh-api-contract-agent | 对齐导出字段、增量接口和反馈回写接口。 | 字段字典和接口说明。 |
dh-admin-ops-agent | 落地后台列表、筛选、详情、审计和状态流。 | DH 管理后台功能或数据服务。 |
每个 Agent 的输出都必须能回到 source_id、sample_id 和 raw_ref,否则不能进入 Trading Matrix 验证闭环。
11. 待确认事项
以下事项不阻塞 baseline,但需要在 S1 或 S2 前确认:
- DH 当前是否已有稳定的信源 ID 和样本 ID;
- 第一批 baseline 的样本时间窗口和样本量;
- DH 管理后台是否已有适合承载该功能的页面;
- Trading Matrix 反馈回写采用 API、导出文件还是人工复核队列;
- A/B/C/D 初评等级的默认阈值;
- 哪些信源存在访问权限、引用限制或隐私限制。