跳到主要内容

DH-WP-001 S0 baseline 字段字典

0. 文档元信息

说明
消费者Trading Matrix 策略种子工程、Data Horizon 导出脚本 / Open API 实现、运营复核
触发条件Data Horizon 工程仓与 dn_crawler_source / dn_kol / dn_raw_news 事实核对完成,准备冻结第一版静态 baseline
下一步动作S0 baseline 交付说明 生成 sources_baseline / samples_baseline;交给 TM 后填写 试消费反馈记录
Schema 版本dh-wp-001-s0-v1(修订时递增,并在 manifest.json 中声明)
工程仓对照data-horizon docs/agent-tasks/dh-wp-001-trading-matrix-source-candidate.md §3

本文冻结 DH-WP-001 S0 阶段 CSV / JSON 的字段名、必填规则、枚举值与 Data Horizon 现有表字段映射。S1 字段(dh_quality_grade 等)在本文标注为「S0 可空 / S1 必填」,导出时允许留空。


1. 交付文件与记录类型

文件名记录类型说明
sources_baseline.csv / .json信源候选一行一信源,稳定 source_id
samples_baseline.csv / .json代表样本一行一样本,稳定 sample_id,外键 source_id
manifest.json元数据生成时间、schema 版本、记录数、时间语义声明、已知限制

JSON 根结构建议:

{
"schema_version": "dh-wp-001-s0-v1",
"generated_at": "2026-05-27T00:00:00Z",
"sources": [ /* 同 CSV 列 */ ],
"samples": [ /* 同 CSV 列 */ ],
"manifest": { /* 见 §6 */ }
}

2. 标识与引用约定(S0 冻结)

概念格式底层依据备注
source_idcs_{id},例 cs_12dn_crawler_source.id对外字符串,避免与 TM 侧数字 ID 冲突
sample_idrn_{id},例 rn_120073dn_raw_news.id可选并列字段 news_id(MD5)供去重
raw_refHTTPS URL 或 dh://raw_news/{id}dn_raw_news.source_url 或主键必须可审计回链
时间格式ISO 8601 UTC,例 2026-05-27T08:00:00ZUnix 秒由 source_timestamp 转换CSV 与 JSON 统一

2.1 三类时间语义(S0 重要声明)

字段含义S0 映射
published_at信源侧原始发布时间dn_raw_news.source_timestamp
captured_atData Horizon 首次捕获时间dn_raw_news.created_at
ingested_at进入 baseline 包 / 可被 TM 消费的时间S0 与 captured_at 相同(均为 created_at

已知限制:当前库表无独立「先入队列、后入库」时间戳。S0 在 manifest.json 中必须写明:captured_atingested_at 同源,不得用于推断采集延迟分布。S1 可在标准化完成时用 updated_at 或专用列区分。


3. 信源字段(sources_baseline

3.1 字段表

字段类型S0 必填说明枚举 / 格式DH 映射
source_idstring稳定信源 IDcs_{id}dn_crawler_source.id
source_typestringWP 侧信源类型见 §3.2source_type + category_id 映射
display_namestring展示名称非空title 优先,否则 source_name
channelstring来源渠道见 §3.3platform
external_refstring外部账号 / 频道 / 链接{platform}:{external_id}platform + external_id
market_scopestring建议主要市场与标的范围逗号分隔或 JSON 数组字符串dn_kol.market(经 kol_id
signal_stylestring建议信号或内容风格逗号分隔或 JSON 数组字符串dn_kol.strategy_style
active_statusstring追踪状态见 §3.4S0:status=1active2paused;无 KOL 绑定的 signal 源→pending_review
selection_reasonstring建议入选 / 优先验证理由自由文本运营填写;可来自 tagstm_priority
kol_idstring可空关联 KOLkol_{id}dn_crawler_source.kol_id
kol_namestring可空KOL 名称dn_kol.kol_name
languagestring建议语言zh, en, …language
last_sample_atdatetime建议最近样本发布时间ISO 8601MAX(FROM_UNIXTIME(source_timestamp))
sample_count_90dinteger建议近 90 天样本数≥0聚合 dn_raw_news
dh_quality_gradestringS0 可空A/B/C/D 初评A,B,C,DS1;S0 留空
dh_quality_reasonstringS0 可空初评理由S1
created_atdatetime信源登记时间ISO 8601dn_crawler_source.created_at
updated_atdatetime最近更新时间ISO 8601无列时:dn_kol.updated_at 或导出时刻

3.2 source_type(WP 枚举)

含义DH 默认映射规则
professional_trader职业交易员source_type=signalcategory_id=2(带单信号)
analyst分析师source_type=signalsocialcategory_id=3(KOL 观点)
channel频道 / 社群platformtelegram / discord
news新闻源source_type=news
onchain链上观察tags 含链上相关或运营标注
other其他兜底

3.3 channel(与 platform 对齐)

说明
twitterX / Twitter
telegramTelegram
discordDiscord
website网站 / RSS / API
other其他

3.4 active_status

含义S0 赋值规则
active活跃追踪dn_crawler_source.status=1 且近 90 天有样本
low_activity低活跃status=1 但 90 天内样本 < 阈值(默认 5)
pending_review待复核新登记、未绑 KOL、或运营未确认
paused暂停status=2
retired淘汰is_deleted=1 或运营标记(不进 baseline)

4. 样本字段(samples_baseline

4.1 字段表

字段类型S0 必填说明枚举 / 格式DH 映射
sample_idstring稳定样本 IDrn_{id}dn_raw_news.id
news_idstring建议内容去重键32 位 MD5dn_raw_news.news_id
source_idstring所属信源cs_{id}source_id
raw_refstring原始记录引用URL 或 dh://raw_news/{id}source_url 或构造
raw_contentstring原始正文或可审计摘要见 §4.3content;合规限制时用摘要
published_atdatetime原始发布时间ISO 8601source_timestamp
captured_atdatetimeDH 捕获时间ISO 8601created_at
ingested_atdatetime入库 / 交接时间ISO 8601S0 同 created_at
symbolsstring建议涉及标的逗号分隔,例 BTC,ETHsubjects JSON
directionstring建议方向线索见 §4.2S0 可空或 unknown
time_horizonstring建议交易周期见 §4.2S0 可空或 unknown
entry_hintstring建议入场线索自由文本S0 可空
exit_hintstring建议退出线索自由文本S0 可空
risk_hintstring建议风险提示自由文本S0 可空
parse_statusstring可解析性见 §4.2规则计算,见 §5.2
quality_flagsstring建议质量标记逗号分隔见 §5.3
source_authorstring可空私域发布者source_author
languagestring建议语言language
titlestring可空标题title

4.2 枚举值

directionlong | short | neutral | risk_alert | unknown

time_horizonintraday | short_term | swing | medium_long | unknown

parse_status

含义S0 判定(满足即成立)
parsable可尝试生成策略种子published_at、非空 raw_content、有 raw_ref,且 quality_flags 不含 invalid
needs_review需人工复核source_url 仅内文、或交易线索全空但内容像信号
unparsable不可解析status=3(失败/无效)或 raw_content 过短(< 20 字符)且无 URL

4.3 raw_content 与合规

场景导出内容
可对外全文完整 content
私域 / 授权限制≤500 字摘要 + raw_ref 指向 DH 内链;manifest 注明 content_redacted=true
超长正文全文保留,manifest 可注明 max_export_chars

5. 校验与过滤规则

5.1 信源入包条件

  1. is_deleted=0
  2. source_type=signal 且已绑 kol_id(S0 第一批默认范围,可配置);
  3. active_statusretired
  4. 近 90 天内至少 1 条有效样本(dn_raw_news.status != 3)。

5.2 parse_status 计算伪代码

if raw_news.status == 3: unparsable
else if empty(content) or len(content) < 20 and no source_url: unparsable
else if has published_at and content and raw_ref and not duplicate-invalid: parsable
else if missing source_url but has content: needs_review
else: needs_review

5.3 quality_flags

标记触发条件
duplicaterepeat_news_id 非空
invalidstatus=3
missing_publishedsource_timestamp 为空
missing_urlsource_url 为空
stalepublished_at 早于窗口起点(默认 90 天)
noise运营或 S1 Agent 标注(S0 可空)

5.4 去重

  • 样本:同一 news_id 仅保留一条;
  • 信源:同一 external_ref + channel 仅保留一条,合并时保留 sample_count_90d 最高者。

6. manifest.json 必填键

说明
schema_versiondh-wp-001-s0-v1
generated_at导出 UTC 时间
sample_window_days默认 90
samples_per_source_max默认 50
source_count / sample_count记录数
time_semantics_note固定文案:S0 captured_at === ingested_at
candidate_filtersignal + kol_id + status=1
content_redaction是否摘要导出
dh_repo_commit可选,导出脚本所在 commit

7. Trading Matrix 反馈字段(S0 占位)

S0 文件不包含下列字段;TM 试消费后写入 试消费反馈记录,S1 起落库 dn_tm_source_feedback

字段说明
tm_seed_status是否已生成策略种子
tm_validation_status是否进入回测 / 模拟 / 小资金实盘
tm_asset_status观察 / 失败 / 暂停 / 核心候选等
tm_feedback_reason反馈理由
tm_last_feedback_at最近反馈时间

8. 与 Open API 的字段别名(过渡期)

export_tm_baseline CLI 完成前,TM 可通过现有 Open API 拉取部分样本:

baseline 字段Open API(POST /v1/open/kol/source-signal-list)现状缺口
sample_idid(数字)需映射为 rn_{id}
published_atsource_timestamp(Unix)需 ISO8601
raw_contentcontent
raw_ref待扩展 source_url
captured_at / ingested_at待扩展

扩展项跟踪:工程仓 S0-B03open.api)。


9. 版本变更

版本日期变更
dh-wp-001-s0-v12026-05-27初版冻结:基于 DH 工程仓表结构与 DH-WP-001 任务包 §5 对齐

Changelog / 演化记录

2026-05-27:创建 S0 baseline 字段字典 v1,明确 ID 规则、时间语义、枚举、映射与校验规则。