Data Horizon 项目文档 IA Audit

日期：2026-05-15 Controller：Data Horizon Controller 触发：R4 项目 Controller 文档 IA 重构控制包当前阶段：reference-evaluation prealignment DOC_CHANGE_SCOPE：data-horizon

1. 当前目录树

1.1 projects/data-horizon/

projects/data-horizon/
├── README.md
├── project-anchor.md
├── inherited-context.md
├── current-state.md
├── current-practice-profile.md
└── output-object-inventory.md

6 个文件，无子目录。

1.2 references/data-horizon/

不存在。document-change-scope-policy.md §3 data-horizon 行声明 references/data-horizon/ 为允许修改范围，但该目录从未创建。

1.3 evaluation/data-horizon/

不存在。当前 evaluation/ 下仅有 finclaw/、shared/、future/ 命名空间。

1.4 source/project-prealignment/data-horizon/

不存在。当前 source/project-prealignment/ 下仅有 finclaw/。

1.5 packets/sync/data-horizon-*

packets/sync/
├── data-horizon-alignment-packet-2026-05-12.md
└── (本文件) data-horizon-doc-ia-audit-2026-05-15.md

另有 Admin 侧 audit 包：labs-fintecai-data-horizon-project-doc-audit-2026-05-14.md（以 labs-fintecai- 为前缀，属 Admin scope）。

1.6 controllers/data-horizon/

controllers/data-horizon/
├── state.md
└── checkpoints/
    ├── 2026-05-13-admin-batch4-pickup.md
    ├── 2026-05-13-current-session-recovery.md
    └── 2026-05-14-controller-rewrite-dispatch-pickup.md

4 个文件。

2. 文件角色标签

2.1 projects/data-horizon/

文件	角色	说明
`README.md`	`canonical`	项目公共入口，被 `CONTEXT-MAP.md`、`INDEX.md`、`registry/project-registry.md` 引用
`project-anchor.md`	`canonical`	项目身份、生态角色、职责边界、第一阶段目标
`inherited-context.md`	`support`	上游基线继承，仅在生态基线变更时同步
`current-state.md`	`support` / `open-gap`	当前事实、缺口、风险、开放问题和下一步
`current-practice-profile.md`	`evidence`	静态工程实践画像，基于代码阅读，非运行态证据
`output-object-inventory.md`	`support` / `open-gap`	输出对象盘点，状态标记清楚但缺真实样例

2.2 packets/sync/

文件	角色	说明
`data-horizon-alignment-packet-2026-05-12.md`	`sync` / `evidence`	挑战优先对齐包初版，draft 状态，未 close
`labs-fintecai-data-horizon-project-doc-audit-2026-05-14.md`	`sync` (Admin-owned)	Batch 8C-1 audit，标注 canonical/support/evidence/open-gap 分层

2.3 controllers/data-horizon/

文件	角色	说明
`state.md`	`controller-state`	Controller 恢复入口
`checkpoints/2026-05-13-admin-batch4-pickup.md`	`controller-state`	Batch 4 接手记录，proposed
`checkpoints/2026-05-13-current-session-recovery.md`	`controller-state`	早期会话恢复 checkpoint，内容已被后续 checkpoint 覆盖
`checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.md`	`controller-state`	Rewrite dispatch 接收记录，当前活跃

2.4 不存在但应存在的目录

路径	角色	建议
`references/data-horizon/`	`reference`	建议创建，见 §5.1
`evaluation/data-horizon/`	`evidence`	暂不创建，等待 reference evaluation 启动后按需建立

3. 命名问题清单

3.1 文件命名

文件	问题	建议新名	严重度
`current-practice-profile.md`	`practice-profile` 不在 R4 §4 标准后缀集中；语义准确但与 FinClaw / Trading Matrix 的同类文件一致，可暂保留	保留现名	低
`output-object-inventory.md`	`inventory` 不在 R4 §4 标准后缀集中；但语义合理且无歧义	保留现名	低
`data-horizon-alignment-packet-2026-05-12.md`	`alignment-packet` 不在 R4 §4 标准后缀集（`-plan.md` / `-audit.md` / `-task-packet.md` / `-reference-analysis.md` / `*-reference-evaluation.md`）中；该文件实际是 sync packet 而非上述任何一种	选项 A: `data-horizon-challenge-first-alignment-2026-05-12.md`；选项 B: 保留现名（sync packet 命名不强制适用 project doc 后缀规范）	低

3.2 跨目录名称一致性

问题	描述
`project-anchor.md` 日期	最后更新 2026-05-07，已有 3 轮 Admin audit / dispatch 未反映；与 `README.md` (2026-05-13) 不一致
`inherited-context.md` 日期	最后更新 2026-05-07，与 `current-state.md` (2026-05-12) 不一致
`current-state.md` §9 待决问题 #1	仍写"本地代码仓库目录是什么？"但 `current-practice-profile.md` §1 已明确为 `/Users/mlabs/Programs/data-horizon`
公共入口引用路径	`CONTEXT-MAP.md:35` 引用 `projects/data-horizon/current-practice-profile.md`，命名路径一致，无问题

3.3 总结

Data Horizon 文件集体量小（6 + 1 sync + 4 controller），命名问题主要是日期陈旧和少量自洽矛盾，不存在批量 rename 需求。

4. 处置建议

文件	处置	理由	影响范围
`projects/data-horizon/README.md`	`rewrite-lite`	更新日期至 2026-05-15；补 R4 audit 状态；补 Controller lane 当前状态；明确 reference evaluation 下一步	公共入口：`CONTEXT-MAP.md:35`、`INDEX.md:60-62`、`registry/project-registry.md` 引用名不变，无需改链
`projects/data-horizon/project-anchor.md`	`rewrite-lite`	更新日期；§12 下一步吸收 Batch 8C-1 audit 结论和 R4 audit 引用；§11 材料状态补 `current-practice-profile.md` 和 `output-object-inventory.md`	无公共入口链接变化
`projects/data-horizon/inherited-context.md`	`defer`	仅在生态基线变更时同步；当前生态基线未变；不属于本轮优先 rewrite-lite 范围	无
`projects/data-horizon/current-state.md`	`rewrite-lite`	更新日期；吸收 practice profile 已回答的问题（§9 #1 本地仓库目录）；补 R4 audit 后的证据缺口清单；更新 §4.3 已登记事项	无公共入口链接变化
`projects/data-horizon/current-practice-profile.md`	`keep` + 后续 `rewrite-lite`	本轮不改；后续补运行态证据时做 rewrite-lite（API 返回、数据库现场、控制台截图、样例输出）	无
`projects/data-horizon/output-object-inventory.md`	`keep` + 后续 `rewrite-lite`	本轮不改；后续参考评估启动后补样例证据和 quality/provenance 评估维度	无
`data-horizon-alignment-packet-2026-05-12.md`	`keep` → 后续 `close` / `absorb`	Draft sync，稳定结论应被 canonical 正文吸收后标 `superseded`；本轮不改	无
`controllers/data-horizon/state.md`	`rewrite-lite`	补 R4 audit 接收记录；更新任务队列	无公共入口变化
`checkpoints/2026-05-13-current-session-recovery.md`	`defer` / 可删	内容已被后续 2 个 checkpoint 完全覆盖；保留不影响，删除无损失	无
`checkpoints/2026-05-13-admin-batch4-pickup.md`	`keep`	仍作为 Batch 4 接手证据	无
`checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.md`	`keep`	当前活跃 checkpoint	无

4.1 新建建议

路径	理由
`references/data-horizon/README.md`	建立 desk reference hub（见 §5.1 详细分析）

5. 内容深度问题

5.1 是否需要 references/data-horizon/README.md 作为 desk reference hub

结论：需要，且应在本轮 audit 后作为第一个新建文件。

论据：

Reference evaluation 是当前阶段的核心阻塞项。state.md §5、§6 和 rewrite-dispatch-pickup checkpoint §4 均明确：reference evaluation shortlist 是 Blocked 状态，阻塞所有下游决策（产品定义、MVP、schema、API contract）。
FinClaw 已有成熟的参考层结构。references/finclaw/ 下有 external-reference-candidate-scan.md + 3 份独立分析（aifinlab / fin-chelae / martinpmm）；projects/finclaw/reference-experience/ 下有 6 份评测证据。Data Horizon 的参考层完全空白。
当前实践画像和对齐包中已隐式定义了参考评估问题域。alignment-packet §5 列出了 11 个评估维度；output-object-inventory.md §6 列出了 6 个 reference candidate 对象。这些问题域需要一个 hub 来组织。
Scope policy 已授权。document-change-scope-policy.md §3 data-horizon 行明确 references/data-horizon/ 在允许范围内。

建议 references/data-horizon/README.md 最小结构：

# Data Horizon 参考层入口

状态：Draft / reference hub
最后更新：<date>

## 1. 定位
Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。

## 2. 参考评估问题域
（从 alignment-packet §5 和 output-object-inventory §6 汇总）

## 3. 参考项目筛选原则
（待补）

## 4. 候选参考对象 Shortlist
（待补）

## 5. 已完成评估
（待补）

## 6. 评估方法
（待补）

## 7. 与 projects/data-horizon/ 的回流关系

5.2 output-object-inventory.md 边界问题

当前 output-object-inventory.md 同时承载了三个关注点：

当前工程实现对象的事实盘点（§3 共 11 个 current implemented 对象）
产品层候选对象的边界讨论（§4 共 6 个 current partial 对象）
历史文档和应避免对象的治理判断（§5 共 5 个 documented but not implemented / should avoid 对象）

这不是命名问题，而是单文件承载过多关注点。但在当前阶段（6 个文件、reference evaluation 未启动），拆分反而增加导航成本。

建议：保持现状；当参考评估启动并产出第一批比较结果后，考虑拆分为：

output-object-inventory.md（工程事实层）
在产品定义环节建立正式输出对象定义（不在本轮）

5.3 project-anchor.md 需要 rewrite 的章节

章节	问题	类型
§11 当前材料状态	未列出 `current-practice-profile.md` 和 `output-object-inventory.md`（它们在 §11 写作时尚未存在）	rewrite-lite
§12 当前下一步	5 条下一步有 3 条已被后续文件部分回答（inherited-context 已校准、current-state 已校准、current-practice-profile 已建立），但 anchor 文档未反映	rewrite-lite
§8 关键输出对象	5 个工作性对象与 `output-object-inventory.md` 的 22 个对象存在视角差异；需要补一句"详见 output-object-inventory.md 的分层盘点"	rewrite-lite

5.4 current-state.md 需要 rewrite 的章节

章节	问题	类型
§4.3 暂未登记事项	第一段"当前仓库已经初步登记"应更新：本地仓库目录已确认，静态画像已完成	rewrite-lite
§9 待决问题 #1	"本地代码仓库目录是什么？"已有答案，应标为已回答	rewrite-lite
§3 当前已完成	应补 R4 audit 入口引用	rewrite-lite

5.5 Reference shortlist 输出对象边界

基于全部 Authoritative Docs 分析，当前输出对象可分为三个评估优先级：

Tier 1：核心候选对象（参考评估必须覆盖）

对象	当前状态	参考评估需回答的上位问题
Perception Record	`current partial`	单条金融信息感知记录应包含什么？质量、provenance、生命周期如何表达？
Financial Information Feed	`current partial`	面向不同消费者（人类/机器/B端/C端）的 feed 形态如何区分？
Data Quality / Provenance Metadata	`current partial`	来源、时效、授权、质量的最小底线字段是什么？如何在不引入交易判断的前提下标记信息质量？

Tier 2：支撑候选对象（参考评估应覆盖但不阻塞 Tier 1）

对象	当前状态	参考评估需回答的上位问题
Evidence Package	`reference candidate`	证据保留、原文快照、多源印证的最小可行方式？
Dataset Package	`reference candidate`	训练/评估/B端交付的数据包 manifest 应包含什么？
Source Reliability Profile	`reference candidate`	非交易化的来源质量观测维度有哪些？

Tier 3：接口与工作流候选（参考评估覆盖，但不纳入核心输出对象）

对象	当前状态	参考评估需回答的上位问题
Machine Feed Contract	`reference candidate`	REST / webhook / streaming / MCP / bulk export 等形态的选型依据？
Human Review / Quality Label	`reference candidate`	内部复核工作流的最小能力集？
Retrieval Result	`reference candidate`	检索结果对象如何表达匹配原因、时间、来源、质量？

边界红线：以下对象保持 should avoid，不进入参考评估 shortlist

Trading Signal / Deep Intelligence / RMF Attribution Report / Verified Intelligence / 交易指令 / 确定性投资结论 / 执行触发器 / PnL 归因输出

5.6 Reference shortlist 维度候选

基于 alignment-packet §5 和 output-object-inventory §6，参考评估应覆盖以下维度（按优先级排序）：

优先级	维度	上位问题
P0	感知能力	同类产品/系统如何完成金融信息监听、采集、清洗、标准化？
P0	信息覆盖	同类产品/系统覆盖哪些市场、资产、信息源、数据类型？
P0	质量 / Provenance	同类产品/系统如何标记来源、时效、质量、授权和适用限制？
P1	标准化方式	规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层？
P1	存储检索	原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层？
P1	接口形态	API / feed / MCP / CLI / export 等形态的实际案例？
P1	成本控制	高频持久采集链路的成本结构和控制手段？
P2	产品交互	内部控制台、B 端、C 端产品面的实际案例？
P2	生态协同	感知层与认知/执行系统的协同模式？
P2	治理合规	来源授权、非公开信息、用户误导风险的处理方式？

6. Reader-test 计划

6.1 本轮 audit 包

本 audit 包属于 Controller-owned sync 产出，不触及 canonical 正文改动，按 reader-testing-protocol.md §4：

等级：L0（自检）。本包只是 audit，不改正文。

6.2 后续 rewrite-lite 批次

当 README.md、project-anchor.md、current-state.md 做 rewrite-lite 后：

等级：L1（自检 + 1 独立视角）。
独立视角建议：R-agent-controller（模拟新 Controller 第一次接手 Data Horizon）。
归档位置：evidence/reader-tests/2026-05-XX-data-horizon-rewrite-lite-l1/。

6.3 如果新建 references/data-horizon/README.md 并建立 reference shortlist

等级：L1。Reference hub 不是公共入口，不触发 L2。
独立视角建议：R-agent-low-context（模拟低上下文读者能否从 hub 理解 Data Horizon 参考评估问题域）。

7. 风险与开放问题

#	类型	描述	当前处理
1	`open-gap`	Reference evaluation shortlist 空白：Data Horizon 的参考层完全空白（无 `references/data-horizon/`、无候选参考对象、无筛选原则）。所有下游决策（产品定义、MVP、schema、API contract）被阻塞。	本 audit 建议首先新建 `references/data-horizon/README.md` 作为 hub，然后推进 shortlist。
2	`open-gap`	运行态 evidence 缺失：`current-practice-profile.md` 基于静态代码阅读，缺 API 返回样例、数据库现场、控制台截图、样例输出。	Blocked，需在工程仓库（`/Users/mlabs/Programs/data-horizon`）获取证据后回写 `current-practice-profile.md`。证据留在工程仓库，画像回写到治理仓库。
3	`open-gap`	目标消费对象未裁决：alignment packet 有优先级候选（内部人类→内部机器→B端→C端），但 canonical 正文未吸收。	Blocked on reference evaluation + 用户裁决。
4	`open-gap`	第一阶段感知范围未定：缺市场、资产、主题、信息源、数据类型的最小范围裁决。	Blocked on reference evaluation。
5	`open-gap`	最小价值验证假设缺失：有方向（"更可查、可用、可追踪、可消费"）但缺验证对象、指标、时间盒和 kill criteria。	Blocked on 消费对象裁决 + 感知范围。
6	`open-gap`	Quality / Provenance 底线字段未定：已确认为必备方向，但具体字段、授权、适用限制、生命周期、人工复核和 evidence package 尚未形成底线。	Blocked on reference evaluation。
7	`open-gap`	是否建立 CONTEXT.md 未决策：`project-anchor.md` §10、`current-state.md` §4.2 均提及，但未有明确判断。	Deferred；建议在参考评估产出第一批结论后再决定。当前工程仓库 `CONTEXT.md` 已有丰富领域语言，可作为候选输入。
8	`open-gap`	alignment-packet draft 未 close：`data-horizon-alignment-packet-2026-05-12.md` 仍为 draft，稳定结论未回写 canonical 正文。	建议在 rewrite-lite 完成后将已吸收部分标 `absorbed`，未吸收部分保留为 `open`。
9	`risk`	单文件承载过多关注点：`output-object-inventory.md` 同时盘点工程事实、候选边界和治理判断。当前体量可控，但随参考评估推进可能需拆分。	暂不拆分；参考评估启动后重新评估。
10	`risk`	checkpoint 累积：`controllers/data-horizon/checkpoints/` 有 3 个文件，其中 `2026-05-13-current-session-recovery.md` 已被后续 checkpoint 覆盖。不影响功能但增加恢复噪音。	建议后续 state.md 更新时标注该 checkpoint 为 `superseded`。
11	`open-gap`	evaluation/data-horizon/ 不存在：当前不阻塞（无评测 case），但 reference evaluation 启动后需要建立。	Deferred to reference evaluation 启动时。

8. 下一步行动排序

优先级	行动	前置依赖	产出位置
1	新建 `references/data-horizon/README.md`（desk reference hub）	本 audit 完成	`references/data-horizon/README.md`
2	Rewrite-lite `projects/data-horizon/README.md`（日期、状态、R4 引用）	本 audit 完成	`projects/data-horizon/README.md`
3	Rewrite-lite `projects/data-horizon/project-anchor.md`（日期、§11/§12 更新）	本 audit 完成	`projects/data-horizon/project-anchor.md`
4	Rewrite-lite `projects/data-horizon/current-state.md`（§4.3/§9 更新、证据缺口）	本 audit 完成	`projects/data-horizon/current-state.md`
5	补运行态 evidence 到 `current-practice-profile.md`	工程仓库运行 + API/DB 证据	`projects/data-horizon/current-practice-profile.md`
6	建立 reference evaluation shortlist	reference hub + 用户裁决	`references/data-horizon/`
7	L1 reader test（rewrite-lite 完成后）	步骤 2-4 完成	`evidence/reader-tests/`

9. 吸收状态

本 audit 包为 draft sync。

可能吸收位置：

controllers/data-horizon/state.md（登记 R4 audit 接收和任务队列更新）
projects/data-horizon/README.md（引用本 audit 的阶段结论）
projects/data-horizon/current-state.md（吸收 §5 的 open-gap 清单）

不应吸收为：

产品定义、MVP 定义、工程实施计划
正式 schema / API contract / 接口优先级
第一阶段最小输出对象冻结

1. 当前目录树​

1.1 projects/data-horizon/​

1.2 references/data-horizon/​

1.3 evaluation/data-horizon/​

1.4 source/project-prealignment/data-horizon/​

1.5 packets/sync/data-horizon-*​

1.6 controllers/data-horizon/​

2. 文件角色标签​

2.1 projects/data-horizon/​

2.2 packets/sync/​

2.3 controllers/data-horizon/​

2.4 不存在但应存在的目录​

3. 命名问题清单​

3.1 文件命名​

3.2 跨目录名称一致性​

3.3 总结​

4. 处置建议​

4.1 新建建议​

5. 内容深度问题​

5.1 是否需要 references/data-horizon/README.md 作为 desk reference hub​

5.2 output-object-inventory.md 边界问题​

5.3 project-anchor.md 需要 rewrite 的章节​

5.4 current-state.md 需要 rewrite 的章节​

5.5 Reference shortlist 输出对象边界​

5.6 Reference shortlist 维度候选​

6. Reader-test 计划​

6.1 本轮 audit 包​

6.2 后续 rewrite-lite 批次​

6.3 如果新建 references/data-horizon/README.md 并建立 reference shortlist​

7. 风险与开放问题​

8. 下一步行动排序​

9. 吸收状态​