跳到主要内容

Data Horizon 项目文档 IA Audit

日期:2026-05-15 Controller:Data Horizon Controller 触发:R4 项目 Controller 文档 IA 重构控制包 当前阶段:reference-evaluation prealignment DOC_CHANGE_SCOPE:data-horizon

1. 当前目录树

1.1 projects/data-horizon/

projects/data-horizon/
├── README.md
├── project-anchor.md
├── inherited-context.md
├── current-state.md
├── current-practice-profile.md
└── output-object-inventory.md

6 个文件,无子目录。

1.2 references/data-horizon/

不存在document-change-scope-policy.md §3 data-horizon 行声明 references/data-horizon/ 为允许修改范围,但该目录从未创建。

1.3 evaluation/data-horizon/

不存在。当前 evaluation/ 下仅有 finclaw/shared/future/ 命名空间。

1.4 source/project-prealignment/data-horizon/

不存在。当前 source/project-prealignment/ 下仅有 finclaw/

1.5 packets/sync/data-horizon-*

packets/sync/
├── data-horizon-alignment-packet-2026-05-12.md
└── (本文件) data-horizon-doc-ia-audit-2026-05-15.md

另有 Admin 侧 audit 包:labs-fintecai-data-horizon-project-doc-audit-2026-05-14.md(以 labs-fintecai- 为前缀,属 Admin scope)。

1.6 controllers/data-horizon/

controllers/data-horizon/
├── state.md
└── checkpoints/
├── 2026-05-13-admin-batch4-pickup.md
├── 2026-05-13-current-session-recovery.md
└── 2026-05-14-controller-rewrite-dispatch-pickup.md

4 个文件。

2. 文件角色标签

2.1 projects/data-horizon/

文件角色说明
README.mdcanonical项目公共入口,被 CONTEXT-MAP.mdINDEX.mdregistry/project-registry.md 引用
project-anchor.mdcanonical项目身份、生态角色、职责边界、第一阶段目标
inherited-context.mdsupport上游基线继承,仅在生态基线变更时同步
current-state.mdsupport / open-gap当前事实、缺口、风险、开放问题和下一步
current-practice-profile.mdevidence静态工程实践画像,基于代码阅读,非运行态证据
output-object-inventory.mdsupport / open-gap输出对象盘点,状态标记清楚但缺真实样例

2.2 packets/sync/

文件角色说明
data-horizon-alignment-packet-2026-05-12.mdsync / evidence挑战优先对齐包初版,draft 状态,未 close
labs-fintecai-data-horizon-project-doc-audit-2026-05-14.mdsync (Admin-owned)Batch 8C-1 audit,标注 canonical/support/evidence/open-gap 分层

2.3 controllers/data-horizon/

文件角色说明
state.mdcontroller-stateController 恢复入口
checkpoints/2026-05-13-admin-batch4-pickup.mdcontroller-stateBatch 4 接手记录,proposed
checkpoints/2026-05-13-current-session-recovery.mdcontroller-state早期会话恢复 checkpoint,内容已被后续 checkpoint 覆盖
checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.mdcontroller-stateRewrite dispatch 接收记录,当前活跃

2.4 不存在但应存在的目录

路径角色建议
references/data-horizon/reference建议创建,见 §5.1
evaluation/data-horizon/evidence暂不创建,等待 reference evaluation 启动后按需建立

3. 命名问题清单

3.1 文件命名

文件问题建议新名严重度
current-practice-profile.mdpractice-profile 不在 R4 §4 标准后缀集中;语义准确但与 FinClaw / Trading Matrix 的同类文件一致,可暂保留保留现名
output-object-inventory.mdinventory 不在 R4 §4 标准后缀集中;但语义合理且无歧义保留现名
data-horizon-alignment-packet-2026-05-12.mdalignment-packet 不在 R4 §4 标准后缀集(*-plan.md / *-audit.md / *-task-packet.md / *-reference-analysis.md / *-reference-evaluation.md)中;该文件实际是 sync packet 而非上述任何一种选项 A: data-horizon-challenge-first-alignment-2026-05-12.md;选项 B: 保留现名(sync packet 命名不强制适用 project doc 后缀规范)

3.2 跨目录名称一致性

问题描述
project-anchor.md 日期最后更新 2026-05-07,已有 3 轮 Admin audit / dispatch 未反映;与 README.md (2026-05-13) 不一致
inherited-context.md 日期最后更新 2026-05-07,与 current-state.md (2026-05-12) 不一致
current-state.md §9 待决问题 #1仍写"本地代码仓库目录是什么?"但 current-practice-profile.md §1 已明确为 /Users/mlabs/Programs/data-horizon
公共入口引用路径CONTEXT-MAP.md:35 引用 projects/data-horizon/current-practice-profile.md,命名路径一致,无问题

3.3 总结

Data Horizon 文件集体量小(6 + 1 sync + 4 controller),命名问题主要是日期陈旧少量自洽矛盾,不存在批量 rename 需求。

4. 处置建议

文件处置理由影响范围
projects/data-horizon/README.mdrewrite-lite更新日期至 2026-05-15;补 R4 audit 状态;补 Controller lane 当前状态;明确 reference evaluation 下一步公共入口:CONTEXT-MAP.md:35INDEX.md:60-62registry/project-registry.md 引用名不变,无需改链
projects/data-horizon/project-anchor.mdrewrite-lite更新日期;§12 下一步吸收 Batch 8C-1 audit 结论和 R4 audit 引用;§11 材料状态补 current-practice-profile.mdoutput-object-inventory.md无公共入口链接变化
projects/data-horizon/inherited-context.mddefer仅在生态基线变更时同步;当前生态基线未变;不属于本轮优先 rewrite-lite 范围
projects/data-horizon/current-state.mdrewrite-lite更新日期;吸收 practice profile 已回答的问题(§9 #1 本地仓库目录);补 R4 audit 后的证据缺口清单;更新 §4.3 已登记事项无公共入口链接变化
projects/data-horizon/current-practice-profile.mdkeep + 后续 rewrite-lite本轮不改;后续补运行态证据时做 rewrite-lite(API 返回、数据库现场、控制台截图、样例输出)
projects/data-horizon/output-object-inventory.mdkeep + 后续 rewrite-lite本轮不改;后续参考评估启动后补样例证据和 quality/provenance 评估维度
data-horizon-alignment-packet-2026-05-12.mdkeep → 后续 close / absorbDraft sync,稳定结论应被 canonical 正文吸收后标 superseded;本轮不改
controllers/data-horizon/state.mdrewrite-lite补 R4 audit 接收记录;更新任务队列无公共入口变化
checkpoints/2026-05-13-current-session-recovery.mddefer / 可删内容已被后续 2 个 checkpoint 完全覆盖;保留不影响,删除无损失
checkpoints/2026-05-13-admin-batch4-pickup.mdkeep仍作为 Batch 4 接手证据
checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.mdkeep当前活跃 checkpoint

4.1 新建建议

路径理由
references/data-horizon/README.md建立 desk reference hub(见 §5.1 详细分析)

5. 内容深度问题

5.1 是否需要 references/data-horizon/README.md 作为 desk reference hub

结论:需要,且应在本轮 audit 后作为第一个新建文件。

论据:

  1. Reference evaluation 是当前阶段的核心阻塞项state.md §5、§6 和 rewrite-dispatch-pickup checkpoint §4 均明确:reference evaluation shortlist 是 Blocked 状态,阻塞所有下游决策(产品定义、MVP、schema、API contract)。
  2. FinClaw 已有成熟的参考层结构references/finclaw/ 下有 external-reference-candidate-scan.md + 3 份独立分析(aifinlab / fin-chelae / martinpmm);projects/finclaw/reference-experience/ 下有 6 份评测证据。Data Horizon 的参考层完全空白。
  3. 当前实践画像和对齐包中已隐式定义了参考评估问题域alignment-packet §5 列出了 11 个评估维度;output-object-inventory.md §6 列出了 6 个 reference candidate 对象。这些问题域需要一个 hub 来组织。
  4. Scope policy 已授权document-change-scope-policy.md §3 data-horizon 行明确 references/data-horizon/ 在允许范围内。

建议 references/data-horizon/README.md 最小结构:

# Data Horizon 参考层入口

状态:Draft / reference hub
最后更新:<date>

## 1. 定位
Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。

## 2. 参考评估问题域
(从 alignment-packet §5 和 output-object-inventory §6 汇总)

## 3. 参考项目筛选原则
(待补)

## 4. 候选参考对象 Shortlist
(待补)

## 5. 已完成评估
(待补)

## 6. 评估方法
(待补)

## 7. 与 projects/data-horizon/ 的回流关系

5.2 output-object-inventory.md 边界问题

当前 output-object-inventory.md 同时承载了三个关注点:

  1. 当前工程实现对象的事实盘点(§3 共 11 个 current implemented 对象)
  2. 产品层候选对象的边界讨论(§4 共 6 个 current partial 对象)
  3. 历史文档和应避免对象的治理判断(§5 共 5 个 documented but not implemented / should avoid 对象)

这不是命名问题,而是单文件承载过多关注点。但在当前阶段(6 个文件、reference evaluation 未启动),拆分反而增加导航成本。

建议:保持现状;当参考评估启动并产出第一批比较结果后,考虑拆分为:

  • output-object-inventory.md(工程事实层)
  • 在产品定义环节建立正式输出对象定义(不在本轮)

5.3 project-anchor.md 需要 rewrite 的章节

章节问题类型
§11 当前材料状态未列出 current-practice-profile.mdoutput-object-inventory.md(它们在 §11 写作时尚未存在)rewrite-lite
§12 当前下一步5 条下一步有 3 条已被后续文件部分回答(inherited-context 已校准、current-state 已校准、current-practice-profile 已建立),但 anchor 文档未反映rewrite-lite
§8 关键输出对象5 个工作性对象与 output-object-inventory.md 的 22 个对象存在视角差异;需要补一句"详见 output-object-inventory.md 的分层盘点"rewrite-lite

5.4 current-state.md 需要 rewrite 的章节

章节问题类型
§4.3 暂未登记事项第一段"当前仓库已经初步登记"应更新:本地仓库目录已确认,静态画像已完成rewrite-lite
§9 待决问题 #1"本地代码仓库目录是什么?"已有答案,应标为已回答rewrite-lite
§3 当前已完成应补 R4 audit 入口引用rewrite-lite

5.5 Reference shortlist 输出对象边界

基于全部 Authoritative Docs 分析,当前输出对象可分为三个评估优先级:

Tier 1:核心候选对象(参考评估必须覆盖)

对象当前状态参考评估需回答的上位问题
Perception Recordcurrent partial单条金融信息感知记录应包含什么?质量、provenance、生命周期如何表达?
Financial Information Feedcurrent partial面向不同消费者(人类/机器/B端/C端)的 feed 形态如何区分?
Data Quality / Provenance Metadatacurrent partial来源、时效、授权、质量的最小底线字段是什么?如何在不引入交易判断的前提下标记信息质量?

Tier 2:支撑候选对象(参考评估应覆盖但不阻塞 Tier 1)

对象当前状态参考评估需回答的上位问题
Evidence Packagereference candidate证据保留、原文快照、多源印证的最小可行方式?
Dataset Packagereference candidate训练/评估/B端交付的数据包 manifest 应包含什么?
Source Reliability Profilereference candidate非交易化的来源质量观测维度有哪些?

Tier 3:接口与工作流候选(参考评估覆盖,但不纳入核心输出对象)

对象当前状态参考评估需回答的上位问题
Machine Feed Contractreference candidateREST / webhook / streaming / MCP / bulk export 等形态的选型依据?
Human Review / Quality Labelreference candidate内部复核工作流的最小能力集?
Retrieval Resultreference candidate检索结果对象如何表达匹配原因、时间、来源、质量?

边界红线:以下对象保持 should avoid,不进入参考评估 shortlist

  • Trading Signal / Deep Intelligence / RMF Attribution Report / Verified Intelligence / 交易指令 / 确定性投资结论 / 执行触发器 / PnL 归因输出

5.6 Reference shortlist 维度候选

基于 alignment-packet §5output-object-inventory §6,参考评估应覆盖以下维度(按优先级排序):

优先级维度上位问题
P0感知能力同类产品/系统如何完成金融信息监听、采集、清洗、标准化?
P0信息覆盖同类产品/系统覆盖哪些市场、资产、信息源、数据类型?
P0质量 / Provenance同类产品/系统如何标记来源、时效、质量、授权和适用限制?
P1标准化方式规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层?
P1存储检索原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层?
P1接口形态API / feed / MCP / CLI / export 等形态的实际案例?
P1成本控制高频持久采集链路的成本结构和控制手段?
P2产品交互内部控制台、B 端、C 端产品面的实际案例?
P2生态协同感知层与认知/执行系统的协同模式?
P2治理合规来源授权、非公开信息、用户误导风险的处理方式?

6. Reader-test 计划

6.1 本轮 audit 包

本 audit 包属于 Controller-owned sync 产出,不触及 canonical 正文改动,按 reader-testing-protocol.md §4:

  • 等级:L0(自检)。本包只是 audit,不改正文。

6.2 后续 rewrite-lite 批次

README.mdproject-anchor.mdcurrent-state.md 做 rewrite-lite 后:

  • 等级:L1(自检 + 1 独立视角)
  • 独立视角建议:R-agent-controller(模拟新 Controller 第一次接手 Data Horizon)。
  • 归档位置:evidence/reader-tests/2026-05-XX-data-horizon-rewrite-lite-l1/

6.3 如果新建 references/data-horizon/README.md 并建立 reference shortlist

  • 等级:L1。Reference hub 不是公共入口,不触发 L2。
  • 独立视角建议:R-agent-low-context(模拟低上下文读者能否从 hub 理解 Data Horizon 参考评估问题域)。

7. 风险与开放问题

#类型描述当前处理
1open-gapReference evaluation shortlist 空白:Data Horizon 的参考层完全空白(无 references/data-horizon/、无候选参考对象、无筛选原则)。所有下游决策(产品定义、MVP、schema、API contract)被阻塞。本 audit 建议首先新建 references/data-horizon/README.md 作为 hub,然后推进 shortlist。
2open-gap运行态 evidence 缺失current-practice-profile.md 基于静态代码阅读,缺 API 返回样例、数据库现场、控制台截图、样例输出。Blocked,需在工程仓库(/Users/mlabs/Programs/data-horizon)获取证据后回写 current-practice-profile.md。证据留在工程仓库,画像回写到治理仓库。
3open-gap目标消费对象未裁决:alignment packet 有优先级候选(内部人类→内部机器→B端→C端),但 canonical 正文未吸收。Blocked on reference evaluation + 用户裁决。
4open-gap第一阶段感知范围未定:缺市场、资产、主题、信息源、数据类型的最小范围裁决。Blocked on reference evaluation。
5open-gap最小价值验证假设缺失:有方向("更可查、可用、可追踪、可消费")但缺验证对象、指标、时间盒和 kill criteria。Blocked on 消费对象裁决 + 感知范围。
6open-gapQuality / Provenance 底线字段未定:已确认为必备方向,但具体字段、授权、适用限制、生命周期、人工复核和 evidence package 尚未形成底线。Blocked on reference evaluation。
7open-gap是否建立 CONTEXT.md 未决策project-anchor.md §10、current-state.md §4.2 均提及,但未有明确判断。Deferred;建议在参考评估产出第一批结论后再决定。当前工程仓库 CONTEXT.md 已有丰富领域语言,可作为候选输入。
8open-gapalignment-packet draft 未 closedata-horizon-alignment-packet-2026-05-12.md 仍为 draft,稳定结论未回写 canonical 正文。建议在 rewrite-lite 完成后将已吸收部分标 absorbed,未吸收部分保留为 open
9risk单文件承载过多关注点output-object-inventory.md 同时盘点工程事实、候选边界和治理判断。当前体量可控,但随参考评估推进可能需拆分。暂不拆分;参考评估启动后重新评估。
10riskcheckpoint 累积controllers/data-horizon/checkpoints/ 有 3 个文件,其中 2026-05-13-current-session-recovery.md 已被后续 checkpoint 覆盖。不影响功能但增加恢复噪音。建议后续 state.md 更新时标注该 checkpoint 为 superseded
11open-gapevaluation/data-horizon/ 不存在:当前不阻塞(无评测 case),但 reference evaluation 启动后需要建立。Deferred to reference evaluation 启动时。

8. 下一步行动排序

优先级行动前置依赖产出位置
1新建 references/data-horizon/README.md(desk reference hub)本 audit 完成references/data-horizon/README.md
2Rewrite-lite projects/data-horizon/README.md(日期、状态、R4 引用)本 audit 完成projects/data-horizon/README.md
3Rewrite-lite projects/data-horizon/project-anchor.md(日期、§11/§12 更新)本 audit 完成projects/data-horizon/project-anchor.md
4Rewrite-lite projects/data-horizon/current-state.md(§4.3/§9 更新、证据缺口)本 audit 完成projects/data-horizon/current-state.md
5补运行态 evidence 到 current-practice-profile.md工程仓库运行 + API/DB 证据projects/data-horizon/current-practice-profile.md
6建立 reference evaluation shortlistreference hub + 用户裁决references/data-horizon/
7L1 reader test(rewrite-lite 完成后)步骤 2-4 完成evidence/reader-tests/

9. 吸收状态

本 audit 包为 draft sync。

可能吸收位置:

  • controllers/data-horizon/state.md(登记 R4 audit 接收和任务队列更新)
  • projects/data-horizon/README.md(引用本 audit 的阶段结论)
  • projects/data-horizon/current-state.md(吸收 §5 的 open-gap 清单)

不应吸收为:

  • 产品定义、MVP 定义、工程实施计划
  • 正式 schema / API contract / 接口优先级
  • 第一阶段最小输出对象冻结