Data Horizon 项目文档 IA Audit
日期:2026-05-15
Controller:Data Horizon Controller
触发:R4 项目 Controller 文档 IA 重构控制包
当前阶段:reference-evaluation prealignment
DOC_CHANGE_SCOPE:data-horizon
1. 当前目录树
1.1 projects/data-horizon/
projects/data-horizon/
├── README.md
├── project-anchor.md
├── inherited-context.md
├── current-state.md
├── current-practice-profile.md
└── output-object-inventory.md
6 个文件,无子目录。
1.2 references/data-horizon/
不存在。document-change-scope-policy.md §3 data-horizon 行声明 references/data-horizon/ 为允许修改范围,但该目录从未创建。
1.3 evaluation/data-horizon/
不存在。当前 evaluation/ 下仅有 finclaw/、shared/、future/ 命名空间。
1.4 source/project-prealignment/data-horizon/
不存在。当前 source/project-prealignment/ 下仅有 finclaw/。
1.5 packets/sync/data-horizon-*
packets/sync/
├── data-horizon-alignment-packet-2026-05-12.md
└── (本文件) data-horizon-doc-ia-audit-2026-05-15.md
另有 Admin 侧 audit 包:labs-fintecai-data-horizon-project-doc-audit-2026-05-14.md(以 labs-fintecai- 为前缀,属 Admin scope)。
1.6 controllers/data-horizon/
controllers/data-horizon/
├── state.md
└── checkpoints/
├── 2026-05-13-admin-batch4-pickup.md
├── 2026-05-13-current-session-recovery.md
└── 2026-05-14-controller-rewrite-dispatch-pickup.md
4 个文件。
2. 文件角色标签
2.1 projects/data-horizon/
| 文件 | 角色 | 说明 |
|---|---|---|
README.md | canonical | 项目公共入口,被 CONTEXT-MAP.md、INDEX.md、registry/project-registry.md 引用 |
project-anchor.md | canonical | 项目身份、生态角色、职责边界、第一阶段目标 |
inherited-context.md | support | 上游基线继承,仅在生态基线变更时同步 |
current-state.md | support / open-gap | 当前事实、缺口、风险、开放问题和下一步 |
current-practice-profile.md | evidence | 静态工程实践画像,基于代码阅读,非运行态证据 |
output-object-inventory.md | support / open-gap | 输出对象盘点,状态标记清楚但缺真实样例 |
2.2 packets/sync/
| 文件 | 角色 | 说明 |
|---|---|---|
data-horizon-alignment-packet-2026-05-12.md | sync / evidence | 挑战优先对齐包初版,draft 状态,未 close |
labs-fintecai-data-horizon-project-doc-audit-2026-05-14.md | sync (Admin-owned) | Batch 8C-1 audit,标注 canonical/support/evidence/open-gap 分层 |
2.3 controllers/data-horizon/
| 文件 | 角色 | 说明 |
|---|---|---|
state.md | controller-state | Controller 恢复入口 |
checkpoints/2026-05-13-admin-batch4-pickup.md | controller-state | Batch 4 接手记录,proposed |
checkpoints/2026-05-13-current-session-recovery.md | controller-state | 早期会话恢复 checkpoint,内容已被后续 checkpoint 覆盖 |
checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.md | controller-state | Rewrite dispatch 接收记录,当前活跃 |
2.4 不存在但应存在的目录
| 路径 | 角色 | 建议 |
|---|---|---|
references/data-horizon/ | reference | 建议创建,见 §5.1 |
evaluation/data-horizon/ | evidence | 暂不创建,等待 reference evaluation 启动后按需建立 |
3. 命名问题清单
3.1 文件命名
| 文件 | 问题 | 建议新名 | 严重度 |
|---|---|---|---|
current-practice-profile.md | practice-profile 不在 R4 §4 标准后缀集中;语义准确但与 FinClaw / Trading Matrix 的同类文件一致,可暂保留 | 保留现名 | 低 |
output-object-inventory.md | inventory 不在 R4 §4 标准后缀集中;但语义合理且无歧义 | 保留现名 | 低 |
data-horizon-alignment-packet-2026-05-12.md | alignment-packet 不在 R4 §4 标准后缀集(*-plan.md / *-audit.md / *-task-packet.md / *-reference-analysis.md / *-reference-evaluation.md)中;该文件实际是 sync packet 而非上述任何一种 | 选项 A: data-horizon-challenge-first-alignment-2026-05-12.md;选项 B: 保留现名(sync packet 命名不强制适用 project doc 后缀规范) | 低 |
3.2 跨目录名称一致性
| 问题 | 描述 |
|---|---|
project-anchor.md 日期 | 最后更新 2026-05-07,已有 3 轮 Admin audit / dispatch 未反映;与 README.md (2026-05-13) 不一致 |
inherited-context.md 日期 | 最后更新 2026-05-07,与 current-state.md (2026-05-12) 不一致 |
current-state.md §9 待决问题 #1 | 仍写"本地代码仓库目录是什么?"但 current-practice-profile.md §1 已明确为 /Users/mlabs/Programs/data-horizon |
| 公共入口引用路径 | CONTEXT-MAP.md:35 引用 projects/data-horizon/current-practice-profile.md,命名路径一致,无问题 |
3.3 总结
Data Horizon 文件集体量小(6 + 1 sync + 4 controller),命名问题主要是日期陈旧和少量自洽矛盾,不存在批量 rename 需求。
4. 处置建议
| 文件 | 处置 | 理由 | 影响范围 |
|---|---|---|---|
projects/data-horizon/README.md | rewrite-lite | 更新日期至 2026-05-15;补 R4 audit 状态;补 Controller lane 当前状态;明确 reference evaluation 下一步 | 公共入口:CONTEXT-MAP.md:35、INDEX.md:60-62、registry/project-registry.md 引用名不变,无需改链 |
projects/data-horizon/project-anchor.md | rewrite-lite | 更新日期;§12 下一步吸收 Batch 8C-1 audit 结论和 R4 audit 引用;§11 材料状态补 current-practice-profile.md 和 output-object-inventory.md | 无公共入口链接变化 |
projects/data-horizon/inherited-context.md | defer | 仅在生态基线变更时同步;当前生态基线未变;不属于本轮优先 rewrite-lite 范围 | 无 |
projects/data-horizon/current-state.md | rewrite-lite | 更新日期;吸收 practice profile 已回答的问题(§9 #1 本地仓库目录);补 R4 audit 后的证据缺口清单;更新 §4.3 已登记事项 | 无公共入口链接变化 |
projects/data-horizon/current-practice-profile.md | keep + 后续 rewrite-lite | 本轮不改;后续补运行态证据时做 rewrite-lite(API 返回、数据库现场、控制台截图、样例输出) | 无 |
projects/data-horizon/output-object-inventory.md | keep + 后续 rewrite-lite | 本轮不改;后续参考评估启动后补样例证据和 quality/provenance 评估维度 | 无 |
data-horizon-alignment-packet-2026-05-12.md | keep → 后续 close / absorb | Draft sync,稳定结论应被 canonical 正文吸收后标 superseded;本轮不改 | 无 |
controllers/data-horizon/state.md | rewrite-lite | 补 R4 audit 接收记录;更新任务队列 | 无公共入口变化 |
checkpoints/2026-05-13-current-session-recovery.md | defer / 可删 | 内容已被后续 2 个 checkpoint 完全覆盖;保留不影响,删除无损失 | 无 |
checkpoints/2026-05-13-admin-batch4-pickup.md | keep | 仍作为 Batch 4 接手证据 | 无 |
checkpoints/2026-05-14-controller-rewrite-dispatch-pickup.md | keep | 当前活跃 checkpoint | 无 |
4.1 新建建议
| 路径 | 理由 |
|---|---|
references/data-horizon/README.md | 建立 desk reference hub(见 §5.1 详细分析) |
5. 内容深度问题
5.1 是否需要 references/data-horizon/README.md 作为 desk reference hub
结论:需要,且应在本轮 audit 后作为第一个新建文件。
论据:
- Reference evaluation 是当前阶段的核心阻塞项。
state.md§5、§6 和rewrite-dispatch-pickupcheckpoint §4 均明确:reference evaluation shortlist 是 Blocked 状态,阻塞所有下游决策(产品定义、MVP、schema、API contract)。 - FinClaw 已有成熟的参考层结构。
references/finclaw/下有external-reference-candidate-scan.md+ 3 份独立分析(aifinlab / fin-chelae / martinpmm);projects/finclaw/reference-experience/下有 6 份评测证据。Data Horizon 的参考层完全空白。 - 当前实践画像和对齐包中已隐式定义了参考评估问题域。
alignment-packet §5列出了 11 个评估维度;output-object-inventory.md §6列出了 6 个 reference candidate 对象。这些问题域需要一个 hub 来组织。 - Scope policy 已授权。
document-change-scope-policy.md§3data-horizon行明确references/data-horizon/在允许范围内。
建议 references/data-horizon/README.md 最小结构:
# Data Horizon 参考层入口
状态:Draft / reference hub
最后更新:<date>
## 1. 定位
Data Horizon 第三方参考项目筛选、体验、评估和交叉对比的入口与索引。
## 2. 参考评估问题域
(从 alignment-packet §5 和 output-object-inventory §6 汇总)
## 3. 参考项目筛选原则
(待补)
## 4. 候选参考对象 Shortlist
(待补)
## 5. 已完成评估
(待补)
## 6. 评估方法
(待补)
## 7. 与 projects/data-horizon/ 的回流关系
5.2 output-object-inventory.md 边界问题
当前 output-object-inventory.md 同时承载了三个关注点:
- 当前工程实现对象的事实盘点(§3 共 11 个
current implemented对象) - 产品层候选对象的边界讨论(§4 共 6 个
current partial对象) - 历史文档和应避免对象的治理判断(§5 共 5 个
documented but not implemented/should avoid对象)
这不是命名问题,而是单文件承载过多关注点。但在当前阶段(6 个文件、reference evaluation 未启动),拆分反而增加导航成本。
建议:保持现状;当参考评估启动并产出第一批比较结果后,考虑拆分为:
output-object-inventory.md(工程事实层)- 在产品定义环节建立正式输出对象定义(不在本轮)
5.3 project-anchor.md 需要 rewrite 的章节
| 章节 | 问题 | 类型 |
|---|---|---|
| §11 当前材料状态 | 未列出 current-practice-profile.md 和 output-object-inventory.md(它们在 §11 写作时尚未存在) | rewrite-lite |
| §12 当前下一步 | 5 条下一步有 3 条已被后续文件部分回答(inherited-context 已校准、current-state 已校准、current-practice-profile 已建立),但 anchor 文档未反映 | rewrite-lite |
| §8 关键输出对象 | 5 个工作性对象与 output-object-inventory.md 的 22 个对象存在视角差异;需要补一句"详见 output-object-inventory.md 的分层盘点" | rewrite-lite |
5.4 current-state.md 需要 rewrite 的章节
| 章节 | 问题 | 类型 |
|---|---|---|
| §4.3 暂未登记事项 | 第一段"当前仓库已经初步登记"应更新:本地仓库目录已确认,静态画像已完成 | rewrite-lite |
| §9 待决问题 #1 | "本地代码仓库目录是什么?"已有答案,应标为已回答 | rewrite-lite |
| §3 当前已完成 | 应补 R4 audit 入口引用 | rewrite-lite |
5.5 Reference shortlist 输出对象边界
基于全部 Authoritative Docs 分析,当前输出对象可分为三个评估优先级:
Tier 1:核心候选对象(参考评估必须覆盖)
| 对象 | 当前状态 | 参考评估需回答的上位问题 |
|---|---|---|
| Perception Record | current partial | 单条金融信息感知记录应包含什么?质量、provenance、生命周期如何表达? |
| Financial Information Feed | current partial | 面向不同消费者(人类/机器/B端/C端)的 feed 形态如何区分? |
| Data Quality / Provenance Metadata | current partial | 来源、时效、授权、质量的最小底线字段是什么?如何在不引入交易判断的前提下标记信息质量? |
Tier 2:支撑候选对象(参考评估应覆盖但不阻塞 Tier 1)
| 对象 | 当前状态 | 参考评估需回答的上位问题 |
|---|---|---|
| Evidence Package | reference candidate | 证据保留、原文快照、多源印证的最小可行方式? |
| Dataset Package | reference candidate | 训练/评估/B端交付的数据包 manifest 应包含什么? |
| Source Reliability Profile | reference candidate | 非交易化的来源质量观测维度有哪些? |
Tier 3:接口与工作流候选(参考评估覆盖,但不纳入核心输出对象)
| 对象 | 当前状态 | 参考评估需回答的上位问题 |
|---|---|---|
| Machine Feed Contract | reference candidate | REST / webhook / streaming / MCP / bulk export 等形态的选型依据? |
| Human Review / Quality Label | reference candidate | 内部复核工作流的最小能力集? |
| Retrieval Result | reference candidate | 检索结果对象如何表达匹配原因、时间、来源、质量? |
边界红线:以下对象保持 should avoid,不进入参考评估 shortlist
- Trading Signal / Deep Intelligence / RMF Attribution Report / Verified Intelligence / 交易指令 / 确定性投资结论 / 执行触发器 / PnL 归因输出
5.6 Reference shortlist 维度候选
基于 alignment-packet §5 和 output-object-inventory §6,参考评估应覆盖以下维度(按优先级排序):
| 优先级 | 维度 | 上位问题 |
|---|---|---|
| P0 | 感知能力 | 同类产品/系统如何完成金融信息监听、采集、清洗、标准化? |
| P0 | 信息覆盖 | 同类产品/系统覆盖哪些市场、资产、信息源、数据类型? |
| P0 | 质量 / Provenance | 同类产品/系统如何标记来源、时效、质量、授权和适用限制? |
| P1 | 标准化方式 | 规则 / NLP / 小模型 / 云端 LLM / 人工复核如何分层? |
| P1 | 存储检索 | 原始 / 规范化 / 搜索 / 语义 / 对象 / 数据集如何分层? |
| P1 | 接口形态 | API / feed / MCP / CLI / export 等形态的实际案例? |
| P1 | 成本控制 | 高频持久采集链路的成本结构和控制手段? |
| P2 | 产品交互 | 内部控制台、B 端、C 端产品面的实际案例? |
| P2 | 生态协同 | 感知层与认知/执行系统的协同模式? |
| P2 | 治理合规 | 来源授权、非公开信息、用户误导风险的处理方式? |
6. Reader-test 计划
6.1 本轮 audit 包
本 audit 包属于 Controller-owned sync 产出,不触及 canonical 正文改动,按 reader-testing-protocol.md §4:
- 等级:L0(自检)。本包只是 audit,不改正文。
6.2 后续 rewrite-lite 批次
当 README.md、project-anchor.md、current-state.md 做 rewrite-lite 后:
- 等级:L1(自检 + 1 独立视角)。
- 独立视角建议:
R-agent-controller(模拟新 Controller 第一次接手 Data Horizon)。 - 归档位置:
evidence/reader-tests/2026-05-XX-data-horizon-rewrite-lite-l1/。
6.3 如果新建 references/data-horizon/README.md 并建立 reference shortlist
- 等级:L1。Reference hub 不是公共入口,不触发 L2。
- 独立视角建议:
R-agent-low-context(模拟低上下文读者能否从 hub 理解 Data Horizon 参考评估问题域)。
7. 风险与开放问题
| # | 类型 | 描述 | 当前处理 |
|---|---|---|---|
| 1 | open-gap | Reference evaluation shortlist 空白:Data Horizon 的参考层完全空白(无 references/data-horizon/、无候选参考对象、无筛选原则)。所有下游决策(产品定义、MVP、schema、API contract)被阻塞。 | 本 audit 建议首先新建 references/data-horizon/README.md 作为 hub,然后推进 shortlist。 |
| 2 | open-gap | 运行态 evidence 缺失:current-practice-profile.md 基于静态代码阅读,缺 API 返回样例、数据库现场、控制台截图、样例输出。 | Blocked,需在工程仓库(/Users/mlabs/Programs/data-horizon)获取证据后回写 current-practice-profile.md。证据留在工程仓库,画像回写到治理仓库。 |
| 3 | open-gap | 目标消费对象未裁决:alignment packet 有优先级候选(内部人类→内部机器→B端→C端),但 canonical 正文未吸收。 | Blocked on reference evaluation + 用户裁决。 |
| 4 | open-gap | 第一阶段感知范围未定:缺市场、资产、主题、信息源、数据类型的最小范围裁决。 | Blocked on reference evaluation。 |
| 5 | open-gap | 最小价值验证假设缺失:有方向("更可查、可用、可追踪、可消费")但缺验证对象、指标、时间盒和 kill criteria。 | Blocked on 消费对象裁决 + 感知范围。 |
| 6 | open-gap | Quality / Provenance 底线字段未定:已确认为必备方向,但具体字段、授权、适用限制、生命周期、人工复核和 evidence package 尚未形成底线。 | Blocked on reference evaluation。 |
| 7 | open-gap | 是否建立 CONTEXT.md 未决策:project-anchor.md §10、current-state.md §4.2 均提及,但未有明确判断。 | Deferred;建议在参考评估产出第一批结论后再决定。当前工程仓库 CONTEXT.md 已有丰富领域语言,可作为候选输入。 |
| 8 | open-gap | alignment-packet draft 未 close:data-horizon-alignment-packet-2026-05-12.md 仍为 draft,稳定结论未回写 canonical 正文。 | 建议在 rewrite-lite 完成后将已吸收部分标 absorbed,未吸收部分保留为 open。 |
| 9 | risk | 单文件承载过多关注点:output-object-inventory.md 同时盘点工程事实、候选边界和治理判断。当前体量可控,但随参考评估推进可能需拆分。 | 暂不拆分;参考评估启动后重新评估。 |
| 10 | risk | checkpoint 累积:controllers/data-horizon/checkpoints/ 有 3 个文件,其中 2026-05-13-current-session-recovery.md 已被后续 checkpoint 覆盖。不影响功能但增加恢复噪音。 | 建议后续 state.md 更新时标注该 checkpoint 为 superseded。 |
| 11 | open-gap | evaluation/data-horizon/ 不存在:当前不阻塞(无评测 case),但 reference evaluation 启动后需要建立。 | Deferred to reference evaluation 启动时。 |
8. 下一步行动排序
| 优先级 | 行动 | 前置依赖 | 产出位置 |
|---|---|---|---|
| 1 | 新建 references/data-horizon/README.md(desk reference hub) | 本 audit 完成 | references/data-horizon/README.md |
| 2 | Rewrite-lite projects/data-horizon/README.md(日期、状态、R4 引用) | 本 audit 完成 | projects/data-horizon/README.md |
| 3 | Rewrite-lite projects/data-horizon/project-anchor.md(日期、§11/§12 更新) | 本 audit 完成 | projects/data-horizon/project-anchor.md |
| 4 | Rewrite-lite projects/data-horizon/current-state.md(§4.3/§9 更新、证据缺口) | 本 audit 完成 | projects/data-horizon/current-state.md |
| 5 | 补运行态 evidence 到 current-practice-profile.md | 工程仓库运行 + API/DB 证据 | projects/data-horizon/current-practice-profile.md |
| 6 | 建立 reference evaluation shortlist | reference hub + 用户裁决 | references/data-horizon/ |
| 7 | L1 reader test(rewrite-lite 完成后) | 步骤 2-4 完成 | evidence/reader-tests/ |
9. 吸收状态
本 audit 包为 draft sync。
可能吸收位置:
controllers/data-horizon/state.md(登记 R4 audit 接收和任务队列更新)projects/data-horizon/README.md(引用本 audit 的阶段结论)projects/data-horizon/current-state.md(吸收 §5 的 open-gap 清单)
不应吸收为:
- 产品定义、MVP 定义、工程实施计划
- 正式 schema / API contract / 接口优先级
- 第一阶段最小输出对象冻结