Reinforcement Learning Engine 继承上下文

状态：基线收束草案最后更新：2026-05-07 项目：Reinforcement Learning Engine 来源：FinTec AI Ecosystem 生态级基线、项目注册表与项目锚点

1. 本文档定位

本文档用于把生态层当前有效的基线、边界、接口、金融风险和反馈治理口径继承到 Reinforcement Learning Engine 项目中。

它服务于项目负责人、参与人及其个人域 Agent，使后续产品定义、协同边界记录、PRD、issue、context、反馈对象治理和实现讨论默认站在同一组上游输入之上。

本文档不是：

项目完整方案；
实现计划；
当前工程现状报告；
强化学习算法方案；
反馈对象最终 schema；
与 Financial Expert Foundation Model 的最终工程化对接设计。

项目现状、已有材料、缺口、风险和下一步应记录在 current-state.md。

2. 继承来源与优先级

Reinforcement Learning Engine 当前应优先继承以下文档：

../../baseline/03-current-baseline.md 当前可被项目级文档继承的生态级判断集合。
../../registry/project-registry.md 当前生态对象注册表，登记各对象角色、边界、接口和项目入口。
project-anchor.md Reinforcement Learning Engine 当前项目入口锚点。
../../governance/first-phase-product-closure.md 第一阶段独立闭环判断，以及两个基础设施层不应空转式提前启动的触发条件口径。
../../governance/material-intake-policy.md 材料接入、事实源升级和边界变更治理规则。
../../governance/project-context-template.md 项目级文档包的最低协作协议。

若本文档与 baseline/03-current-baseline.md 冲突，以生态级当前有效基线为准。若项目实践证明当前基线不够用，应通过 sync / escalation 回到生态层修订。

准备期 decision log 和 change index 已完成有效内容抽取并移出正式仓库，不作为当前权威入口逐条继承。

3. 继承的生态定义

Reinforcement Learning Engine 所属的 FinTec AI Ecosystem 当前定义为：

围绕金融信息感知、金融认知、交易执行、反馈学习、金融领域模型能力持续增强而组织起来的 AI Native 金融智能生态。

因此，Reinforcement Learning Engine 不应被理解为孤立的强化学习模块，也不应被压缩为某个前台产品的内部日志或优化工具。

它继承的生态根问题是：

在金融信息形态快速扩张、超额收益来源持续迁移的背景下，市场参与者难以将海量异构信息稳定转化为可验证金融认知、可治理交易执行支持和可复利的领域能力，导致潜在收益与组织能力在感知、认知、执行和反馈环节持续损耗。

Reinforcement Learning Engine 只承担其中的反馈学习和能力沉淀环节，不单独解决完整根问题。

4. 继承的生态结构

当前生态采用 3 + 2 结构。

三个前台独立系统 / 产品：

Data Horizon / 数据视界
FinClaw
AI Trading Matrix

两个基础设施 / 能力底座：

Reinforcement Learning Engine
Financial Expert Foundation Model

Reinforcement Learning Engine 属于两个基础设施 / 能力底座之一，当前生态角色是反馈与学习层。

它位于能力链路的第四环：

金融信息感知
  -> 金融认知与研究分析
  -> 交易执行
  -> 结果反馈与学习沉淀
  -> 金融领域模型能力增强

该链路用于解释生态协同关系，不用于要求第一阶段强行集成全部对象。

5. 继承的一句话定义

Reinforcement Learning Engine 是 FinTec AI Ecosystem 中的反馈与学习层基础设施。

它负责把真实使用、真实结果、真实错误和真实反馈沉淀为可治理、可复用、可评估的评估样本、学习资产和改进信号。

6. 继承的生态理解增量

过本文档时应形成的关键生态理解是：

FinTec AI Ecosystem 不只是一条“感知 -> 认知 -> 执行支持”的前向链路；它还需要通过 Reinforcement Learning Engine 把真实结果、失败案例、用户反馈和效果评估变成可回流的能力资产，生态才可能从一次性输出集合变成越用越强的系统。

这意味着：

Data Horizon / 数据视界 的感知质量可以通过下游消费反馈、漏报、误报、延迟和来源质量评价被反向改进；
FinClaw 的认知质量可以通过用户修正、后验结果、失败推理、遗漏事件和 follow-up 有用性被反向改进；
AI Trading Matrix 的交易执行支持质量可以通过回测、仿真、授权执行结果、风控拦截和用户授权 / 拒绝 / 撤销行为被反向改进；
Financial Expert Foundation Model 的长期领域能力可以在真实任务反馈、评估样本和学习资产足够成熟后获得更可靠的上游输入。

因此，Reinforcement Learning Engine 是全局生态理解中的“能力复利环节”，不是文档治理里的一个补充目录。

7. 继承的当前拥有职责

Reinforcement Learning Engine 当前拥有：

结果、误差、案例、反馈和用户行为的学习闭环；
对金融认知、策略假设、信号候选、执行支持和授权执行效果的评估回流；
可复用学习资产、评估样本、结果标签、失败样本和改进信号沉淀；
跨项目反馈对象的最小结构、治理字段和证据要求；
将前台产品产生的真实反馈转化为后续流程、产品、模型和能力改进输入；
为 Financial Expert Foundation Model 提供经治理的任务反馈、评估样本和学习资产；
维护“哪些反馈可以学习、哪些反馈不能学习、哪些反馈需要人工审核”的边界。

这些职责说明它的价值不只是“做优化”，而是让生态能够把真实金融任务中的效果、错误和修正转化为长期可复用资产。

8. 继承的当前不拥有职责

Reinforcement Learning Engine 当前不拥有：

前台产品体验职责；
替代 Data Horizon / 数据视界 的金融信息感知职责；
替代 FinClaw 的金融认知与研究分析职责；
替代 AI Trading Matrix 的交易执行、授权执行和风控职责；
替代 Financial Expert Foundation Model 的模型能力建设职责；
替代具体项目产品战略的职责；
在缺少真实任务、真实反馈和真实评估对象时空转式启动完整引擎的职责；
用强化学习、自动优化或反馈学习绕过金融风险、授权、审计和合规边界的职责；
将未经验证、带有偏差或不可追溯来源的反馈直接用于能力强化的职责。

这意味着 Reinforcement Learning Engine 可以定义反馈学习对象和能力沉淀方式，但不能因为“学习”二字吸收前台产品、执行系统或模型底座的本职工作。

9. 继承的第一阶段判断

第一阶段重点不是一次性打通完整生态主链路。

三个前台独立系统 / 产品应先分别证明自身最小闭环成立：

Data Horizon / 数据视界：形成独立金融信息感知链路；
FinClaw：形成独立金融认知产品闭环；
AI Trading Matrix：形成独立交易执行闭环。

Reinforcement Learning Engine 第一阶段应保持：

能力规划清晰；
触发条件清晰；
对前台产品数据、反馈和场景的依赖关系清晰；
不在缺少真实任务和反馈时空转式全面启动。

第一阶段更准确的目标是：

定义正式启动前的触发条件、可接收反馈类型、依赖前台产品的最小数据条件，以及反馈对象治理方式。

10. 继承的启动触发条件

Reinforcement Learning Engine 当前不应空转式全面启动。

正式启动至少需要继承以下 readiness 条件：

至少一个前台系统形成可描述、可验证的最小闭环；
上游已有稳定或半稳定输出对象；
这些输出对象已经产生真实使用、真实评估、真实错误或真实反馈；
反馈来源、证据、权限和风险等级可以被记录；
已明确哪些反馈可学习，哪些反馈仅可归档，哪些反馈必须人工审核；
已明确学习结果回流到哪个对象，以及回流后由谁负责验证；
对金融风险、授权、审计和合规边界不会因“自动优化”而被绕过。

在未满足上述条件前，本项目应保持为“预启动 / 能力规划 / 触发条件定义”状态。

11. 继承的金融风险与反馈治理边界

所有产品 / 系统都必须默认把输出定位为：

信息；
认知；
研究辅助；
决策支持；
受约束的交易执行支持。

Reinforcement Learning Engine 尤其需要继承以下边界：

不得用反馈学习强化高风险或误导性行为；
不得把未经验证的结果反馈当成可直接学习的真值；
不得因短期收益或用户偏好强化错误、偏见、过拟合或不可解释行为；
不得绕过授权、审计、风控、合规或人工审核边界；
不得让“自动优化”成为真实交易执行、资金操作、链上动作或模型训练的隐性捷径；
高风险反馈、真实执行反馈、争议性用户反馈和不可追溯来源反馈必须显式标记治理状态。

任何可能让反馈学习影响真实执行、强化误导性金融行为、改变多个项目能力边界或进入模型能力建设链路的设计，都必须触发 sync / escalation。

12. 继承的关键输出对象

Reinforcement Learning Engine 当前应继承以下候选输出对象：

Feedback Event: 来自用户、系统、研究流程、感知流程、策略流程或执行支持流程的反馈事件；
Outcome / Result Record: 某次认知、策略、信号、回测、仿真、执行支持或授权执行的结果记录；
Error / Failure Case: 失败、误判、遗漏、延迟、噪声、过拟合、不可解释或风险越界案例；
Evaluation Sample: 可用于后续评估、回归测试或模型能力验证的样本；
Learning Asset: 经治理、可复用、可追溯的学习材料或任务资产；
Improvement Signal: 指向产品流程、提示词、技能、agent、数据链路、策略约束或模型能力的改进信号；
Feedback Governance Metadata: 记录来源、证据、权限、风险等级、审核状态和可学习范围的治理元数据。

这些对象是继承口径和候选对象，不代表当前已经存在工程实现或最终 schema。

13. 继承的关键接口

13.1 AI Trading Matrix -> Reinforcement Learning Engine

这是当前最高优先级接口之一。

当真实使用数据、仿真数据、执行数据和用户反馈出现后，AI Trading Matrix 可提供：

回测和仿真结果；
策略候选表现；
信号候选表现；
执行支持计划的实际有效性；
授权执行后的结果、偏差、错误和风险事件；
用户授权、拒绝、修改、撤销和复盘反馈；
风控命中、失效条件触发和异常处理记录。

第一阶段不应因未来学习闭环而提前建设完整学习基础设施。真实执行反馈只有在授权、审计、风控和可追溯边界明确时才可进入学习闭环。

13.2 FinClaw -> Reinforcement Learning Engine

当真实认知产品使用数据和研究反馈出现后，FinClaw 可提供：

金融认知产物的质量反馈；
用户对研究结论、风险表达、反证点和继续跟踪问题的修正；
条件化策略假设的后验结果；
research follow-up 是否有用的反馈；
失败推理、遗漏事件、错误归因和认知偏差案例；
对技能、agent、模板、记忆和个性化行为的改进信号。

该接口必须继承 FinClaw 的“认知 vs 执行”边界。FinClaw 可以产生评级、target price、portfolio optimization、backtesting、strategy suggestions、价格信号、主动提醒等认知或决策支持候选，但不能直接触发交易、下单、调仓、资金划转、链上交易或调用执行系统。

13.3 Data Horizon / 数据视界 -> Reinforcement Learning Engine

当真实使用数据、反馈数据和下游消费结果出现后，Data Horizon / 数据视界 可提供：

来源质量反馈；
信息时效性反馈；
噪声、误报、漏报和迟到信号案例；
数据清洗、标准化和组织过程中的错误案例；
下游 FinClaw 或 AI Trading Matrix 对其输出的消费反馈；
信息感知链路的改进信号。

第一阶段不应因未来学习闭环而提前建设复杂反馈基础设施。该接口主要服务于感知链路质量、可追溯性、覆盖度和输出可消费性。

13.4 Reinforcement Learning Engine -> Financial Expert Foundation Model

这是学习层通往长期模型能力层的关键接口。

Reinforcement Learning Engine 可向 Financial Expert Foundation Model 提供：

经治理的金融任务反馈；
评估样本；
失败案例；
结果标签；
领域任务样本；
模型能力改进信号。

该接口不代表当前已经进入模型训练或模型微调阶段。只有当 Financial Expert Foundation Model 的项目定义、触发条件、样本治理和模型能力路线明确后，学习资产才可进一步进入模型能力建设链路。

14. 对后续项目文档的约束

后续 Reinforcement Learning Engine 项目文档应遵守：

project-anchor.md 固定项目定义、生态角色、职责边界、第一阶段目标和启动触发边界；
inherited-context.md 只承接上游基线，不记录可变工程现状；
current-state.md 记录当前事实、已有材料、缺口、风险、开放问题和下一步；
成熟度足够时补齐 CONTEXT.md，承载反馈学习、评估样本、学习资产、结果标签和治理语言；
产品定义、协同边界记录和 PRD 必须区分反馈事件、结果记录、失败案例、评估样本、学习资产和改进信号；
issue 和实现任务应显式标注其处于感知反馈、认知反馈、执行反馈、学习资产沉淀或模型能力输入中的哪一层。

15. 当前仍需项目级回答的问题

以下问题不在本文档中直接决策，应进入 current-state.md、后续 CONTEXT.md、产品定义、协同边界记录或 MVP / PRD：

第一阶段最先接收哪类反馈：感知质量反馈、认知质量反馈、策略 / 信号表现反馈、执行支持反馈，还是用户行为反馈？
AI Trading Matrix -> Reinforcement Learning Engine 的首个反馈对象应是什么？
FinClaw -> Reinforcement Learning Engine 的认知反馈如何保留“认知 vs 执行”边界？
哪些反馈只用于本地产品改进，哪些反馈可升格为生态共享学习资产？
反馈对象、结果标签、评估样本和学习资产的最小治理字段是什么？
何时可以认为真实反馈足以触发正式启动，而不是继续保持预启动状态？
哪些学习资产可以进入 Financial Expert Foundation Model，哪些只能停留在工作流级改进？

16. 回流条件

以下情况应向生态层触发 sync / escalation：

当前反馈与学习边界定义不成立；
Reinforcement Learning Engine 开始承担前台产品、执行系统或模型底座职责；
某些反馈对象、结果标签、评估样本或学习资产应上升为共享生态定义；
学习层与 Financial Expert Foundation Model 的边界无法用当前基线解释；
项目触及真实执行反馈、资金 / 账户 / 链上动作反馈、用户责任边界或合规风险；
自动优化机制可能强化误导性、高风险、不可解释或未经治理的金融行为；
前台系统产生的真实反馈足以触发正式启动，需要改变当前阶段状态。

1. 本文档定位​

2. 继承来源与优先级​

3. 继承的生态定义​

4. 继承的生态结构​

5. 继承的一句话定义​

6. 继承的生态理解增量​

7. 继承的当前拥有职责​

8. 继承的当前不拥有职责​

9. 继承的第一阶段判断​

10. 继承的启动触发条件​

11. 继承的金融风险与反馈治理边界​

12. 继承的关键输出对象​

13. 继承的关键接口​

13.1 AI Trading Matrix -> Reinforcement Learning Engine​

13.2 FinClaw -> Reinforcement Learning Engine​

13.3 Data Horizon / 数据视界 -> Reinforcement Learning Engine​

13.4 Reinforcement Learning Engine -> Financial Expert Foundation Model​

14. 对后续项目文档的约束​

15. 当前仍需项目级回答的问题​

16. 回流条件​

17. 相关文档​