Reinforcement Learning Engine 继承上下文
状态:基线收束草案 最后更新:2026-05-07 项目:Reinforcement Learning Engine 来源:FinTec AI Ecosystem 生态级基线、项目注册表与项目锚点
1. 本文档定位
本文档用于把生态层当前有效的基线、边界、接口、金融风险和反馈治理口径继承到 Reinforcement Learning Engine 项目中。
它服务于项目负责人、参与人及其个人域 Agent,使后续产品定义、协同边界记录、PRD、issue、context、反馈对象治理和实现讨论默认站在同一组上游输入之上。
本文档不是:
- 项目完整方案;
- 实现计划;
- 当前工程现状报告;
- 强化学习算法方案;
- 反馈对象最终 schema;
- 与
Financial Expert Foundation Model的最终工程化对接设计。
项目现状、已有材料、缺口、风险和下一步应记录在 current-state.md。
2. 继承来源与优先级
Reinforcement Learning Engine 当前应优先继承以下文档:
-
../../baseline/03-current-baseline.md 当前可被项目级文档继承的生态级判断集合。
-
../../registry/project-registry.md 当前生态对象注册表,登记各对象角色、边界、接口和项目入口。
-
project-anchor.md
Reinforcement Learning Engine当前项目入口锚点。 -
../../governance/first-phase-product-closure.md 第一阶段独立闭环判断,以及两个基础设施层不应空转式提前启动的触发条件口径。
-
../../governance/material-intake-policy.md 材料接入、事实源升级和边界变更治理规则。
-
../../governance/project-context-template.md 项目级文档包的最低协作协议。
若本文档与 baseline/03-current-baseline.md 冲突,以生态级当前有效基线为准。若项目实践证明当前基线不够用,应通过 sync / escalation 回到生态层修订。
准备期 decision log 和 change index 已完成有效内容抽取并移出正式仓库,不作为当前权威入口逐条继承。
3. 继承的生态定义
Reinforcement Learning Engine 所属的 FinTec AI Ecosystem 当前定义为:
围绕金融信息感知、金融认知、交易执行、反馈学习、金融领域模型能力持续增强而组织起来的 AI Native 金融智能生态。
因此,Reinforcement Learning Engine 不应被理解为孤立的强化学习模块,也不应被压缩为某个前台产品的内部日志或优化工具。
它继承的生态根问题是:
在金融信息形态快速扩张、超额收益来源持续迁移的背景下,市场参与者难以将海量异构信息稳定转化为可验证金融认知、可治理交易执行支持和可复利的领域能力,导致潜在收益与组织能力在感知、认知、执行和反馈环节持续损耗。
Reinforcement Learning Engine 只承担其中的反馈学习和能力沉淀环节,不单独解决完整根问题。
4. 继承的生态结构
当前生态采用 3 + 2 结构。
三个前台独立系统 / 产品:
Data Horizon / 数据视界FinClawAI Trading Matrix
两个基础设施 / 能力底座:
Reinforcement Learning EngineFinancial Expert Foundation Model
Reinforcement Learning Engine 属于两个基础设施 / 能力底座之一,当前生态角色是反馈与学习层。
它位于能力链路的第四环:
金融信息感知
-> 金融认知与研究分析
-> 交易执行
-> 结果反馈与学习沉淀
-> 金融领域模型能力增强
该链路用于解释生态协同关系,不用于要求第一阶段强行集成全部对象。
5. 继承的一句话定义
Reinforcement Learning Engine 是 FinTec AI Ecosystem 中的反馈与学习层基础设施。
它负责把真实使用、真实结果、真实错误和真实反馈沉淀为可治理、可复用、可评估的评估样本、学习资产和改进信号。
6. 继承的生态理解增量
过本文档时应形成的关键生态理解是:
FinTec AI Ecosystem 不只是一条“感知 -> 认知 -> 执行支持”的前向链路;它还需要通过
Reinforcement Learning Engine把真实结果、失败案例、用户反馈和效果评估变成可回流的能力资产,生态才可能从一次性输出集合变成越用越强的系统。
这意味着:
Data Horizon / 数据视界的感知质量可以通过下游消费反馈、漏报、误报、延迟和来源质量评价被反向改进;FinClaw的认知质量可以通过用户修正、后验结果、失败推理、遗漏事件和 follow-up 有用性被反向改进;AI Trading Matrix的交易执行支持质量可以通过回测、仿真、授权执行结果、风控拦截和用户授权 / 拒绝 / 撤销行为被反向改进;Financial Expert Foundation Model的长期领域能力可以在真实任务反馈、评估样本和学习资产足够成熟后获得更可靠的上游输入。
因此,Reinforcement Learning Engine 是全局生态理解中的“能力复利环节”,不是文档治理里的一个补充目录。
7. 继承的当前拥有职责
Reinforcement Learning Engine 当前拥有:
- 结果、误差、案例、反馈和用户行为的学习闭环;
- 对金融认知、策略假设、信号候选、执行支持和授权执行效果的评估回流;
- 可复用学习资产、评估样本、结果标签、失败样本和改进信号沉淀;
- 跨项目反馈对象的最小结构、治理字段和证据要求;
- 将前台产品产生的真实反馈转化为后续流程、产品、模型和能力改进输入;
- 为
Financial Expert Foundation Model提供经治理的任务反馈、评估样本和学习资产; - 维护“哪些反馈可以学习、哪些反馈不能学习、哪些反馈需要人工审核”的边界。
这些职责说明它的价值不只是“做优化”,而是让生态能够把真实金融任务中的效果、错误和修正转化为长期可复用资产。
8. 继承的当前不拥有职责
Reinforcement Learning Engine 当前不拥有:
- 前台产品体验职责;
- 替代
Data Horizon / 数据视界的金融信息感知职责; - 替代
FinClaw的金融认知与研究分析职责; - 替代
AI Trading Matrix的交易执行、授权执行和风控职责; - 替代
Financial Expert Foundation Model的模型能力建设职责; - 替代具体项目产品战略的职责;
- 在缺少真实任务、真实反馈和真实评估对象时空转式启动完整引擎的职责;
- 用强化学习、自动优化或反馈学习绕过金融风险、授权、审计和合规边界的职责;
- 将未经验证、带有偏差或不可追溯来源的反馈直接用于能力强化的职责。
这意味着 Reinforcement Learning Engine 可以定义反馈学习对象和能力沉淀方式,但不能因为“学习”二字吸收前台产品、执行系统或模型底座的本职工作。
9. 继承的第一阶段判断
第一阶段重点不是一次性打通完整生态主链路。
三个前台独立系统 / 产品应先分别证明自身最小闭环成立:
Data Horizon / 数据视界:形成独立金融信息感知链路;FinClaw:形成独立金融认知产品闭环;AI Trading Matrix:形成独立交易执行闭环。
Reinforcement Learning Engine 第一阶段应保持:
- 能力规划清晰;
- 触发条件清晰;
- 对前台产品数据、反馈和场景的依赖关系清晰;
- 不在缺少真实任务和反馈时空转式全面启动。
第一阶段更准确的目标是:
定义正式启动前的触发条件、可接收反馈类型、依赖前台产品的最小数据条件,以及反馈对象治理方式。
10. 继承的启动触发条件
Reinforcement Learning Engine 当前不应空转式全面启动。
正式启动至少需要继承以下 readiness 条件:
- 至少一个前台系统形成可描述、可验证的最小闭环;
- 上游已有稳定或半稳定输出对象;
- 这些输出对象已经产生真实使用、真实评估、真实错误或真实反馈;
- 反馈来源、证据、权限和风险等级可以被记录;
- 已明确哪些反馈可学习,哪些反馈仅可归档,哪些反馈必须人工审核;
- 已明确学习结果回流到哪个对象,以及回流后由谁负责验证;
- 对金融风险、授权、审计和合规边界不会因“自动优化”而被绕过。
在未满足上述条件前,本项目应保持为“预启动 / 能力规划 / 触发条件定义”状态。
11. 继承的金融风险与反馈治理边界
所有产品 / 系统都必须默认把输出定位为:
- 信息;
- 认知;
- 研究辅助;
- 决策支持;
- 受约束的交易执行支持。
Reinforcement Learning Engine 尤其需要继承以下边界:
- 不得用反馈学习强化高风险或误导性行为;
- 不得把未经验证的结果反馈当成可直接学习的真值;
- 不得因短期收益或用户偏好强化错误、偏见、过拟合或不可解释行为;
- 不得绕过授权、审计、风控、合规或人工审核边界;
- 不得让“自动优化”成为真实交易执行、资金操作、链上动作或模型训练的隐性捷径;
- 高风险反馈、真实执行反馈、争议性用户反馈和不可追溯来源反馈必须显式标记治理状态。
任何可能让反馈学习影响真实执行、强化误导性金融行为、改变多个项目能力边界或进入模型能力建设链路的设计,都必须触发 sync / escalation。
12. 继承的关键输出对象
Reinforcement Learning Engine 当前应继承以下候选输出对象:
Feedback Event: 来自用户、系统、研究流程、感知流程、策略流程或执行支持流程的反馈事件;Outcome / Result Record: 某次认知、策略、信号、回测、仿真、执行支持或授权执行的结果记录;Error / Failure Case: 失败、误判、遗漏、延迟、噪声、过拟合、不可解释或风险越界案例;Evaluation Sample: 可用于后续评估、回归测试或模型能力验证的样本;Learning Asset: 经治理、可复用、可追溯的学习材料或任务资产;Improvement Signal: 指向产品流程、提示词、技能、agent、数据链路、策略约束或模型能力的改进信号;Feedback Governance Metadata: 记录来源、证据、权限、风险等级、审核状态和可学习范围的治理元数据。
这些对象是继承口径和候选对象,不代表当前已经存在工程实现或最终 schema。
13. 继承的关键接口
13.1 AI Trading Matrix -> Reinforcement Learning Engine
这是当前最高优先级接口之一。
当真实使用数据、仿真数据、执行数据和用户反馈出现后,AI Trading Matrix 可提供:
- 回测和仿真结果;
- 策略候选表现;
- 信号候选表现;
- 执行支持计划的实际有效性;
- 授权执行后的结果、偏差、错误和风险事件;
- 用户授权、拒绝、修改、撤销和复盘反馈;
- 风控命中、失效条件触发和异常处理记录。
第一阶段不应因未来学习闭环而提前建设完整学习基础设施。真实执行反馈只有在授权、审计、风控和可追溯边界明确时才可进入学习闭环。
13.2 FinClaw -> Reinforcement Learning Engine
当真实认知产品使用数据和研究反馈出现后,FinClaw 可提供:
- 金融认知产物的质量反馈;
- 用户对研究结论、风险表达、反证点和继续跟踪问题的修正;
- 条件化策略假设的后验结果;
- research follow-up 是否有用的反馈;
- 失败推理、遗漏事件、错误归因和认知偏差案例;
- 对技能、agent、模板、记忆和个性化行为的改进信号。
该接口必须继承 FinClaw 的“认知 vs 执行”边界。FinClaw 可以产生评级、target price、portfolio optimization、backtesting、strategy suggestions、价格信号、主动提醒等认知或决策支持候选,但不能直接触发交易、下单、调仓、资金划转、链上交易或调用执行系统。
13.3 Data Horizon / 数据视界 -> Reinforcement Learning Engine
当真实使用数据、反馈数据和下游消费结果出现后,Data Horizon / 数据视界 可提供:
- 来源质量反馈;
- 信息时效性反馈;
- 噪声、误报、漏报和迟到信号案例;
- 数据清洗、标准化和组织过程中的错误案例;
- 下游
FinClaw或AI Trading Matrix对其输出的消费反馈; - 信息感知链路的改进信号。
第一阶段不应因未来学习闭环而提前建设复杂反馈基础设施。该接口主要服务于感知链路质量、可追溯性、覆盖度和输出可消费性。
13.4 Reinforcement Learning Engine -> Financial Expert Foundation Model
这是学习层通往长期模型能力层的关键接口。
Reinforcement Learning Engine 可向 Financial Expert Foundation Model 提供:
- 经治理的金融任务反馈;
- 评估样本;
- 失败案例;
- 结果标签;
- 领域任务样本;
- 模型能力改进信号。
该接口不代表当前已经进入模型训练或模型微调阶段。只有当 Financial Expert Foundation Model 的项目定义、触发条件、样本治理和模型能力路线明确后,学习资产才可进一步进入模型能力建设链路。
14. 对后续项目文档的约束
后续 Reinforcement Learning Engine 项目文档应遵守:
project-anchor.md固定项目定义、生态角色、职责边界、第一阶段目标和启动触发边界;inherited-context.md只承接上游基线,不记录可变工程现状;current-state.md记录当前事实、已有材料、缺口、风险、开放问题和下一步;- 成熟度足够时补齐
CONTEXT.md,承载反馈学习、评估样本、学习资产、结果标签和治理语言; - 产品定义、协同边界记录和 PRD 必须区分反馈事件、结果记录、失败案例、评估样本、学习资产和改进信号;
- issue 和实现任务应显式标注其处于感知反馈、认知反馈、执行反馈、学习资产沉淀或模型能力输入中的哪一层。
15. 当前仍需项目级回答的问题
以下问题不在本文档中直接决策,应进入 current-state.md、后续 CONTEXT.md、产品定义、协同边界记录或 MVP / PRD:
- 第一阶段最先接收哪类反馈:感知质量反馈、认知质量反馈、策略 / 信号表现反馈、执行支持反馈,还是用户行为反馈?
AI Trading Matrix -> Reinforcement Learning Engine的首个反馈对象应是什么?FinClaw -> Reinforcement Learning Engine的认知反馈如何保留“认知 vs 执行”边界?- 哪些反馈只用于本地产品改进,哪些反馈可升格为生态共享学习资产?
- 反馈对象、结果标签、评估样本和学习资产的最小治理字段是什么?
- 何时可以认为真实反馈足以触发正式启动,而不是继续保持预启动状态?
- 哪些学习资产可以进入
Financial Expert Foundation Model,哪些只能停留在工作流级改进?
16. 回流条件
以下情况应向生态层触发 sync / escalation:
- 当前反馈与学习边界定义不成立;
Reinforcement Learning Engine开始承担前台产品、执行系统或模型底座职责;- 某些反馈对象、结果标签、评估样本或学习资产应上升为共享生态定义;
- 学习层与
Financial Expert Foundation Model的边界无法用当前基线解释; - 项目触及真实执行反馈、资金 / 账户 / 链上动作反馈、用户责任边界或合规风险;
- 自动优化机制可能强化误导性、高风险、不可解释或未经治理的金融行为;
- 前台系统产生的真实反馈足以触发正式启动,需要改变当前阶段状态。