跳到主要内容

Reinforcement Learning Engine 项目锚点

状态: 基线收束草案 最后更新: 2026-05-07 项目类型: 基础设施 / 能力底座 生态角色: 反馈与学习层

1. 本文档定位

本文档是 Reinforcement Learning Engine 在 FinTec AI Ecosystem 中的项目锚点。

它用于回答:

  • Reinforcement Learning Engine3 + 2 结构中承担什么角色;
  • 它为什么应作为独立基础设施 / 能力底座存在;
  • 它与 Data Horizon / 数据视界FinClawAI Trading MatrixFinancial Expert Foundation Model 的协同边界是什么;
  • 第一阶段为什么不应空转式全面启动;
  • 后续 inherited-context.mdcurrent-state.md、产品定义、协同边界记录和反馈对象治理应继承什么口径。

本文档不是工程实现方案,不记录当前代码事实,不替代项目当前状态文档。

2. 项目定义

Reinforcement Learning Engine 是 FinTec AI Ecosystem 的反馈与学习层基础设施。

它负责将生态内真实产生的结果、误差、案例、反馈、用户行为、认知质量证据、策略效果证据、执行支持效果证据转化为可治理、可复用、可评估的学习资产和改进信号。

它不是:

  • 面向用户的前台产品体验;
  • Data Horizon / 数据视界FinClawAI Trading Matrix 的产品战略替代者;
  • 任何未被明确分配事项的泛化平台桶;
  • 在缺少真实反馈数据时提前启动的空转式强化学习沙盒;
  • Financial Expert Foundation Model 本身;
  • 用“学习”名义强化高风险、误导性、不可解释或未经治理的金融行为的系统。

当前最简定义是:

Reinforcement Learning Engine 是生态中把真实使用、真实结果和真实反馈沉淀为评估样本、学习资产和改进信号的反馈与学习基础设施。

3. 生态角色

FinTec AI Ecosystem 当前能力链路可理解为:

金融信息感知
-> 金融认知与研究分析
-> 交易执行
-> 结果反馈与学习沉淀
-> 金融领域模型能力增强

在该链路中,Reinforcement Learning Engine 位于“结果反馈与学习沉淀”层。

它的角色不是替前三个前台产品完成感知、认知或交易执行,而是在这些对象形成真实闭环后,接收它们产生的结果和反馈,评估哪些经验值得沉淀,哪些错误需要反向修正,哪些样本可以成为后续模型能力、产品流程或策略治理的改进输入。

4. 为什么独立存在

Reinforcement Learning Engine 需要独立存在,原因是反馈与学习不是某个前台产品内部的事后记录功能。

当前独立性理由包括:

  • 生态需要跨产品共享的结果、反馈、误差和案例治理视角;
  • 认知、策略和执行支持效果需要被长期追踪,而不是停留在一次性输出;
  • 有价值的失败案例、用户修正、回测结果、仿真结果和真实执行反馈需要转化为可复用资产;
  • Financial Expert Foundation Model 的能力增强需要来自真实任务和真实反馈的上游输入;
  • 如果没有独立归属,反馈学习容易被压缩为局部日志、复盘备忘或不可复用的产品碎片。

这种独立性不意味着它第一阶段应立即全面启动。相反,它作为基础设施,应在前台系统具备足够真实反馈后再进入正式设计和实施。

5. 当前拥有职责

Reinforcement Learning Engine 当前拥有以下职责边界:

  • 结果、误差、案例、反馈和用户行为的学习闭环设计;
  • 对金融认知、策略假设、信号候选、执行支持和授权执行效果进行评估回流;
  • 沉淀可复用学习资产、评估样本、结果标签、失败样本和改进信号;
  • 定义跨项目反馈对象的最小结构、治理字段和证据要求;
  • 将前台产品产生的真实反馈转化为后续流程、产品、模型和能力改进输入;
  • Financial Expert Foundation Model 提供经治理的任务反馈、评估样本和学习资产;
  • 维护“哪些反馈可以学习、哪些反馈不能学习、哪些反馈需要人工审核”的边界。

6. 当前不拥有职责

Reinforcement Learning Engine 当前不拥有以下职责:

  • 设计或替代前台产品的用户体验;
  • 替代 Data Horizon / 数据视界 的金融信息感知职责;
  • 替代 FinClaw 的金融认知与研究分析职责;
  • 替代 AI Trading Matrix 的交易执行、授权执行和风控职责;
  • 替代 Financial Expert Foundation Model 的模型能力建设职责;
  • 在缺少真实任务、真实反馈和真实评估对象时空转式启动完整引擎;
  • 用强化学习、自动优化或反馈学习绕过金融风险、授权、审计和合规边界;
  • 将未经验证、带有偏差或不可追溯来源的反馈直接用于能力强化。

7. 第一阶段目标

Reinforcement Learning Engine 第一阶段目标不是全面建设一个完整强化学习平台。

第一阶段更准确的目标是:

定义正式启动前的触发条件、可接收反馈类型、依赖前台产品的最小数据条件,以及反馈对象治理方式。

因此,第一阶段应优先完成:

  • 启动触发条件定义;
  • 可接收反馈类型清单;
  • Data Horizon / 数据视界FinClawAI Trading Matrix 的反馈接口候选;
  • 反馈对象、结果对象、失败案例、评估样本和学习资产的最小字段;
  • 哪些反馈进入本地产品改进,哪些反馈可沉淀为生态共享资产的边界;
  • Financial Expert Foundation Model 的沉淀关系;
  • 风险反馈、错误反馈和高风险金融行为反馈的治理边界。

第一阶段的核心判断是:

  • 三个前台系统先证明各自最小闭环;
  • 基础设施层保持能力规划、触发条件和依赖关系清晰;
  • 不在缺少真实任务和反馈时空转式启动。

8. 关键输出对象

Reinforcement Learning Engine 的长期输出对象可以包括:

  • Feedback Event: 来自用户、系统、研究流程、感知流程、策略流程或执行支持流程的反馈事件;
  • Outcome / Result Record: 某次认知、策略、信号、回测、仿真、执行支持或授权执行的结果记录;
  • Error / Failure Case: 失败、误判、遗漏、延迟、噪声、过拟合、不可解释或风险越界案例;
  • Evaluation Sample: 可用于后续评估、回归测试或模型能力验证的样本;
  • Learning Asset: 经治理、可复用、可追溯的学习材料或任务资产;
  • Improvement Signal: 指向产品流程、提示词、技能、agent、数据链路、策略约束或模型能力的改进信号;
  • Feedback Governance Metadata: 记录来源、证据、权限、风险等级、审核状态和可学习范围的治理元数据。

这些对象是候选对象,不代表当前已经存在工程实现。

9. 协作接口

9.1 AI Trading Matrix -> Reinforcement Learning Engine

这是当前优先级最高的候选接口之一。

AI Trading Matrix 可向 Reinforcement Learning Engine 回流:

  • 策略候选结果;
  • 信号候选表现;
  • 回测与仿真结果;
  • 执行支持计划的实际有效性;
  • 授权执行后的结果、偏差、错误和风险事件;
  • 用户授权、拒绝、撤销、修正或复盘反馈;
  • 风控命中、失效条件触发和异常处理记录。

该接口必须保留授权、审计、风控和可追溯边界。真实执行反馈只有在治理边界明确时才可进入学习闭环。

9.2 FinClaw -> Reinforcement Learning Engine

FinClaw 可向 Reinforcement Learning Engine 回流:

  • 金融认知产物的质量反馈;
  • 用户对研究结论、风险表达、反证点和继续跟踪问题的修正;
  • 条件化策略假设的后验结果;
  • 研究 follow-up 是否有用的反馈;
  • 失败推理、遗漏事件、错误归因和认知偏差案例;
  • 对技能、agent、模板、记忆和个性化行为的改进信号。

该接口必须继承 FinClaw 的“认知 vs 执行”边界。FinClaw 可以产生评级、target price、portfolio optimization、backtesting、strategy suggestions、价格信号、主动提醒等认知或决策支持候选,但不能直接触发交易、下单、调仓、资金划转、链上交易或调用执行系统。

9.3 Data Horizon / 数据视界 -> Reinforcement Learning Engine

Data Horizon / 数据视界 可向 Reinforcement Learning Engine 回流:

  • 来源质量反馈;
  • 信息时效性反馈;
  • 噪声、误报、漏报和迟到信号案例;
  • 数据清洗、标准化和组织过程中的错误案例;
  • 下游 FinClawAI Trading Matrix 对其输出的消费反馈;
  • 信息感知链路的改进信号。

该接口不应把 Data Horizon / 数据视界 推成认知或执行系统。其反馈学习主要服务于信息感知链路质量、可追溯性、覆盖度和输出可消费性。

9.4 Reinforcement Learning Engine -> Financial Expert Foundation Model

Reinforcement Learning Engine 可向 Financial Expert Foundation Model 提供:

  • 经治理的金融任务反馈;
  • 评估样本;
  • 失败案例;
  • 结果标签;
  • 领域任务样本;
  • 模型能力改进信号。

该接口不代表当前已经进入模型训练或模型微调阶段。只有当 Financial Expert Foundation Model 的项目定义、触发条件、样本治理和模型能力路线明确后,学习资产才可进一步进入模型能力建设链路。

10. 启动触发与 readiness 边界

Reinforcement Learning Engine 当前不应空转式全面启动。

正式启动至少需要满足以下 readiness 条件:

  1. 至少一个前台系统形成可描述、可验证的最小闭环;
  2. 上游已有稳定或半稳定输出对象;
  3. 这些输出对象已经产生真实使用、真实评估、真实错误或真实反馈;
  4. 反馈来源、证据、权限和风险等级可以被记录;
  5. 已明确哪些反馈可学习,哪些反馈仅可归档,哪些反馈必须人工审核;
  6. 已明确学习结果回流到哪个对象,以及回流后由谁负责验证;
  7. 对金融风险、授权、审计和合规边界不会因“自动优化”而被绕过。

在未满足上述条件前,本项目应保持为“预启动 / 能力规划 / 触发条件定义”状态。

11. 文档下沉关系

本文档应向下游文档提供以下口径:

  • inherited-context.md: 记录从生态基线、项目注册表和第一阶段闭环判断中继承的 RLE 角色、边界、接口和触发条件;
  • current-state.md: 只记录当前已核验事实、待核验事实、缺口、风险和下一步;
  • 后续产品定义 / 协同边界记录: 进一步展开反馈对象、学习资产、评估样本和治理字段;
  • 后续决策记录: 记录“何时正式启动”“先接入哪个前台系统”“哪些反馈可学习”等不可轻易逆转的判断。

若后续项目实践证明本文档口径不够,应回流修订生态基线或项目注册表,而不是在实现层静默改变职责边界。

12. 当前材料状态

截至 2026-05-07,当前仓库已经存在以下上位材料:

  • baseline/03-current-baseline.md 已将 Reinforcement Learning Engine 定位为反馈与学习层;
  • registry/project-registry.md 已登记其为基础设施 / 能力底座,第一阶段状态为尚未正式启动,需等待真实反馈触发;
  • governance/first-phase-product-closure.md 已明确两个基础设施层不应在缺少真实任务和反馈时空转式提前启动;
  • 本项目目录已有旧版项目锚点、继承上下文和当前状态文档,但需继续按当前基线口径校准。

当前仍缺少:

  • 已登记的本地代码仓库目录;
  • 已核验的运行状态;
  • 已定义的反馈对象 schema;
  • 已定义的可接收反馈类型;
  • 已定义的启动触发条件清单;
  • 已定义的反馈治理规则;
  • 已核验的学习资产、评估样本或结果标签。

13. 当前下一步

建议按以下顺序继续校准:

  1. 重写 projects/reinforcement-learning-engine/inherited-context.md,让其只记录上游继承口径;
  2. 重写 projects/reinforcement-learning-engine/current-state.md,区分已核验事实、待核验事实和缺口;
  3. 定义第一版可接收反馈类型清单;
  4. 定义 Feedback EventOutcome / Result RecordError / Failure CaseEvaluation SampleLearning AssetImprovement Signal 的最小字段;
  5. 判断是否需要新增 CONTEXT.md 或协同边界记录;
  6. 等待前台系统产生可核验反馈后,再讨论正式启动设计。

14. 需要升级讨论的情况

出现以下情况时,应回到生态级文档或治理文档讨论:

  • Reinforcement Learning Engine 被写成前台产品;
  • 它被用于吸收 Data Horizon / 数据视界FinClawAI Trading Matrix 的产品战略职责;
  • 它在缺少真实反馈对象时被推进为完整工程项目;
  • 它绕过授权、审计、风控或合规边界直接影响执行链路;
  • 它将未经核验、不可追溯或高风险反馈直接用于能力强化;
  • 它与 Financial Expert Foundation Model 的关系被写成已经进入模型训练,而缺少样本治理和模型路线证据。

15. 相关文档