跳到主要内容

金融认知体系研究 — 初步调研简报

这份文件是什么

FinBayes 战略白皮书 v3 重写工作流期间,为 ADR-007(金融认知体系作为核心差异化定位)的"6 个核心机制是否足够、如何持续迭代完善"问题做了 6 份初步调研。

用户拍板"D 现在 + B 后续启动"——本版本白皮书不锁定具体的体系机制清单,专题研究作为后续独立工作流(governance/workstreams/finbayes-cognition-system-research/)承接

这份文件暂存这 6 份调研报告 + 综合判断,作为未来该工作流启动时的输入清单。不丢失这些研究成果——这是用户明确要求。

综合判断

FinBayes "把估值 + 宏观 + 叙事 + 事件传导统一组织为可迭代矫正的显式认知体系"是业内原创组合。业内可借鉴的零件齐全(学界 + 工业界),但整机无人造过。

可借鉴的零件清单(汇总)

类别可借鉴项来源
架构层多 Agent + 短/中/长期分层记忆 + 反思模块FinMem (arXiv 2311.13743)、TradingAgents、TradingGPT
架构层学界四层金融 Agent 架构(数据感知 / 推理引擎 / 策略生成 / 执行控制)arXiv 2603.13942
架构层多 Agent 综合金融场景(不是单一交易类)FinTeam (arXiv 2507.10448)
工程层MessageBus 解耦 + Provider Registry + LiteLLM 抽象 + Cron + Heartbeat 主动触发martinpmm-Finclaw
方法论层经济机器模型(生产力 + 短债周期 + 长债周期三力叠加)Dalio / Bridgewater
方法论层叙事 + 数字估值耦合(AI 化已部分验证)Damodaran / DBOT (arXiv 2504.05639)
评测层5 层级金融场景(审计→基本面→行业→风险→资产配置)+ 7 评测维度UniFinEval (上海财经大学 AIFin Lab)
评测层6 支柱(学术底座 / 业务场景 / 安全合规 / 智能体 / 多模态 / 严谨性)FinEval (SUFE-AIFLM-Lab, arXiv 2308.09975)
评测层Cognitive Complexity Benchmark + Financial-PoT(评估认知体系完备性的学术方法)arXiv 2601.21157
迭代机制层"假设 → 测试 → 修正"研究循环 + MCP/A2A 协议AgenticTrading (Open-Finance-Lab)
覆盖度对照a-share 子集 170+ skill taxonomy(中国市场认知维度对照表)aifinlab-FinClaw

业内空白带

  • BloombergGPT 50B 参数纯 LLM 路线,未公开任何显式金融本体或知识图谱——证明仅靠数据规模不构成"认知体系"
  • 主流方向集中在三类:金融 LLM 微调(FinGPT、Fin-R1)/ 多 Agent 交易系统(TradingAgents)/ 传统估值方法论 AI 化(DBOT)
  • 把估值 / 宏观 / 叙事 / 事件传导统一组织为可迭代矫正的显式认知体系——业内是空白带,FinBayes 是原创定位

B 工作流启动时的输入指引

  1. 首先消化本文件 6 份调研报告 + 综合判断
  2. 学术框架对照:基于 UniFinEval 7 维度 + FinEval 6 支柱 + Dalio 经济机器 + Damodaran 估值,反向校准 FinBayes 认知体系应包含的机制清单
  3. 架构层借鉴:学界四层金融 Agent 架构 + FinMem 分层记忆 + martinpmm-Finclaw 工程模式
  4. 评测方法论:Cognitive Complexity Benchmark + zero/five-shot ± CoT 四象限评测法(FinEval)
  5. 覆盖度自检:用 aifinlab-FinClaw a-share 170+ skill taxonomy 作为中国市场对照表
  6. 迭代机制:AgenticTrading 的"假设 → 测试 → 修正"研究循环 + RLE 反馈样本闭环
  7. 产出物:体系机制清单(替代 ADR-007 当前的 working 骨架 6 机制)+ 迭代方法论 + 治理机制 + 评测体系

调研报告全文(按 sub-agent 调度顺序)

报告 1:业内金融认知体系调研(researcher sub-agent)

调研范围:开源项目 / 学术框架 / 行业产品 / 传统金融认知框架的可迁移性。

总览:业内没有与 FinBayes "自建金融认知体系"目标完全对应的成熟开源项目或产品。主流方向集中在三类:金融 LLM(微调 / RL)、多 Agent 交易系统、传统估值/宏观分析方法论。**显式构建"可迭代矫正的认知框架"**这一定位仍是空白带——但有大量可借鉴的局部方法论。

一、开源项目(最相关 4 个)

  • TradingAgents / TradingGPT / FinMem — 多 Agent + 分层记忆(短/中/长期)+ 角色化人格。FinMem 明确"对齐人类交易员认知结构"。但定位是交易决策,不是覆盖估值、宏观、叙事的通用认知层。可借鉴:分层记忆架构、反思模块。
  • AgenticTrading (Open-Finance-Lab) — 首个把 MCP/A2A 协议引入量化的多 Agent 框架,强调"提出—测试—修正假设"的研究循环和动态因子生成。最接近"可迭代认知"的工程实现,但仍偏量化策略侧。
  • Fin-R1 — 7B 金融推理 LLM,60k CoT 数据 + SFT + RL。是"推理能力"路线,不是"认知体系"路线——它训练模型会推理,不提供显式的分析框架。
  • AlphaFin (Stock-Chain) — RAG + 实时数据 + 手写 CoT。本质是检索增强 + 微调数据集,没有显式认知架构

FinGPT、BloombergGPT 属于通用金融 LLM,不构建认知体系。

二、学术框架(2 个)

  • 四层金融 Agent 架构(arXiv 2603.13942)——数据感知 / 推理引擎 / 策略生成 / 执行控制。是目前学界对"金融 AI 认知栈"最系统化的抽象,可作 FinBayes 架构对照。
  • Cognitive Complexity Benchmark + Financial-PoT(arXiv 2601.21157)——把金融推理拆解为认知复杂度层级。对"如何评估认知体系完备性"有方法论参考。
  • FinTeam(2507.10448)——多 Agent 协同覆盖综合金融场景,比交易类 Agent 更接近"通用认知层"。

三、行业产品

  • BloombergGPT — 50B 参数纯 LLM 路线,未公开任何显式金融本体或知识图谱。证明仅靠数据规模不构成"认知体系"。
  • Bloomberg Terminal AI / FactSet / S&P Market Intelligence — 强在结构化数据+检索,认知层仍以分析师人工产出为主,AI 推理是辅助查询,非自主分析框架
  • DBOT(arXiv 2504.05639)——明确尝试把 Damodaran 的"叙事+数字"估值方法系统化为算法,是公开文献中最接近"传统认知框架 AI 化"的尝试。

四、传统金融认知框架的可迁移性

  • Dalio 经济机器模型(生产力 + 短债周期 + 长债周期三力叠加)——结构清晰、机制可形式化,是宏观认知层最易工程化的候选。Bridgewater 内部已大规模算法化但不公开。
  • Damodaran 估值体系——DBOT 已证明可部分 AI 化;叙事-数字耦合是可借鉴的核心范式。
  • Howard Marks(周期/二阶思维)、Munger(多元思维模型)提供认知态度,难以直接结构化。

综合判断

  1. 不必从零原创:分层记忆(FinMem)、多 Agent 协同(TradingAgents/FinTeam)、四层架构、认知复杂度评测、Damodaran-AI 化(DBOT)、Dalio 机器模型,都是可直接吸收的成熟构件。
  2. 真正空白:把估值/宏观/叙事/事件传导统一组织为可迭代矫正的显式认知体系——业内没有对标产品。FinBayes 在这个组合上是原创定位
  3. 建议策略:架构层借鉴四层 Agent + 分层记忆;方法论层吸收 Dalio 机器模型与 Damodaran 叙事估值的 AI 化路径;差异化坚守"显式、可矫正、面向新事件的前置框架"。业内可借鉴的零件齐全,但整机无人造过

关键 References

  • TradingGPT (arXiv 2309.03736)
  • FinMem (arXiv 2311.13743)
  • TradingAgents (arXiv 2412.20138)
  • AgenticTrading (GitHub: Open-Finance-Lab/AgenticTrading)
  • Fin-R1 (arXiv 2503.16252)
  • AlphaFin (arXiv 2403.12582)
  • AI Agents in Financial Markets — 四层金融 Agent 架构 (arXiv 2603.13942)
  • Cognitive Complexity Benchmark / Financial-PoT (arXiv 2601.21157)
  • FinTeam (arXiv 2507.10448)
  • BloombergGPT (arXiv 2303.17564)
  • DBOT — Damodaran AI valuation (arXiv 2504.05639)
  • Ray Dalio: Economic Machine (economicprinciples.org)

报告 2:架构文档"结构化认知输出"调研(Explore sub-agent)

调研范围:FinBayes 架构文档对"结构化认知输出"的设计 + 对应 ADR。

架构文档定义(核心)

StructuredCognitionResult 是 FinBayes 核心输出对象(架构 §4)。Task 产出的认知结果按任务类型动态组合 10 个认知要素:

  • 结论 / 倾向(条件化)、依据、多视角、反方证据
  • 成立条件、失效条件、不确定性 / 信息缺口
  • 来源与时间戳、可继续追问项、历史判断链接

关键原则:不固化字段表,按任务类型组合。7 类任务各有专属要素组合(架构 §6 业务场景详述)。例如复盘类必含"原成立条件 → 当前变化 → 是否仍成立";交易准备类必含"成立条件、失效条件、反方证据、执行权说明"。

战略不变量落地:画像不裁剪事实空间——反方证据、关键风险、失效条件按事实空间生成,不因用户偏好被省略(架构 §13 特别强调)。

对应 ADR

未发现专门的 StructuredCognitionResult 独立 ADR。相关决策分散在:

  • ADR-004(任务识别策略):用户输入到 7 类任务的映射
  • ADR-008(LLM Provider 接口抽象):综合层如何调用 LLM 产出认知要素
  • ADR-010(输出端凭证过滤):认知结果的安全过滤位置

产品定义对齐

产品文档 §7 完全继承了架构定义,进一步规范了任务-要素映射表(表 7):

  • 解释类 4 要素、分析类 7 要素、比较类 5 要素
  • 复盘类 8 要素、风险识别类 6 要素、交易准备 / 决策辅助类 8 要素

对齐度:100%。产品定义作为用户可见输出契约,直接承接架构设计。

战略白皮书现状

战略白皮书 v2 §5 阐述"三层价值"(想清楚、看全面、看本质),但未使用"StructuredCognitionResult"术语。战略层用产品语言,工程层用技术术语。第一阶段战略验证重点(v2 §11)强调了这些要素的价值感知,但未展开技术细节。

建议:战略白皮书第五节用户产品段承接

当前状态:v2 §5 聚焦价值论述,未明确"输出形态"与"用户可见呈现"的映射。

建议补充:在 v3 §5 用户产品段增加"结构化认知输出"小节,包含:

  1. 10 个认知要素的完整列表
  2. 动态组合机制 + 引用 7 类任务作为说明
  3. 战略不变量"画像不裁剪事实空间"的落地声明
  4. 与喊单 / 通用 AI 输出形态的根本区别对照

已在 v3 第五节 revision 2 + ADR-008 中完成承接(详见 governance/workstreams/finbayes-whitepaper-rewrite/)。


报告 3:aifinlab-FinClaw 调研(general-purpose sub-agent)

项目位置本地 aifinlab-FinClaw 仓库

项目目的

上海财大 AIFinLab 张立文教授团队的开源项目,定位是面向中国金融行业的"自主 AI 智能体执行框架",基于 OpenClaw Agent OS。服务对象是金融机构从业者(银行授信、券商投研、基金 FOF、保险精算、信托方案),不是个人投资者。核心产出物是任务执行(生成报告、清单、话术、估值表),不是认知体系。

6 Agent 架构

按金融行业垂直拆分:银行、证券、保险、基金、期货、信托六大套件,每套件聚合 10 个高阶 Skills。这是业态切片(vertical-by-industry),不是认知层切片——它回答"哪个机构在用",不回答"投资者如何理解市场"。Agent 之间不构成连贯的认知框架,是平行的业务管线。

Skills 组织

实际 1033 个 skill。SKILLS_CATALOG.md 显示 8 大类(银行 154、券商 93、基金 161、信托 163、保险 66、通用业务 37、数据源 73、原子技能 70),另有独立的 a-share 投研子集(约 170+ 个,覆盖估值/财报/技术/资金/情绪/宏观/选股/量化/机器学习/微观结构)。a-share 子集 taxonomy 最接近"认知维度",其余多按机构业务场景命名,是任务粒度而非认知粒度。

认知框架成熟度

没有显式的金融认知框架文档。SOUL.md 是 Agent 人格设定(专业、数据驱动、买方研报风格),不是分析体系。README 强调"统一数据抽象层 + Skills 编排",方法论停留在工程层(数据路由、容错降级)。没有学术参考、没有第一性原理推导、没有可迭代矫正的反馈环。设计哲学是"覆盖广度优先"。

对 FinBayes 的参考价值

可借鉴:

  1. a-share 子集的 170+ skill taxonomy 是中国市场认知维度的现成清单,可作为 FinBayes 认知体系覆盖度自检的对照表
  2. 统一数据抽象层(cn-stock-data 路由 efinance/akshare/adata 等)的工程范式值得复用
  3. SOUL.md 的人格锚点(厌恶 AI slop、数据第一性、"取决于场景偷懒论")与 FinBayes 的反 slop 调性高度同频

局限 / 不适配

  1. 对象错位——服务机构持牌人,不服务个人投资者,整个银行/证券/信托/保险套件对 FinBayes 几乎无用
  2. 缺认知层——是 task-executor 集合,不是认知 framework,没有"如何让投资者建立对市场的判断"这一层抽象
  3. 缺迭代矫正机制——skill 是静态资产,没有"基于结果修正认知"的闭环
  4. skill 命名 / 描述质量参差(大量空描述、编号无语义),不可直接拿来当 ontology

关键路径本地 aifinlab-FinClaw 仓库/skills/SKILLS_CATALOG.md本地 aifinlab-FinClaw 仓库/skillsChoice/本地 aifinlab-FinClaw 仓库/SOUL.md本地 aifinlab-FinClaw 仓库/README.md


报告 4:martinpmm-Finclaw 调研(general-purpose sub-agent)

项目位置本地 martinpmm-Finclaw 仓库

项目目的

个人投资者的多渠道(CLI / Telegram / Discord / Slack / WhatsApp)金融助手:watchlist 持仓监控、主动新闻 / 价格告警、技术 + 基本面分析、晨间简报。开源 Python 项目,基于 nanobot 框架。

Agent runtime 架构

单 Agent + 工具调用循环(不是多 Agent 协同)。核心 AgentLoopfinclaw/agent/loop.py)跑标准 LLM tool-calling 循环:消费消息 → 构上下文 → 调 Provider → 执行 tool → 必要时回灌 → 出站。

两种运行模式:finclaw gateway(常驻服务,开 channels + cron + heartbeat)、finclaw agent(一次性 / 交互)。

状态由 session/manager.py 按 session 存历史,支持 consolidation;agent/memory.py + context.py 负责把 bootstrap doc、skill 描述、记忆切片拼进 system prompt。有 agent/subagent.py(局部子任务委派)但不是对等多 Agent。Provider 经 providers/registry.py 抽象,LiteLLM + OpenAI Codex 直连两条路径。

流程机制

关键架构是异步消息总线解耦bus/queue.py 暴露 inbound / outbound 两条 async queue,channel 适配器把平台事件翻成 InboundMessage 投入总线,AgentLoop 消费、Provider 处理、tool 执行、结果回投 outbound,channel dispatcher 投递回用户。

主动行为靠 cron/service.py(定时任务:开盘 / 收盘 / 30min 巡检 / 周报)和 heartbeat/service.py 同样喂入 AgentLoop。

没有显式任务路由 / 技能编排器,skill 是声明式描述塞进 prompt,由 LLM 自己决定调哪个 tool。

可迁移工程化模式(对 FinBayes 最有借鉴价值)

  1. MessageBus 解耦——channel 层和 Agent 核心解耦,方便加 CLI / web / IM 多入口,对应 FinBayes session / context 架构
  2. Provider Registry + LiteLLM 抽象——多模型 / 多供应商无侵入切换
  3. Cron + Heartbeat 主动触发循环——AgentLoop 既被用户消息也被定时器驱动,FinBayes 若做主动监控 / 定时分析可直接套
  4. Tool / Skill / Channel 三处可插拔扩展点清晰,文档化好

局限 / 不适配

认知体系完全不可借鉴:watchlist + 投资 thesis + Bullish/Bearish 简单标签,与 FinBayes 贝叶斯认知层方向不同。

架构上的硬伤已被自家 ARCHITECTURE.md 列出:

  • 全局 processing lock 串行化(无 per-session 并发)
  • 消息队列无 bound(背压缺失)
  • shell tool 仅靠 denylist(绕过风险)
  • Codex provider 有 TLS verify=False 回退
  • 几乎无测试

单 Agent + tool loop 范式不支持多角色协同推理——FinBayes 若需要多 Agent 辩论 / 评审,要另起方案。

与 aifinlab-FinClaw 的关系

未在本仓发现关联线索,仅看到上游基于 nanobot(HKUDS)。两者关系建议直接问维护者或对比 aifinlab 仓库。


报告 5:FinVault 调研(general-purpose sub-agent)

项目位置本地 aifinlab/FinVault 仓库

项目目的

FinVault 是首个执行落地的金融 Agent 安全评测 benchmark——不是估值(Valuation)系统,名字里的 "Vault" 指安全防护而非资产仓库。面向 LLM/Agent 研究者与机构合规方,评测金融 Agent 在隔离 sandbox 中面对攻击时的安全表现,与个人投资者无关

方法论

构建 31 个监管驱动场景(信贷、保险、证券、支付、合规反洗钱、风控)、107 个高风险漏洞、856 条攻击样本(8 类:Prompt Injection、Jailbreaking、Authority Impersonation、Social Engineering、Data Exfiltration、Transaction Manipulation、Compliance Evasion、Tool Misuse)。

核心创新是通过可观测的数据库状态变化验证攻击是否成功,而非仅看文本输出。论文报告 Claude-Haiku-4.5 攻击成功率 6.70%、Qwen3-Max 50%,并对比 Security Prompting / LLaMA Guard 3/4 / GPT-OSS-Safeguard 的防御效果。

体系化程度

在 Agent 安全评测维度高度体系化(场景 — 漏洞 — 攻击 — 验证 — 防御对比五层闭环),但完全不涉及估值框架,没有 DCF / PE / NAV / 链上指标、不确定性区间或敏感性分析,也无 Damodaran / Greenwald 类学术引用。

对 FinBayes 的参考价值

  • 「估值多元性」维度:零参考。FinVault 不做估值。
  • 间接价值:若 FinBayes 未来引入"Agent 辅助决策"层,FinVault 的 sandbox + 状态化验证方法可借鉴用于评测 FinBayes Agent 在给用户提建议时是否会被诱导(如错误估值结论、合规越界)。
  • 攻击类型清单(社工、合规规避)对"个人投资者认知防御"侧——即用户如何识别 AI 给出的误导性金融建议——有方法论启发。

局限

与本次调研目标(金融认知体系 / 估值方法论参考)方向错配。建议从认知体系参考清单中移除,或仅作为未来 FinBayes-Agent 安全评测的备查项。


报告 6:UniFinEval 调研(general-purpose sub-agent)

项目位置:本地 aifinlab/UniFinEval 仓库

项目目的

上海财经大学 AIFin Lab 出品的金融多模态大模型统一评测基准(文本 + 图像 + 视频),3,767 个 QA 由 CFA / CPA 专家手工构建并盲交叉验证。评测对象是 MLLMs 在真实金融业务流的认知与决策能力,而非工具或决策本身。

评测维度核心(反推认知机制)

  1. 细粒度感知 — 在视觉噪声 / 复杂排版中精准定位关键指标
  2. 多跳推理 — 跨页面、跨模态、跨文档的信息核对
  3. 信息对齐与语义同步 — 财报 vs 第三方研报等异构源参数提取后做严谨金融公式计算
  4. 长程逻辑归纳 — 跨企业 / 跨周期的行业底层逻辑识别
  5. 时序建模 — 视频中动态观点与静态量化数据显式对齐,捕捉情绪变化
  6. 多约束决策一致性 — 多轮对话中平衡收益 / 风险,保持决策逻辑一致
  7. 环境扰动鲁棒性 — 低质量输入下的稳定性

框架 / Taxonomy

依真实业务流构建五层级金融场景——审计(FSA)→ 基本面(CFR)→ 行业趋势(ITI)→ 风险感知(FRS)→ 资产配置(AAA),从信息认知到高阶决策递进。

对 FinBayes 反推参考

  • 认知层级化:从"感知 → 推理 → 归纳 → 风险 → 决策"的分层结构可直接映射为 FinBayes 个人投资者认知维度
  • 关键差距点:评测显示模型在 AAA / FRS 大幅退化,提示多约束决策一致性 + 时序情绪建模是认知层最稀缺也最高价值的机制
  • 异构源对齐:个人投资者面对的也是研报 + 公告 + 视频 + 行情,FinBayes 认知体系应内置跨源参数提取 + 公式化推理而非单纯检索
  • 环境扰动:暗示认知体系需对低质量 / 噪声输入鲁棒,对应"信息卫生"机制

局限

  • 评测对象是 MLLM 通用能力,非个人投资者认知缺陷(不覆盖行为偏差、风险偏好校准、目标对齐)
  • 以专家正确性为天花板,未建模"贝叶斯更新 / 不确定性量化 / 反事实推理"等概率认知维度
  • 决策评测停在"高 / 低配建议"标签,不涉及组合长期一致性与代理人对齐

项目路径本地 aifinlab/UniFinEval 仓库的 README_CN.md


报告 7:FinEval 调研(general-purpose sub-agent)

项目位置本地 SUFE-AIFLM-Lab/FinEval 仓库

项目目的

上海财经大学 AIFLM 实验室构建的中文金融大模型综合评测基准(arXiv 2308.09975),不评 LLM 通识能力,专测金融领域的专业能力 + 安全性,共 26000+ 题。评估对象是"金融 LLM",但其维度划分实质表达了 SUFE 对"金融 AI 应该懂什么"的系统性看法。

评估维度分类核心(六大支柱)

  1. 金融学术知识——金融 / 经济 / 会计 / 证书四大类共 34 个学术科目,体现"学院派认知底座"
  2. 金融行业知识——投顾 / 投研 / 运营 10 个真实业务场景
  3. 金融安全知识——隐私、合规、对抗攻击 11 维度
  4. 金融智能体——工具调用、规划、长程记忆
  5. 金融多模态——K 线、研报图表、印章
  6. 金融严谨性——抗幻觉

结构性看法金融认知 = 学术底座 + 业务场景 + 安全合规 + 多模态读图 + 严谨真实性,缺一不可。

任务类型与机制反映

选择题(事实记忆)、主客观简答(语义生成)、CoT 推理(Put-Call 平价等定量推导)、API 调用 / 检索(工具使用)、多文档问答(信息整合)、长程对话(记忆连贯)、任务规划(流程拆解)。

暗示金融认知的核心机制是:事实 → 推理 → 工具 → 整合 → 严谨输出的链路,而非孤立知识点。

对 FinBayes 的参考价值

FinBayes 服务个人投资者,可裁剪 FinEval 的"行业知识 — 投顾场景"、"严谨性测试"、"CoT 定量推理"三块作为认知层基线测试;并复用其六支柱框架,补齐 FinBayes 当前可能偏重"分析"而缺失"安全 / 严谨性 / 多模态读图"的盲区。

学术参考与可迁移点

  • 参照中国注册金融分析师 / 精算师 / 会计师考纲构建学科树(可迁移至 FinBayes 术语表与能力图谱)
  • 采用 zero- / five-shot ± CoT 四象限评测法(可迁移至 FinBayes 模型回归测试矩阵)

源文件本地 SUFE-AIFLM-Lab/FinEval 仓库/README_zh-CN.md


维护协议

  • 本文件作为静态参考材料保留,未来 governance/workstreams/finbayes-cognition-system-research/ 工作流启动时作为输入清单
  • 7 份报告内容为 sub-agent 调研时点(2026-05-28)的快照,外部项目后续可能演化
  • 如有新的相关项目 / 学术框架被识别,可由本工作流维护者追加到本文件
  • 体系机制清单、迭代方法论、治理机制的具体产出归到未来的研究工作流,不在本文件