金融认知体系研究 — 初步调研简报
这份文件是什么
FinBayes 战略白皮书 v3 重写工作流期间,为 ADR-007(金融认知体系作为核心差异化定位)的"6 个核心机制是否足够、如何持续迭代完善"问题做了 6 份初步调研。
用户拍板"D 现在 + B 后续启动"——本版本白皮书不锁定具体的体系机制清单,专题研究作为后续独立工作流(governance/workstreams/finbayes-cognition-system-research/)承接。
这份文件暂存这 6 份调研报告 + 综合判断,作为未来该工作流启动时的输入清单。不丢失这些研究成果——这是用户明确要求。
综合判断
FinBayes "把估值 + 宏观 + 叙事 + 事件传导统一组织为可迭代矫正的显式认知体系"是业内原创组合。业内可借鉴的零件齐全(学界 + 工业界),但整机无人造过。
可借鉴的零件清单(汇总)
| 类别 | 可借鉴项 | 来源 |
|---|---|---|
| 架构层 | 多 Agent + 短/中/长期分层记忆 + 反思模块 | FinMem (arXiv 2311.13743)、TradingAgents、TradingGPT |
| 架构层 | 学界四层金融 Agent 架构(数据感知 / 推理引擎 / 策略生成 / 执行控制) | arXiv 2603.13942 |
| 架构层 | 多 Agent 综合金融场景(不是单一交易类) | FinTeam (arXiv 2507.10448) |
| 工程层 | MessageBus 解耦 + Provider Registry + LiteLLM 抽象 + Cron + Heartbeat 主动触发 | martinpmm-Finclaw |
| 方法论层 | 经济机器模型(生产力 + 短债周期 + 长债周期三力叠加) | Dalio / Bridgewater |
| 方法论层 | 叙事 + 数字估值耦合(AI 化已部分验证) | Damodaran / DBOT (arXiv 2504.05639) |
| 评测层 | 5 层级金融场景(审计→基本面→行业→风险→资产配置)+ 7 评测维度 | UniFinEval (上海财经大学 AIFin Lab) |
| 评测层 | 6 支柱(学术底座 / 业务场景 / 安全合规 / 智能体 / 多模态 / 严谨性) | FinEval (SUFE-AIFLM-Lab, arXiv 2308.09975) |
| 评测层 | Cognitive Complexity Benchmark + Financial-PoT(评估认知体系完备性的学术方法) | arXiv 2601.21157 |
| 迭代机制层 | "假设 → 测试 → 修正"研究循环 + MCP/A2A 协议 | AgenticTrading (Open-Finance-Lab) |
| 覆盖度对照 | a-share 子集 170+ skill taxonomy(中国市场认知维度对照表) | aifinlab-FinClaw |
业内空白带
- BloombergGPT 50B 参数纯 LLM 路线,未公开任何显式金融本体或知识图谱——证明仅靠数据规模不构成"认知体系"
- 主流方向集中在三类:金融 LLM 微调(FinGPT、Fin-R1)/ 多 Agent 交易系统(TradingAgents)/ 传统估值方法论 AI 化(DBOT)
- 把估值 / 宏观 / 叙事 / 事件传导统一组织为可迭代矫正的显式认知体系——业内是空白带,FinBayes 是原创定位
B 工作流启动时的输入指引
- 首先消化本文件 6 份调研报告 + 综合判断
- 学术框架对照:基于 UniFinEval 7 维度 + FinEval 6 支柱 + Dalio 经济机器 + Damodaran 估值,反向校准 FinBayes 认知体系应包含的机制清单
- 架构层借鉴:学界四层金融 Agent 架构 + FinMem 分层记忆 + martinpmm-Finclaw 工程模式
- 评测方法论:Cognitive Complexity Benchmark + zero/five-shot ± CoT 四象限评测法(FinEval)
- 覆盖度自检:用 aifinlab-FinClaw a-share 170+ skill taxonomy 作为中国市场对照表
- 迭代机制:AgenticTrading 的"假设 → 测试 → 修正"研究循环 + RLE 反馈样本闭环
- 产出物:体系机制清单(替代 ADR-007 当前的 working 骨架 6 机制)+ 迭代方法论 + 治理机制 + 评测体系
调研报告全文(按 sub-agent 调度顺序)
报告 1:业内金融认知体系调研(researcher sub-agent)
调研范围:开源项目 / 学术框架 / 行业产品 / 传统金融认知框架的可迁移性。
总览:业内没有与 FinBayes "自建金融认知体系"目标完全对应的成熟开源项目或产品。主流方向集中在三类:金融 LLM(微调 / RL)、多 Agent 交易系统、传统估值/宏观分析方法论。**显式构建"可迭代矫正的认知框架"**这一定位仍是空白带——但有大量可借鉴的局部方法论。
一、开源项目(最相关 4 个)
- TradingAgents / TradingGPT / FinMem — 多 Agent + 分层记忆(短/中/长期)+ 角色化人格。FinMem 明确"对齐人类交易员认知结构"。但定位是交易决策,不是覆盖估值、宏观、叙事的通用认知层。可借鉴:分层记忆架构、反思模块。
- AgenticTrading (Open-Finance-Lab) — 首个把 MCP/A2A 协议引入量化的多 Agent 框架,强调"提出—测试—修正假设"的研究循环和动态因子生成。最接近"可迭代认知"的工程实现,但仍偏量化策略侧。
- Fin-R1 — 7B 金融推理 LLM,60k CoT 数据 + SFT + RL。是"推理能力"路线,不是"认知体系"路线——它训练模型会推理,不提供显式的分析框架。
- AlphaFin (Stock-Chain) — RAG + 实时数据 + 手写 CoT。本质是检索增强 + 微调数据集,没有显式认知架构。
FinGPT、BloombergGPT 属于通用金融 LLM,不构建认知体系。
二、学术框架(2 个)
- 四层金融 Agent 架构(arXiv 2603.13942)——数据感知 / 推理引擎 / 策略生成 / 执行控制。是目前学界对"金融 AI 认知栈"最系统化的抽象,可作 FinBayes 架构对照。
- Cognitive Complexity Benchmark + Financial-PoT(arXiv 2601.21157)——把金融推理拆解为认知复杂度层级。对"如何评估认知体系完备性"有方法论参考。
- FinTeam(2507.10448)——多 Agent 协同覆盖综合金融场景,比交易类 Agent 更接近"通用认知层"。
三、行业产品
- BloombergGPT — 50B 参数纯 LLM 路线,未公开任何显式金融本体或知识图谱。证明仅靠数据规模不构成"认知体系"。
- Bloomberg Terminal AI / FactSet / S&P Market Intelligence — 强在结构化数据+检索,认知层仍以分析师人工产出为主,AI 推理是辅助查询,非自主分析框架。
- DBOT(arXiv 2504.05639)——明确尝试把 Damodaran 的"叙事+数字"估值方法系统化为算法,是公开文献中最接近"传统认知框架 AI 化"的尝试。
四、传统金融认知框架的可迁移性
- Dalio 经济机器模型(生产力 + 短债周期 + 长债周期三力叠加)——结构清晰、机制可形式化,是宏观认知层最易工程化的候选。Bridgewater 内部已大规模算法化但不公开。
- Damodaran 估值体系——DBOT 已证明可部分 AI 化;叙事-数字耦合是可借鉴的核心范式。
- Howard Marks(周期/二阶思维)、Munger(多元思维模型)提供认知态度,难以直接结构化。
综合判断
- 不必从零原创:分层记忆(FinMem)、多 Agent 协同(TradingAgents/FinTeam)、四层架构、认知复杂度评测、Damodaran-AI 化(DBOT)、Dalio 机器模型,都是可直接吸收的成熟构件。
- 真正空白:把估值/宏观/叙事/事件传导统一组织为可迭代矫正的显式认知体系——业内没有对标产品。FinBayes 在这个组合上是原创定位。
- 建议策略:架构层借鉴四层 Agent + 分层记忆;方法论层吸收 Dalio 机器模型与 Damodaran 叙事估值的 AI 化路径;差异化坚守"显式、可矫正、面向新事件的前置框架"。业内可借鉴的零件齐全,但整机无人造过。
关键 References
- TradingGPT (arXiv 2309.03736)
- FinMem (arXiv 2311.13743)
- TradingAgents (arXiv 2412.20138)
- AgenticTrading (GitHub: Open-Finance-Lab/AgenticTrading)
- Fin-R1 (arXiv 2503.16252)
- AlphaFin (arXiv 2403.12582)
- AI Agents in Financial Markets — 四层金融 Agent 架构 (arXiv 2603.13942)
- Cognitive Complexity Benchmark / Financial-PoT (arXiv 2601.21157)
- FinTeam (arXiv 2507.10448)
- BloombergGPT (arXiv 2303.17564)
- DBOT — Damodaran AI valuation (arXiv 2504.05639)
- Ray Dalio: Economic Machine (economicprinciples.org)
报告 2:架构文档"结构化认知输出"调研(Explore sub-agent)
调研范围:FinBayes 架构文档对"结构化认知输出"的设计 + 对应 ADR。
架构文档定义(核心)
StructuredCognitionResult 是 FinBayes 核心输出对象(架构 §4)。Task 产出的认知结果按任务类型动态组合 10 个认知要素:
- 结论 / 倾向(条件化)、依据、多视角、反方证据
- 成立条件、失效条件、不确定性 / 信息缺口
- 来源与时间戳、可继续追问项、历史判断链接
关键原则:不固化字段表,按任务类型组合。7 类任务各有专属要素组合(架构 §6 业务场景详述)。例如复盘类必含"原成立条件 → 当前变化 → 是否仍成立";交易准备类必含"成立条件、失效条件、反方证据、执行权说明"。
战略不变量落地:画像不裁剪事实空间——反方证据、关键风险、失效条件按事实空间生成,不因用户偏好被省略(架构 §13 特别强调)。
对应 ADR
未发现专门的 StructuredCognitionResult 独立 ADR。相关决策分散在:
- ADR-004(任务识别策略):用户输入到 7 类任务的映射
- ADR-008(LLM Provider 接口抽象):综合层如何调用 LLM 产出认知要素
- ADR-010(输出端凭证过滤):认知结果的安全过滤位置
产品定义对齐
产品文档 §7 完全继承了架构定义,进一步规范了任务-要素映射表(表 7):
- 解释类 4 要素、分析类 7 要素、比较类 5 要素
- 复盘类 8 要素、风险识别类 6 要素、交易准备 / 决策辅助类 8 要素
对齐度:100%。产品定义作为用户可见输出契约,直接承接架构设计。
战略白皮书现状
战略白皮书 v2 §5 阐述"三层价值"(想清楚、看全面、看本质),但未使用"StructuredCognitionResult"术语。战略层用产品语言,工程层用技术术语。第一阶段战略验证重点(v2 §11)强调了这些要素的价值感知,但未展开技术细节。
建议:战略白皮书第五节用户产品段承接
当前状态:v2 §5 聚焦价值论述,未明确"输出形态"与"用户可见呈现"的映射。
建议补充:在 v3 §5 用户产品段增加"结构化认知输出"小节,包含:
- 10 个认知要素的完整列表
- 动态组合机制 + 引用 7 类任务作为说明
- 战略不变量"画像不裁剪事实空间"的落地声明
- 与喊单 / 通用 AI 输出形态的根本区别对照
已在 v3 第五节 revision 2 + ADR-008 中完成承接(详见 governance/workstreams/finbayes-whitepaper-rewrite/)。
报告 3:aifinlab-FinClaw 调研(general-purpose sub-agent)
项目位置:本地 aifinlab-FinClaw 仓库
项目目的
上海财大 AIFinLab 张立文教授团队的开源项目,定位是面向中国金融行业的"自主 AI 智能体执行框架",基于 OpenClaw Agent OS。服务对象是金融机构从业者(银行授信、券商投研、基金 FOF、保险精算、信托方案),不是个人投资者。核心产出物是任务执行(生成报告、清单、话术、估值表),不是认知体系。
6 Agent 架构
按金融行业垂直拆分:银行、证券、保险、基金、期货、信托六大套件,每套件聚合 10 个高阶 Skills。这是业态切片(vertical-by-industry),不是认知层切片——它回答"哪个机构在用",不回答"投资者如何理解市场"。Agent 之间不构成连贯的认知框架,是平行的业务管线。
Skills 组织
实际 1033 个 skill。SKILLS_CATALOG.md 显示 8 大类(银行 154、券商 93、基金 161、信托 163、保险 66、通用业务 37、数据源 73、原子技能 70),另有独立的 a-share 投研子集(约 170+ 个,覆盖估值/财报/技术/资金/情绪/宏观/选股/量化/机器学习/微观结构)。a-share 子集 taxonomy 最接近"认知维度",其余多按机构业务场景命名,是任务粒度而非认知粒度。
认知框架成熟度
没有显式的金融认知框架文档。SOUL.md 是 Agent 人格设定(专业、数据驱动、买方研报风格),不是分析体系。README 强调"统一数据抽象层 + Skills 编排",方法论停留在工程层(数据路由、容错降级)。没有学术参考、没有第一性原理推导、没有可迭代矫正的反馈环。设计哲学是"覆盖广度优先"。
对 FinBayes 的参考价值
可借鉴:
- a-share 子集的 170+ skill taxonomy 是中国市场认知维度的现成清单,可作为 FinBayes 认知体系覆盖度自检的对照表
- 统一数据抽象层(cn-stock-data 路由 efinance/akshare/adata 等)的工程范式值得复用
- SOUL.md 的人格锚点(厌恶 AI slop、数据第一性、"取决于场景偷懒论")与 FinBayes 的反 slop 调性高度同频
局限 / 不适配
- 对象错位——服务机构持牌人,不服务个人投资者,整个银行/证券/信托/保险套件对 FinBayes 几乎无用
- 缺认知层——是 task-executor 集合,不是认知 framework,没有"如何让投资者建立对市场的判断"这一层抽象
- 缺迭代矫正机制——skill 是静态资产,没有"基于结果修正认知"的闭环
- skill 命名 / 描述质量参差(大量空描述、编号无语义),不可直接拿来当 ontology
关键路径:本地 aifinlab-FinClaw 仓库/skills/SKILLS_CATALOG.md、本地 aifinlab-FinClaw 仓库/skillsChoice/、本地 aifinlab-FinClaw 仓库/SOUL.md、本地 aifinlab-FinClaw 仓库/README.md
报告 4:martinpmm-Finclaw 调研(general-purpose sub-agent)
项目位置:本地 martinpmm-Finclaw 仓库
项目目的
个人投资者的多渠道(CLI / Telegram / Discord / Slack / WhatsApp)金融助手:watchlist 持仓监控、主动新闻 / 价格告警、技术 + 基本面分析、晨间简报。开源 Python 项目,基于 nanobot 框架。
Agent runtime 架构
单 Agent + 工具调用循环(不是多 Agent 协同)。核心 AgentLoop(finclaw/agent/loop.py)跑标准 LLM tool-calling 循环:消费消息 → 构上下文 → 调 Provider → 执行 tool → 必要时回灌 → 出站。
两种运行模式:finclaw gateway(常驻服务,开 channels + cron + heartbeat)、finclaw agent(一次性 / 交互)。
状态由 session/manager.py 按 session 存历史,支持 consolidation;agent/memory.py + context.py 负责把 bootstrap doc、skill 描述、记忆切片拼进 system prompt。有 agent/subagent.py(局部子任务委派)但不是对等多 Agent。Provider 经 providers/registry.py 抽象,LiteLLM + OpenAI Codex 直连两条路径。
流程机制
关键架构是异步消息总线解耦:bus/queue.py 暴露 inbound / outbound 两条 async queue,channel 适配器把平台事件翻成 InboundMessage 投入总线,AgentLoop 消费、Provider 处理、tool 执行、结果回投 outbound,channel dispatcher 投递回用户。
主动行为靠 cron/service.py(定时任务:开盘 / 收盘 / 30min 巡检 / 周报)和 heartbeat/service.py 同样喂入 AgentLoop。
没有显式任务路由 / 技能编排器,skill 是声明式描述塞进 prompt,由 LLM 自己决定调哪个 tool。
可迁移工程化模式(对 FinBayes 最有借鉴价值)
- MessageBus 解耦——channel 层和 Agent 核心解耦,方便加 CLI / web / IM 多入口,对应 FinBayes session / context 架构
- Provider Registry + LiteLLM 抽象——多模型 / 多供应商无侵入切换
- Cron + Heartbeat 主动触发循环——AgentLoop 既被用户消息也被定时器驱动,FinBayes 若做主动监控 / 定时分析可直接套
- Tool / Skill / Channel 三处可插拔扩展点清晰,文档化好
局限 / 不适配
认知体系完全不可借鉴:watchlist + 投资 thesis + Bullish/Bearish 简单标签,与 FinBayes 贝叶斯认知层方向不同。
架构上的硬伤已被自家 ARCHITECTURE.md 列出:
- 全局 processing lock 串行化(无 per-session 并发)
- 消息队列无 bound(背压缺失)
- shell tool 仅靠 denylist(绕过风险)
- Codex provider 有 TLS verify=False 回退
- 几乎无测试
单 Agent + tool loop 范式不支持多角色协同推理——FinBayes 若需要多 Agent 辩论 / 评审,要另起方案。
与 aifinlab-FinClaw 的关系
未在本仓发现关联线索,仅看到上游基于 nanobot(HKUDS)。两者关系建议直接问维护者或对比 aifinlab 仓库。
报告 5:FinVault 调研(general-purpose sub-agent)
项目位置:本地 aifinlab/FinVault 仓库
项目目的
FinVault 是首个执行落地的金融 Agent 安全评测 benchmark——不是估值(Valuation)系统,名字里的 "Vault" 指安全防护而非资产仓库。面向 LLM/Agent 研究者与机构合规方,评测金融 Agent 在隔离 sandbox 中面对攻击时的安全表现,与个人投资者无关。
方法论
构建 31 个监管驱动场景(信贷、保险、证券、支付、合规反洗钱、风控)、107 个高风险漏洞、856 条攻击样本(8 类:Prompt Injection、Jailbreaking、Authority Impersonation、Social Engineering、Data Exfiltration、Transaction Manipulation、Compliance Evasion、Tool Misuse)。
核心创新是通过可观测的数据库状态变化验证攻击是否成功,而非仅看文本输出。论文报告 Claude-Haiku-4.5 攻击成功率 6.70%、Qwen3-Max 50%,并对比 Security Prompting / LLaMA Guard 3/4 / GPT-OSS-Safeguard 的防御效果。
体系化程度
在 Agent 安全评测维度高度体系化(场景 — 漏洞 — 攻击 — 验证 — 防御对比五层闭环),但完全不涉及估值框架,没有 DCF / PE / NAV / 链上指标、不确定性区间或敏感性分析,也无 Damodaran / Greenwald 类学术引用。
对 FinBayes 的参考价值
- 「估值多元性」维度:零参考。FinVault 不做估值。
- 间接价值:若 FinBayes 未来引入"Agent 辅助决策"层,FinVault 的 sandbox + 状态化验证方法可借鉴用于评测 FinBayes Agent 在给用户提建议时是否会被诱导(如错误估值结论、合规越界)。
- 攻击类型清单(社工、合规规避)对"个人投资者认知防御"侧——即用户如何识别 AI 给出的误导性金融建议——有方法论启发。
局限
与本次调研目标(金融认知体系 / 估值方法论参考)方向错配。建议从认知体系参考清单中移除,或仅作为未来 FinBayes-Agent 安全评测的备查项。
报告 6:UniFinEval 调研(general-purpose sub-agent)
项目位置:本地 aifinlab/UniFinEval 仓库
项目目的
上海财经大学 AIFin Lab 出品的金融多模态大模型统一评测基准(文本 + 图像 + 视频),3,767 个 QA 由 CFA / CPA 专家手工构建并盲交叉验证。评测对象是 MLLMs 在真实金融业务流的认知与决策能力,而非工具或决策本身。
评测维度核心(反推认知机制)
- 细粒度感知 — 在视觉噪声 / 复杂排版中精准定位关键指标
- 多跳推理 — 跨页面、跨模态、跨文档的信息核对
- 信息对齐与语义同步 — 财报 vs 第三方研报等异构源参数提取后做严谨金融公式计算
- 长程逻辑归纳 — 跨企业 / 跨周期的行业底层逻辑识别
- 时序建模 — 视频中动态观点与静态量化数据显式对齐,捕捉情绪变化
- 多约束决策一致性 — 多轮对话中平衡收益 / 风险,保持决策逻辑一致
- 环境扰动鲁棒性 — 低质量输入下的稳定性
框架 / Taxonomy
依真实业务流构建五层级金融场景——审计(FSA)→ 基本面(CFR)→ 行业趋势(ITI)→ 风险感知(FRS)→ 资产配置(AAA),从信息认知到高阶决策递进。
对 FinBayes 反推参考
- 认知层级化:从"感知 → 推理 → 归纳 → 风险 → 决策"的分层结构可直接映射为 FinBayes 个人投资者认知维度
- 关键差距点:评测显示模型在 AAA / FRS 大幅退化,提示多约束决策一致性 + 时序情绪建模是认知层最稀缺也最高价值的机制
- 异构源对齐:个人投资者面对的也是研报 + 公告 + 视频 + 行情,FinBayes 认知体系应内置跨源参数提取 + 公式化推理而非单纯检索
- 环境扰动:暗示认知体系需对低质量 / 噪声输入鲁棒,对应"信息卫生"机制
局限
- 评测对象是 MLLM 通用能力,非个人投资者认知缺陷(不覆盖行为偏差、风险偏好校准、目标对齐)
- 以专家正确性为天花板,未建模"贝叶斯更新 / 不确定性量化 / 反事实推理"等概率认知维度
- 决策评测停在"高 / 低配建议"标签,不涉及组合长期一致性与代理人对齐
项目路径:本地 aifinlab/UniFinEval 仓库的 README_CN.md
报告 7:FinEval 调研(general-purpose sub-agent)
项目位置:本地 SUFE-AIFLM-Lab/FinEval 仓库
项目目的
上海财经大学 AIFLM 实验室构建的中文金融大模型综合评测基准(arXiv 2308.09975),不评 LLM 通识能力,专测金融领域的专业能力 + 安全性,共 26000+ 题。评估对象是"金融 LLM",但其维度划分实质表达了 SUFE 对"金融 AI 应该懂什么"的系统性看法。
评估维度分类核心(六大支柱)
- 金融学术知识——金融 / 经济 / 会计 / 证书四大类共 34 个学术科目,体现"学院派认知底座"
- 金融行业知识——投顾 / 投研 / 运营 10 个真实业务场景
- 金融安全知识——隐私、合规、对抗攻击 11 维度
- 金融智能体——工具调用、规划、长程记忆
- 金融多模态——K 线、研报图表、印章
- 金融严谨性——抗幻觉
结构性看法:金融认知 = 学术底座 + 业务场景 + 安全合规 + 多模态读图 + 严谨真实性,缺一不可。
任务类型与机制反映
选择题(事实记忆)、主客观简答(语义生成)、CoT 推理(Put-Call 平价等定量推导)、API 调用 / 检索(工具使用)、多文档问答(信息整合)、长程对话(记忆连贯)、任务规划(流程拆解)。
暗示金融认知的核心机制是:事实 → 推理 → 工具 → 整合 → 严谨输出的链路,而非孤立知识点。
对 FinBayes 的参考价值
FinBayes 服务个人投资者,可裁剪 FinEval 的"行业知识 — 投顾场景"、"严谨性测试"、"CoT 定量推理"三块作为认知层基线测试;并复用其六支柱框架,补齐 FinBayes 当前可能偏重"分析"而缺失"安全 / 严谨性 / 多模态读图"的盲区。
学术参考与可迁移点
- 参照中国注册金融分析师 / 精算师 / 会计师考纲构建学科树(可迁移至 FinBayes 术语表与能力图谱)
- 采用 zero- / five-shot ± CoT 四象限评测法(可迁移至 FinBayes 模型回归测试矩阵)
源文件:本地 SUFE-AIFLM-Lab/FinEval 仓库/README_zh-CN.md
维护协议
- 本文件作为静态参考材料保留,未来
governance/workstreams/finbayes-cognition-system-research/工作流启动时作为输入清单 - 7 份报告内容为 sub-agent 调研时点(2026-05-28)的快照,外部项目后续可能演化
- 如有新的相关项目 / 学术框架被识别,可由本工作流维护者追加到本文件
- 体系机制清单、迭代方法论、治理机制的具体产出归到未来的研究工作流,不在本文件