跳到主要内容

FinTecEval 评测引擎

碰到看不懂的词,随时查 术语对照

它解决什么问题

你做了一个金融 AI 产品——投研助手、金融问答、交易认知工具,随便哪种。上线前后总绕不开一个问题:

它到底值不值得存在、值不值得用?

拆成两个能回答的问题:

  1. 它比用户"直接问一个通用大模型"强吗?强在哪? —— 如果不强,那用户为什么不直接去问 GPT?产品就没有存在的意义。
  2. 它比市面上的竞品强吗? —— 如果不强,这条赛道上就没有竞争力。

凭感觉拍脑袋答不了这两个问题。FinTecEval 就是把这两个问题量化回答的一套可复用方法

它怎么回答

同一批真实金融场景题,让三方在同样条件下各答一遍,再把分数两两相减:

  • 你的产品 vs 未加工的通用大模型 → 得到底线:比"直接问大模型"强多少。
  • 你的产品 vs 竞品 → 得到及格线:比对手强多少。

结果不是一个笼统的分,而是一张能力坐标:你的产品落在"底线 × 及格线"平面的哪个位置,在哪类场景上强、哪类弱、下一步该补哪里。它只给证据,不替你做产品决策——怎么改由你和团队定。

给谁用

FinTecEval 是一套公共的、可复用的测量工具,提供给各类金融 AI 产品团队使用:

  • 生态内:FinBayes 是第一个用它来测自己的产品;未来 Data Horizon / AI Trading Matrix 等同理。
  • 生态外:任何有类似需求的金融认知 / 问答 / 助手类产品,都能照这套方法测自己。

谁是谁:FinTecEval 是被使用的工具(提供方);用它来测自己的产品是使用方。工具不从属于任何一个产品。

怎么运转(一句话 + 一张图)

一条闭环:出题(一头)→ 喂给被测产品(中间)→ 量出坐标(一尾)→ 拿结果回去改产品。被测产品对引擎是个黑箱——引擎不关心它内部怎么实现,只看"喂进什么题、吐出什么答"。

怎么读这套文档(按你的身份)

你是…读这些
想直接发起一次评测怎么用这个引擎:能力一句话 + 怎么发起 + 题库清单 + 结果存哪
想搞懂原理 / 方法总蓝图(全貌)→ 方法论(双轴坐标怎么定义、题怎么出)
想搞懂"好答案到底怎么定义、怎么测才不自欺"怎么让评测不变成"跑分游戏":三个判官(事实/校准/真人)+ 敢认账的 Agent + 对生态各方的启发
想维护引擎本身上面全部 + 场景标签体系 + 题库 + 能力坐标(一尾)
碰到看不懂的词术语对照

边界

  • 本目录是人读的稳定发布版,只放引擎的定义与方法
  • 跑评测的代码、历次评测的原始数据某次评测的具体报告都不放这里——代码与原始数据在实现仓(一个叫 FinTecEval 的工程仓),具体报告交到发起评测的产品团队仓库(见 怎么用这个引擎)。
  • 题库分两层:通用层(跨产品复用)+ 被测产品层(当前是 FinBayes)。