FinTecEval 评测引擎
碰到看不懂的词,随时查 术语对照。
它解决什么问题
你做了一个金融 AI 产品——投研助手、金融问答、交易认知工具,随便哪种。上线前后总绕不开一个问题:
它到底值不值得存在、值不值得用?
拆成两个能回答的问题:
- 它比用户"直接问一个通用大模型"强吗?强在哪? —— 如果不强,那用户为什么不直接去问 GPT?产品就没有存在的意义。
- 它比市面上的竞品强吗? —— 如果不强,这条赛道上就没有竞争力。
凭感觉拍脑袋答不了这两个问题。FinTecEval 就是把这两个问题量化回答的一套可复用方法。
它怎么回答
拿同一批真实金融场景题,让三方在同样条件下各答一遍,再把分数两两相减:
- 你的产品 vs 未加工的通用大模型 → 得到底线:比"直接问大模型"强多少。
- 你的产品 vs 竞品 → 得到及格线:比对手强多少。
结果不是一个笼统的分,而是一张能力坐标:你的产品落在"底线 × 及格线"平面的哪个位置,在哪类场景上强、哪类弱、下一步该补哪里。它只给证据,不替你做产品决策——怎么改由你和团队定。
给谁用
FinTecEval 是一套公共的、可复用的测量工具,提供给各类金融 AI 产品团队使用:
- 生态内:FinBayes 是第一个用它来测自己的产品;未来 Data Horizon / AI Trading Matrix 等同理。
- 生态外:任何有类似需求的金融认知 / 问答 / 助手类产品,都能照这套方法测自己。
谁是谁:FinTecEval 是被使用的工具(提供方);用它来测自己的产品是使用方。工具不从属于任何一个产品。
怎么运转(一句话 + 一张图)
一条闭环:出题(一头)→ 喂给被测产品(中间)→ 量出坐标(一尾)→ 拿结果回去改产品。被测产品对引擎是个黑箱——引擎不关心它内部怎么实现,只看"喂进什么题、吐出什么答"。
怎么读这套文档(按你的身份)
| 你是… | 读这些 |
|---|---|
| 想直接发起一次评测 | 怎么用这个引擎:能力一句话 + 怎么发起 + 题库清单 + 结果存哪 |
| 想搞懂原理 / 方法 | 总蓝图(全貌)→ 方法论(双轴坐标怎么定义、题怎么出) |
| 想搞懂"好答案到底怎么定义、怎么测才不自欺" | 怎么让评测不变成"跑分游戏":三个判官(事实/校准/真人)+ 敢认账的 Agent + 对生态各方的启发 |
| 想维护引擎本身 | 上面全部 + 场景标签体系 + 题库 + 能力坐标(一尾) |
| 碰到看不懂的词 | 术语对照 |
边界
- 本目录是人读的稳定发布版,只放引擎的定义与方法。
- 跑评测的代码、历次评测的原始数据、某次评测的具体报告都不放这里——代码与原始数据在实现仓(一个叫 FinTecEval 的工程仓),具体报告交到发起评测的产品团队仓库(见 怎么用这个引擎)。
- 题库分两层:通用层(跨产品复用)+ 被测产品层(当前是 FinBayes)。