FinTecEval 评测引擎

碰到看不懂的词，随时查术语对照。

它解决什么问题

你做了一个金融 AI 产品——投研助手、金融问答、交易认知工具，随便哪种。上线前后总绕不开一个问题：

它到底值不值得存在、值不值得用？

拆成两个能回答的问题：

凭感觉拍脑袋答不了这两个问题。FinTecEval 就是把这两个问题量化回答的一套可复用方法。

拿同一批真实金融场景题，让三方在同样条件下各答一遍，再把分数两两相减：

结果不是一个笼统的分，而是一张能力坐标：你的产品落在"底线 × 及格线"平面的哪个位置，在哪类场景上强、哪类弱、下一步该补哪里。它只给证据，不替你做产品决策——怎么改由你和团队定。

FinTecEval 是一套公共的、可复用的测量工具，提供给各类金融 AI 产品团队使用：

谁是谁：FinTecEval 是被使用的工具（提供方）；用它来测自己的产品是使用方。工具不从属于任何一个产品。

一条闭环：出题（一头）→ 喂给被测产品（中间）→ 量出坐标（一尾）→ 拿结果回去改产品。被测产品对引擎是个黑箱——引擎不关心它内部怎么实现，只看"喂进什么题、吐出什么答"。

你是…	读这些
想直接发起一次评测	怎么用这个引擎：能力一句话 + 怎么发起 + 题库清单 + 结果存哪
想搞懂原理 / 方法	总蓝图（全貌）→ 方法论（双轴坐标怎么定义、题怎么出）
想搞懂"好答案到底怎么定义、怎么测才不自欺"	怎么让评测不变成"跑分游戏"：三个判官（事实/校准/真人）+ 敢认账的 Agent + 对生态各方的启发
想维护引擎本身	上面全部 + 场景标签体系 + 题库 + 能力坐标（一尾）
碰到看不懂的词	术语对照

本目录是人读的稳定发布版，只放引擎的定义与方法。
跑评测的代码、历次评测的原始数据、某次评测的具体报告都不放这里——代码与原始数据在实现仓（一个叫 FinTecEval 的工程仓），具体报告交到发起评测的产品团队仓库（见怎么用这个引擎）。
题库分两层：通用层（跨产品复用）+ 被测产品层（当前是 FinBayes）。