跳到主要内容

怎么让评测不变成"跑分游戏"

这份文档不是方法、不是规范,是一次诚实的反思:我们在用 FinTecEval 测 FinBayes 的过程中,差点把它做成一套"自己出题、自己打分、再拿这个分去指挥产品"的闭环——而那条路的终点,就是大家都怕的"benchmark 跑分很漂亮、真用起来很差"。

这里把那次讨论的问题、结论、和它对整个生态意味着什么,沉淀下来,给所有跟 FinTecEval 直接或间接相关的人和 Agent 对齐。看不懂的词查 术语对照

起点:一个让人睡不着的担心

担心是这样一句话:

我们是不是在围绕一套并不权威、并不真实的"标准"和打分做评测,然后这个分反过来去影响 FinBayes 的工程方向,最后做出一个**"跑分吊炸天、一用屎一坨"**的东西?

这个担心不是杞人忧天。把它摊开,发现我们确实有一只脚踏进了坑里。

我们到底哪儿做得不对

1. 反馈环是"闭"的,从头到尾没碰过闭环之外的东西。 实际发生的事情是:评测测出"用户读着不够好" → 产品就专门做个功能去把这个分拉上去 → 再测,分上去了,大家都觉得进步了。连续两个产品功能,是直接冲着评测给的分去造的。如果分是歪的,产品就被精准地带歪了。 而这一整圈里,没有任何一环碰到过真实用户、真实结果、或一个不参与出题打分的行家。一个只跟自己较劲的闭环,优化到最后,必然是"跑分涨、体验未必涨"。

2. 最关键的那几个分,是两个 AI 在打。 "可信不可信、读着顺不顺、能不能上手"——这些全是品味,不是真理,而且全是 AI(评测会话 + 一个独立 AI 复核)对着一套也是 AI 写的标准在打。两个 AI 意见一致 ≠ 它俩对。没有任何真实用户或金融专家校准过这套标准。

3. 那些精确的小数(+0.92、−0.23)是被夸大的精确感。 它们其实是十几道题、1 到 5 分的整数判断、取的平均。方向可信(强还是弱),但小数点后那一位基本是噪音。把它当体温计量出来的数那样去报,是一种虚假精确。

4. 最扎心的:我们的打分一直在奖励"正确的废话"。 评测一直给"守边界、不给数字、主动追问、条件化判断"高分。这些东西推到极致,就是一个"滴水不漏、但因此也无法被验证"的'永赚金融专家'——说的全对,但什么都没押、什么都验不了。 我们的标准,一直在悄悄把产品往这个方向带。这恰恰是要警惕的反面。

但也别全盘否定——分清"实的"和"虚的"

不是所有结论都一样虚,有粗细之分:

  • 相对实、可以信的:题库里每道题真有内部标准(一份好答案该覆盖什么、怎么算过);场景没有盲区(每类市场/情绪/任务至少有题);"防作弊题"是真的、还真抓到过产品"背答案";还有一部分结论是机器判的硬事实——产品崩没崩、有没有越界给假仓位、内部计算真跑了没有。这些不靠品味,是黑白分明的。
  • 虚的、要当心的:上面那四条问题,集中在"软分"——可信/可读/可操作那一类 AI 打的分。越是最近几轮在猛追的,越是这一类。

破局的关键:金融不是"没有判官",是有三个判官

最初我以为金融认知"没有老天爷当场判好坏"。这句话错了。金融有三个判官,住在不同的时间里、可靠度差很远

判官一·事实(当场判):实时价格、已发的财报数字、CPI 公布值、某条历史规律真假、某个机制成不成立——现在、立刻、客观可查。这是金融版的"编译/单元测试",是最硬的闸门:文笔再漂亮,事实错了直接判挂。但要记住——事实对 ≠ 答案好(挑着对自己有利的事实说,照样是坏建议)。所以它是"必须过的门",不是"好坏的尺子"。

判官二·校准(后验,要量要时间):这是最像 SWE-bench 的那个判官,但有一个反直觉、必须钉死的点——

单独一条概率预测,哪怕事后也验不了。 说"60% 概率反弹"结果崩了,它没错——60% 和那 40% 发生完全不矛盾。

能验的是很多条预测的"校准度":你说了 100 次"60%",最后大约 60 次真发生,你就准。这正是天气预报、超级预测者、预测市场打分的办法。而这要求被测的东西"敢拍、可记账"——每条判断带明确条件、概率、和"什么算它错了"。它的坑也全是"跑分一用屎一坨"的亲戚:要量要时间;得额外奖励"敢拍且拍对"(永远说"50%"的人校准完美却没用);条件必须事先钉死"算触发"的标准;拿历史回测做奖励会把历史里的巧合当规律学走,回测惊艳、真上场就死(量化界踩了四十年);"赚没赚到钱"当奖励是有毒的——它会教模型去赌"平时稳赚、偶尔爆死"的策略,而在爆死之前跑分一路吊炸天。

判官三·真人(逃不掉的那层):前两个判官都不测"它有没有真帮到这个人想清楚"。这层只能真人判——但真人也不是客观真理:每个人有自己的偏好、认知边界、提问角度,几个真人的问题凑不出金融场景的全貌。所以真人负责真实(题真不真、好不好真)、场景网格负责完整(别漏了利率/港股/套牢),两个拼起来,谁也替不了谁。

"好答案"到底是什么——由产品的身份定义

绕了一圈,"好答案"这个问题的答案,其实在"FinBayes 想成为谁"里:

FinBayes 要做的,是一个站在 AI 能力底座上、内核是金融认知 + Agent 编排、基于客观事实与证据、敢拍、可以被记账算账、错了认账、并能随市场和错误持续自我进化的金融 Agent——而不是一个滴水不漏、说着一堆"正确的废话"、永远无法被验证的"永赚专家"。

这个选择很关键:它恰好选中了唯一"测得了"的那个 FinBayes。 一个敢拍、错了认账的东西,校准账本才有的可记;一个"正确废话永赚专家",无法证伪,也就无法改进。产品身份和评测架构,是同一个决定的两面。

但选它不是免费的,有三条锋利的边,所有相关方都得看清:

  1. "敢拍"和"守边界"不矛盾,但要把线划清:边界是关于动作的(不替用户按下单键、不替他梭哈);拍,是关于认知的(敢给一个可被证伪的判断 + 概率 + "什么算我错")。它可以对世界的判断敢拍,同时不碰执行键。过去评测把这俩糊在一起、用"对冲"冒充"安全"——以后要分开。
  2. "自我进化"靠什么喂,是生死线:从错误里学,必须烧"我的概率校准了没有、推理链成不成立",绝不能烧"这一把赚没赚到钱"——后者就是开进压路机。
  3. "敢拍"没有"记账算账"兜着,就是另一种灾难:一个敢拍但从不校准的东西,是个自信满满还老错的算命先生,比模棱两可更毒。"敢拍"和"可被记账、错了认账"必须一起出厂。

这对生态各方意味着什么

整个生态恰好各对应这套架构的一块。每一方该对齐的、该调整的:

生态对象它是什么这套反思对它的启发 / 该做的调整
Data Horizon(上游感知)喂数据/证据的源它是判官一·事实的供血。事实校验有多硬,取决于 DH 的数据有多准、多实时、多可溯源。FinBayes 的每条"有根判断"最终要能追溯到 DH 的证据。启发:把"可被引用、可被追溯"作为感知层的一等目标。
FinBayes(认知)被测、要进化的那个核心调整对象。从"答得滴水不漏"转向"敢拍、可记账、错了认账";把每条带概率的判断做成可证伪的(带条件、概率、失效信号)。详见下一节"协同方式怎么变"。
AI Trading Matrix(下游执行)真正按下单键的那层它正是"守边界"里那个动作侧——FinBayes 敢拍认知、TM 在授权下执行。启发:TM 的真实成交与结果,是判官二·校准最宝贵的后验数据;但也要警惕——别让"这笔赚没赚到"直接回流成产品奖励(那是有毒的)。
RLE(强化学习反馈环)把群体反馈汇成学习样本这套反思最该警示的就是 RLE。 它要把"实盘判断与结果反馈"做成迭代样本——但奖励信号必须是"校准度 + 推理质量",不能是"赚没赚到钱",否则会把 FinBayes 训成那台定时炸弹。好消息:FinBayes "敢拍 + 可记账"的身份,恰好让 RLE 的样本变得可学——一条可证伪的判断是一个干净样本,一句对冲废话是个学不了的样本。
FEFM(金融专家底座模型)模型底座对应"随 AI 底座进化"那条轴。但战略上 FEFM 是放大器、不是基础——所以评测必须能把"认知体系的价值"和"底座模型的价值"分开测。FinTecEval 的"底线轴(对比未加工通用大模型)"干的正是这件事:证明认知体系本身有没有增量,而不是赌某天有个金融大模型出现。启发:FEFM 就绪后,评测要做跨底座对比,量"换底座到底带来多少"。

FinTecEval 自己该怎么调、怎么迭代

一句话:从"一套自己打的软分",重做成"一个敢拍 Agent 的问责账本"。 具体:

  1. 建起一直缺的"硬层":把"事实校验"(数字/财报/规律真假)、"自洽校验"(结论跟它摆的证据搭不搭、概率自不自洽)做成机器能查的闸门。这层天生防作弊。
  2. 建"校准账本":拿 FinBayes 的判断记录,把每条带概率的判断长期结算,看它认知到底准不准、敢不敢拍。这是金融能有的、最接近老天爷的判官——但要量、要时间、要钉死条件、要奖励区分度、绝不用短期收益做奖励
  3. 加一个"反正确废话"检查:每条判断够不够具体到能被判错?躲在"这要看情况、需持续观察"里的,扣分。这一项直接打"正确的废话",而且它把过去那套"奖励对冲"的旧标准翻了过来
  4. 把精确的多维软分降级:别再拿它当方向盘,最多留作粗糙的趋势温度计。给人和 Agent 指方向,靠"病例"不靠"分数"——一条真实答案 + 一个真人的真实反应,比任何分都难作弊、也更能说清该改哪。
  5. 把"对裸模型的生死线"用真人盲选立起来:这条又值钱又难作弊——真人抹掉名字,盲选更想用哪个。这是把"现实"放进闭环的第一道针眼。
  6. 重新认领"底座轴":单一底座下"换个模型会不会更好"测不了;这条轴接 FEFM,是必要的、不是可选的。

需求方(比如 FinBayes)的协同方式怎么变

过去的协同是:"产品改个东西 → 发工单 → 评测打一组分 → 产品照着分再改"。这个模式本身就是闭环的病根。新的协同应该是:

  • 判断要"可记账"才接得住评测:FinBayes 发来的判断,最好带明确条件、概率、和"什么算它错了"。模棱两可的判断,评测也只能给模棱两可的结论。 这反过来会推动产品"敢拍"。
  • 评测会主动查"正确的废话":以后报告里会专门有一笔"这条判断可不可证伪"。一直靠对冲拿安全分的路,走不通了。
  • 报告以"病例 + 诊断"打头,不以"分数"打头:先给你看"这条答案为什么差、真人为什么不喜欢、它哪句不可证伪",分数放后面当参考。目标是让产品去改真问题,而不是去把某个数字弄好看。
  • 别再"照着下一个软分造下一个功能":在拿到哪怕一滴闭环外的真实信号(真人盲选 / 校准结算)之前,先别再冲着 AI 打的软分去定制产品。那是最像"照着跑分定制芯片"的动作。

这份文档的状态(诚实说明)

这是一次方向性的反思,不是已经拍板的规范。它指出了现有的方法论与坐标系文档需要往哪改(比如把"奖励对冲"翻成"奖励可证伪"、把软分降级、把三个判官写进打分口径),但那些修改还没做——属于下一步、要走正式评审。在那之前,这份文档作为生态对齐的"我们到底要往哪走"的共识底稿。