怎么让评测不变成"跑分游戏"

这份文档不是方法、不是规范，是一次诚实的反思：我们在用 FinTecEval 测 FinBayes 的过程中，差点把它做成一套"自己出题、自己打分、再拿这个分去指挥产品"的闭环——而那条路的终点，就是大家都怕的"benchmark 跑分很漂亮、真用起来很差"。

这里把那次讨论的问题、结论、和它对整个生态意味着什么，沉淀下来，给所有跟 FinTecEval 直接或间接相关的人和 Agent 对齐。看不懂的词查术语对照。

起点：一个让人睡不着的担心

担心是这样一句话：

我们是不是在围绕一套并不权威、并不真实的"标准"和打分做评测，然后这个分反过来去影响 FinBayes 的工程方向，最后做出一个**"跑分吊炸天、一用屎一坨"**的东西？

这个担心不是杞人忧天。把它摊开，发现我们确实有一只脚踏进了坑里。

我们到底哪儿做得不对

1. 反馈环是"闭"的，从头到尾没碰过闭环之外的东西。 实际发生的事情是：评测测出"用户读着不够好" → 产品就专门做个功能去把这个分拉上去 → 再测，分上去了，大家都觉得进步了。连续两个产品功能，是直接冲着评测给的分去造的。如果分是歪的，产品就被精准地带歪了。 而这一整圈里，没有任何一环碰到过真实用户、真实结果、或一个不参与出题打分的行家。一个只跟自己较劲的闭环，优化到最后，必然是"跑分涨、体验未必涨"。

2. 最关键的那几个分，是两个 AI 在打。 "可信不可信、读着顺不顺、能不能上手"——这些全是品味，不是真理，而且全是 AI（评测会话 + 一个独立 AI 复核）对着一套也是 AI 写的标准在打。两个 AI 意见一致 ≠ 它俩对。没有任何真实用户或金融专家校准过这套标准。

3. 那些精确的小数（+0.92、−0.23）是被夸大的精确感。 它们其实是十几道题、1 到 5 分的整数判断、取的平均。方向可信（强还是弱），但小数点后那一位基本是噪音。把它当体温计量出来的数那样去报，是一种虚假精确。

4. 最扎心的：我们的打分一直在奖励"正确的废话"。 评测一直给"守边界、不给数字、主动追问、条件化判断"高分。这些东西推到极致，就是一个"滴水不漏、但因此也无法被验证"的'永赚金融专家'——说的全对，但什么都没押、什么都验不了。 我们的标准，一直在悄悄把产品往这个方向带。这恰恰是要警惕的反面。

但也别全盘否定——分清"实的"和"虚的"

不是所有结论都一样虚，有粗细之分：

相对实、可以信的：题库里每道题真有内部标准（一份好答案该覆盖什么、怎么算过）；场景没有盲区（每类市场/情绪/任务至少有题）；"防作弊题"是真的、还真抓到过产品"背答案"；还有一部分结论是机器判的硬事实——产品崩没崩、有没有越界给假仓位、内部计算真跑了没有。这些不靠品味，是黑白分明的。
虚的、要当心的：上面那四条问题，集中在"软分"——可信/可读/可操作那一类 AI 打的分。越是最近几轮在猛追的，越是这一类。

破局的关键：金融不是"没有判官"，是有三个判官

最初我以为金融认知"没有老天爷当场判好坏"。这句话错了。金融有三个判官，住在不同的时间里、可靠度差很远：

判官一·事实（当场判）：实时价格、已发的财报数字、CPI 公布值、某条历史规律真假、某个机制成不成立——现在、立刻、客观可查。这是金融版的"编译/单元测试"，是最硬的闸门：文笔再漂亮，事实错了直接判挂。但要记住——事实对 ≠ 答案好（挑着对自己有利的事实说，照样是坏建议）。所以它是"必须过的门"，不是"好坏的尺子"。

判官二·校准（后验，要量要时间）：这是最像 SWE-bench 的那个判官，但有一个反直觉、必须钉死的点——

单独一条概率预测，哪怕事后也验不了。 说"60% 概率反弹"结果崩了，它没错——60% 和那 40% 发生完全不矛盾。

能验的是很多条预测的"校准度"：你说了 100 次"60%"，最后大约 60 次真发生，你就准。这正是天气预报、超级预测者、预测市场打分的办法。而这要求被测的东西"敢拍、可记账"——每条判断带明确条件、概率、和"什么算它错了"。它的坑也全是"跑分一用屎一坨"的亲戚：要量要时间；得额外奖励"敢拍且拍对"（永远说"50%"的人校准完美却没用）；条件必须事先钉死"算触发"的标准；拿历史回测做奖励会把历史里的巧合当规律学走，回测惊艳、真上场就死（量化界踩了四十年）；"赚没赚到钱"当奖励是有毒的——它会教模型去赌"平时稳赚、偶尔爆死"的策略，而在爆死之前跑分一路吊炸天。

判官三·真人（逃不掉的那层）：前两个判官都不测"它有没有真帮到这个人想清楚"。这层只能真人判——但真人也不是客观真理：每个人有自己的偏好、认知边界、提问角度，几个真人的问题凑不出金融场景的全貌。所以真人负责真实（题真不真、好不好真）、场景网格负责完整（别漏了利率/港股/套牢），两个拼起来，谁也替不了谁。

"好答案"到底是什么——由产品的身份定义

绕了一圈，"好答案"这个问题的答案，其实在"FinBayes 想成为谁"里：

FinBayes 要做的，是一个站在 AI 能力底座上、内核是金融认知 + Agent 编排、基于客观事实与证据、敢拍、可以被记账算账、错了认账、并能随市场和错误持续自我进化的金融 Agent——而不是一个滴水不漏、说着一堆"正确的废话"、永远无法被验证的"永赚专家"。

这个选择很关键：它恰好选中了唯一"测得了"的那个 FinBayes。 一个敢拍、错了认账的东西，校准账本才有的可记；一个"正确废话永赚专家"，无法证伪，也就无法改进。产品身份和评测架构，是同一个决定的两面。

但选它不是免费的，有三条锋利的边，所有相关方都得看清：

"敢拍"和"守边界"不矛盾，但要把线划清：边界是关于动作的（不替用户按下单键、不替他梭哈）；拍，是关于认知的（敢给一个可被证伪的判断 + 概率 + "什么算我错"）。它可以对世界的判断敢拍，同时不碰执行键。过去评测把这俩糊在一起、用"对冲"冒充"安全"——以后要分开。
"自我进化"靠什么喂，是生死线：从错误里学，必须烧"我的概率校准了没有、推理链成不成立"，绝不能烧"这一把赚没赚到钱"——后者就是开进压路机。
"敢拍"没有"记账算账"兜着，就是另一种灾难：一个敢拍但从不校准的东西，是个自信满满还老错的算命先生，比模棱两可更毒。"敢拍"和"可被记账、错了认账"必须一起出厂。

这对生态各方意味着什么

整个生态恰好各对应这套架构的一块。每一方该对齐的、该调整的：

生态对象	它是什么	这套反思对它的启发 / 该做的调整
Data Horizon（上游感知）	喂数据/证据的源	它是判官一·事实的供血。事实校验有多硬，取决于 DH 的数据有多准、多实时、多可溯源。FinBayes 的每条"有根判断"最终要能追溯到 DH 的证据。启发：把"可被引用、可被追溯"作为感知层的一等目标。
FinBayes（认知）	被测、要进化的那个	核心调整对象。从"答得滴水不漏"转向"敢拍、可记账、错了认账"；把每条带概率的判断做成可证伪的（带条件、概率、失效信号）。详见下一节"协同方式怎么变"。
AI Trading Matrix（下游执行）	真正按下单键的那层	它正是"守边界"里那个动作侧——FinBayes 敢拍认知、TM 在授权下执行。启发：TM 的真实成交与结果，是判官二·校准最宝贵的后验数据；但也要警惕——别让"这笔赚没赚到"直接回流成产品奖励（那是有毒的）。
RLE（强化学习反馈环）	把群体反馈汇成学习样本	这套反思最该警示的就是 RLE。它要把"实盘判断与结果反馈"做成迭代样本——但奖励信号必须是"校准度 + 推理质量"，不能是"赚没赚到钱"，否则会把 FinBayes 训成那台定时炸弹。好消息：FinBayes "敢拍 + 可记账"的身份，恰好让 RLE 的样本变得可学——一条可证伪的判断是一个干净样本，一句对冲废话是个学不了的样本。
FEFM（金融专家底座模型）	模型底座	对应"随 AI 底座进化"那条轴。但战略上 FEFM 是放大器、不是基础——所以评测必须能把"认知体系的价值"和"底座模型的价值"分开测。FinTecEval 的"底线轴（对比未加工通用大模型）"干的正是这件事：证明认知体系本身有没有增量，而不是赌某天有个金融大模型出现。启发：FEFM 就绪后，评测要做跨底座对比，量"换底座到底带来多少"。

FinTecEval 自己该怎么调、怎么迭代

一句话：从"一套自己打的软分"，重做成"一个敢拍 Agent 的问责账本"。 具体：

建起一直缺的"硬层"：把"事实校验"（数字/财报/规律真假）、"自洽校验"（结论跟它摆的证据搭不搭、概率自不自洽）做成机器能查的闸门。这层天生防作弊。
建"校准账本"：拿 FinBayes 的判断记录，把每条带概率的判断长期结算，看它认知到底准不准、敢不敢拍。这是金融能有的、最接近老天爷的判官——但要量、要时间、要钉死条件、要奖励区分度、绝不用短期收益做奖励。
加一个"反正确废话"检查：每条判断够不够具体到能被判错？躲在"这要看情况、需持续观察"里的，扣分。这一项直接打"正确的废话"，而且它把过去那套"奖励对冲"的旧标准翻了过来。
把精确的多维软分降级：别再拿它当方向盘，最多留作粗糙的趋势温度计。给人和 Agent 指方向，靠"病例"不靠"分数"——一条真实答案 + 一个真人的真实反应，比任何分都难作弊、也更能说清该改哪。
把"对裸模型的生死线"用真人盲选立起来：这条又值钱又难作弊——真人抹掉名字，盲选更想用哪个。这是把"现实"放进闭环的第一道针眼。
重新认领"底座轴"：单一底座下"换个模型会不会更好"测不了；这条轴接 FEFM，是必要的、不是可选的。

需求方（比如 FinBayes）的协同方式怎么变

过去的协同是："产品改个东西 → 发工单 → 评测打一组分 → 产品照着分再改"。这个模式本身就是闭环的病根。新的协同应该是：

判断要"可记账"才接得住评测：FinBayes 发来的判断，最好带明确条件、概率、和"什么算它错了"。模棱两可的判断，评测也只能给模棱两可的结论。 这反过来会推动产品"敢拍"。
评测会主动查"正确的废话"：以后报告里会专门有一笔"这条判断可不可证伪"。一直靠对冲拿安全分的路，走不通了。
报告以"病例 + 诊断"打头，不以"分数"打头：先给你看"这条答案为什么差、真人为什么不喜欢、它哪句不可证伪"，分数放后面当参考。目标是让产品去改真问题，而不是去把某个数字弄好看。
别再"照着下一个软分造下一个功能"：在拿到哪怕一滴闭环外的真实信号（真人盲选 / 校准结算）之前，先别再冲着 AI 打的软分去定制产品。那是最像"照着跑分定制芯片"的动作。

这份文档的状态（诚实说明）

这是一次方向性的反思，不是已经拍板的规范。它指出了现有的方法论与坐标系文档需要往哪改（比如把"奖励对冲"翻成"奖励可证伪"、把软分降级、把三个判官写进打分口径），但那些修改还没做——属于下一步、要走正式评审。在那之前，这份文档作为生态对齐的"我们到底要往哪走"的共识底稿。

起点：一个让人睡不着的担心​

我们到底哪儿做得不对​

但也别全盘否定——分清"实的"和"虚的"​

破局的关键：金融不是"没有判官"，是有三个判官​

"好答案"到底是什么——由产品的身份定义​

这对生态各方意味着什么​

FinTecEval 自己该怎么调、怎么迭代​

需求方（比如 FinBayes）的协同方式怎么变​

这份文档的状态（诚实说明）​