总蓝图（全貌一份讲全）

想先建立全局就读这一篇：引擎为什么这么设计、由哪些部分组成、怎么测、怎么打分、怎么读结果、现在做到哪一步。各部分的深挖在专文里（已标链接）。看不懂的词查术语对照。

这是什么

FinTecEval 是一套公共的、可复用的金融 AI 产品测量工具（提供方），给各类金融认知/问答/助手产品（使用方，FinBayes 是第一个）用来回答："我的产品比未加工的通用大模型强吗、比竞品强吗、哪类场景强弱、该补哪里"。它只测量与复盘，不替任何产品做决策。

传统评测给一个"过/不过"的关卡。这套引擎的关键升级：把它做成一张贯穿落地→迭代→持续进化的能力坐标系。一次输出落在"底线 × 及格线"平面一个点——坐标比"过不过"信息量大得多：它告诉你往哪个方向、补哪一块。进化 = 这个点持续往右上角移动。

中间是黑箱：引擎不关心被测产品内部怎么实现（Agent 工程、底座模型、路由、画像……都行），只看"喂进什么题、吐出什么答"。换一个产品、换一个竞品、换一个底座模型，引擎不变。FinBayes 只是第一个被装进这个黑箱的产品。

打分分两层，引擎只拥有上面那层：

一个待解决的技术点：未加工的大模型和竞品不会吐出和你产品一样的结构化字段，有些维度它们根本不可观测。所以相对层需要一层"能比的才比"规则——不可观测的维度标记为"不可观测"而不是打 0 分，相减只在"双方都可观测"的维度上做。这条在跑测工具里落地。

三方：你的产品（完整链路）/ 竞品（可降级）/ 未加工通用大模型（只把用户问题当输入、无任何脚手架）。
三种模式（每次必标）：回归模式（固定输入输出，验工程稳定）/ 降级对照（竞品降到同基准，比相同条件）/ 满血模式（各自真实形态，比不同条件）。
竞品无损降级是硬约束：必须字节级无损恢复竞品配置、绝不污染用户真实工作区（用临时空工作区、每题独立会话）。
计量口径：用量一律按"输入+输出"算（网关偶发返回异常总量，弃用）；耗时算整条链路。
越界检测：扫每方输出有没有给仓位比例/买卖指令/目标价/保证收益/无依据硬给评级。
至少两人独立复评，降低单人偏差，并定期用一组已知坐标的题校准复评者、防打分漂移。

坐标 + 问题分析 → 三条回馈路径：① 喂回产品迭代（按问题属于哪一层：表达/守纪律/处理机制/认知内核）② 喂回题库（补覆盖缺口）③ 喂回底座选型。产品团队和评测会话通过"需求工单 ↔ 坐标报告"异步协作，模板与状态流转见怎么用这个引擎。

这是设计 + 已跑通的部分，不是全自动成品。一张表说清：

首次真实评测（FinBayes vs 降级竞品 vs 未加工 gpt-5.5，10 题）的坐标结论，是"小样本、单后端、早期阶段"的快照，不是稳态判定。