能力坐标（一尾 · 读结果）

引擎的出料口，和一头·题库对应。题库供题，这里给结论：一次输出落在"底线 × 及格线"平面一个点，并告诉你有没有存在意义、有没有竞争力、该补哪块。

本文只讲"结果怎么读、标准在哪"。每次评测跑完的具体报告是活体产物，交到发起方产品团队的仓库，不放这里。 看不懂的词查术语对照。

两根坐标轴（一句话）

轴	量什么	判据
底线（纵轴：存在意义）	你的产品比"未加工的通用大模型"强多少（按维度看，不是一个总分）	用户在意的维度普遍不强 → 没有存在意义
及格线（横轴：竞争力）	你的产品比竞品强多少（分三层看、两种条件比）	不如竞品 → 这赛道没竞争力

一次输出 = 平面上一个点。产品进化 = 这个点持续往右上角移动。 双轴的定义、怎么测、怎么打分、和战略怎么对应——展开在方法论，这里不重复。

及格线为什么要"分三层、两种条件"：只比最后那段文字会误判。三层 = 处理机制（多轮记忆/取数/个性化）、处理能力、输出质量；两种条件 = 竞品降到同条件同台对比（相同条件）和竞品保持真实形态（用户实际会遇到的样子）。

怎么从坐标读出"往哪补"

结果不是给个分，而是给方向：

样本量护栏：场景级的结论要有足够样本量 + 置信区间才能下；十来条的小样本只够"举例观察 / 提假设"，不足以断言"这类场景就是弱"。

一种特殊结果 · 被测系统根本跑不出结果

有时被测系统不是"答得弱"，而是在产出之前就崩了——解析回归、数据格式契约不一致、超时。这时它零输出，底线/及格线/任何坐标都无从测量。

这是一类一等公民结果，不是评测失败，叫 blocked-by-SUT-failure（被回归/故障阻断）：

处理约定：

先冒烟、再整轮：整轮 live 之前先用 1–2 题试跑被测系统，全崩就早停，别浪费整轮（这是一次真实教训的固化）。
blocked 报告不写坐标点：避免把"零输出"混进纵向坐标序列污染趋势；只给根因、归属层（认知核 / 表达 / 渲染）、修复建议、复跑触发条件。
修复后复跑补点：被测系统修好，用同一批题复跑，纵向可比。

用什么尺子打分（两层，分清谁的事）

打分分两层，引擎只拥有上面一层：

相对层（引擎自己的方法）：底线净增量、及格线相对位，给一条输出打 产品意图 P + 用户角度 U 的分。其中 U 拆三个子维——可信 / 可操作（边界内）/ 可复盘，分开各对裸底座记一笔（用单一 U 标量会奖励"稀释 P 换好读"）。并对 P 设下限（P-floor）：U 抬升但 P 跌破基线 = 判不通过、红旗（"受约束的 U 优化"）。这是引擎核心方法，定义在方法论。
绝对层（被测产品自己的事）：单条输出本身好不好——总评级、各打分维度等。这套细则由被测产品自己定义、放在它自己的工程仓；引擎测它时调用一下，但外部读者不需要懂这层（细则代号见术语对照）。

专门单看一维 · 对话主动性：碰到信息故意不全的题（如"我是不是该清仓？"没说持仓/期限/目标），看系统是被动脑补假设硬给结论，还是主动点出缺什么、反问最关键的几样、先给条件框架托着。被动系统平时分不低、一遇真实残缺提问就露馅，所以单记一笔，并配专门的"主动追问"对抗题。详见方法论 · 对话主动性。

结果存哪 · 怎么通知发起方

坐标报告交到发起评测的产品团队仓库：<产品仓库>/evaluation/coordinate-reports/<日期-名称>/。
实现仓（工程仓 FinTecEval）只留原始跑测数据和历史坐标账本，不留成品报告。
通知：在产品团队仓库里回填那张需求工单（标"已交付" + 报告路径），对方下次读工单就看到。

和一头怎么对齐

题的场景标签，和这里切片用的维度是同一套词（见场景标签体系）——这是"在哪类场景强弱"能说得出口的前提。出题按"覆盖度"迭代、读结果按"测量精度"迭代，两边节奏不同、各自演进，靠这套共用标签对齐。

两根坐标轴（一句话）​

怎么从坐标读出"往哪补"​

一种特殊结果 · 被测系统根本跑不出结果​

用什么尺子打分（两层，分清谁的事）​

结果存哪 · 怎么通知发起方​

和一头怎么对齐​