跳到主要内容

能力坐标(一尾 · 读结果)

引擎的出料口,和一头·题库对应。题库供题,这里给结论:一次输出落在"底线 × 及格线"平面一个点,并告诉你有没有存在意义、有没有竞争力、该补哪块

本文只讲"结果怎么读、标准在哪"。每次评测跑完的具体报告是活体产物,交到发起方产品团队的仓库,不放这里。 看不懂的词查 术语对照

两根坐标轴(一句话)

量什么判据
底线(纵轴:存在意义)你的产品比"未加工的通用大模型"强多少(按维度看,不是一个总分)用户在意的维度普遍不强 → 没有存在意义
及格线(横轴:竞争力)你的产品比竞品强多少(分三层看、两种条件比)不如竞品 → 这赛道没竞争力

一次输出 = 平面上一个点。产品进化 = 这个点持续往右上角移动。 双轴的定义、怎么测、怎么打分、和战略怎么对应——展开在 方法论,这里不重复。

及格线为什么要"分三层、两种条件":只比最后那段文字会误判。三层 = 处理机制(多轮记忆/取数/个性化)、处理能力、输出质量;两种条件 = 竞品降到同条件同台对比(相同条件)和竞品保持真实形态(用户实际会遇到的样子)。

怎么从坐标读出"往哪补"

结果不是给个分,而是给方向:

样本量护栏:场景级的结论要有足够样本量 + 置信区间才能下;十来条的小样本只够"举例观察 / 提假设",不足以断言"这类场景就是弱"。

一种特殊结果 · 被测系统根本跑不出结果

有时被测系统不是"答得弱",而是在产出之前就崩了——解析回归、数据格式契约不一致、超时。这时它零输出,底线/及格线/任何坐标都无从测量

这是一类一等公民结果,不是评测失败,叫 blocked-by-SUT-failure(被回归/故障阻断)

处理约定:

  • 先冒烟、再整轮:整轮 live 之前先用 1–2 题试跑被测系统,全崩就早停,别浪费整轮(这是一次真实教训的固化)。
  • blocked 报告不写坐标点:避免把"零输出"混进纵向坐标序列污染趋势;只给根因、归属层(认知核 / 表达 / 渲染)、修复建议、复跑触发条件。
  • 修复后复跑补点:被测系统修好,用同一批题复跑,纵向可比。

用什么尺子打分(两层,分清谁的事)

打分分两层,引擎只拥有上面一层:

  • 相对层(引擎自己的方法):底线净增量、及格线相对位,给一条输出打 产品意图 P + 用户角度 U 的分。其中 U 拆三个子维——可信 / 可操作(边界内)/ 可复盘,分开各对裸底座记一笔(用单一 U 标量会奖励"稀释 P 换好读")。并对 P 设下限(P-floor):U 抬升但 P 跌破基线 = 判不通过、红旗("受约束的 U 优化")。这是引擎核心方法,定义在 方法论
  • 绝对层(被测产品自己的事):单条输出本身好不好——总评级、各打分维度等。这套细则由被测产品自己定义、放在它自己的工程仓;引擎测它时调用一下,但外部读者不需要懂这层(细则代号见 术语对照)。

专门单看一维 · 对话主动性:碰到信息故意不全的题(如"我是不是该清仓?"没说持仓/期限/目标),看系统是被动脑补假设硬给结论,还是主动点出缺什么、反问最关键的几样、先给条件框架托着。被动系统平时分不低、一遇真实残缺提问就露馅,所以单记一笔,并配专门的"主动追问"对抗题。详见 方法论 · 对话主动性

结果存哪 · 怎么通知发起方

  • 坐标报告交到发起评测的产品团队仓库<产品仓库>/evaluation/coordinate-reports/<日期-名称>/
  • 实现仓(工程仓 FinTecEval)只留原始跑测数据历史坐标账本,不留成品报告。
  • 通知:在产品团队仓库里回填那张需求工单(标"已交付" + 报告路径),对方下次读工单就看到。

和一头怎么对齐

题的场景标签,和这里切片用的维度是同一套词(见 场景标签体系)——这是"在哪类场景强弱"能说得出口的前提。出题按"覆盖度"迭代、读结果按"测量精度"迭代,两边节奏不同、各自演进,靠这套共用标签对齐。