跳到主要内容

场景标签体系(让出题和读结果对齐)

给每道评测题打标签的一套统一维度词表——市场、逻辑类型、用户类型、情绪…… 让"出了哪类题"和"在哪类场景上强/弱"用同一套词对得上号。

为什么需要它

评测要能说出这种结论:

"我们在**『交易决策辅助 × 衍生品』这类场景**上、比未加工的通用大模型还弱。"

要说出这句话,出题时给题打的标签,必须和读结果时切片用的维度是同一套词。这套词表就是这里定义的。两边用词不一致,归因就会对不上。

10 个维度

下表是人读版;机器读的精确取值以同目录的 scenario-ontology.json 为准(两者必须一致)。

维度取值说明
任务类型 task_typeexplain 解释 / analyze 分析 / compare 比较 / review 复盘 / risk_id 风险识别 / trade_prep 交易准备 / trade_decision_aid 交易决策辅助用户到底想干什么
市场 marketa_shares A股 / us_equities 美股 / hk_equities 港股 / crypto 加密 / rates 利率 / fx_dollar 汇率 / gold 黄金 / macro_cross_asset 宏观跨市场 / general 通用问的是哪个市场
逻辑类型 logic_typemacro_liquidity 宏观流动性 / valuation 估值 / risk_appetite 风险偏好 / event_transmission 事件传导 / behavioral_bias 行为偏差 / derivatives_mechanics 衍生品机制背后是哪种金融逻辑
时序 time_horizonevent_window 事件窗 / weeks 数周 / mid_long_term 中长期 / na 概念题看多长时间
情绪烈度 emotion_intensityneutral 中性 / anxious_trapped 焦虑套牢 / fomo_chasing 追高用户带着什么情绪
复杂度 complexityintro_concept 入门 / routine_analysis 常规 / professional_theory 职业理论该用多深的密度回答
会话连续性 session_continuityone_shot 一次性 / multi_turn 多轮连续是不是要持续跟踪
用户类型 user_archetyperetail 散户 / macro_allocator 宏观配置者 / risk_manager 风险管理者谁在问
认知阶段 cognition_chain_stage(可选)context_positioning 情境定位 / evidence_layering 证据分层 / impact_mapping 影响映射分析师视角的细分,可不打
尺度 scale(可选)single_asset 单标的 / macro 宏观 / cross_asset 跨资产可不打

标记"可选"的两个维度,题可以不打(覆盖报告里显示未标,不算缺陷)。

三条铁规则

  1. 题不能反过来定义产品该做什么,也不能被硬塞进产品的路由提示词。
  2. 被测产品用这套标签,不是反过来:任务类型的七个值,是从第一个被测产品 FinBayes 的任务划分借来做种子的;产品按这套标签出题、读结果。随着更多产品接入,这套词表会泛化得更通用。它是引擎自己的词表,不从属于任何单一产品。
  3. 改维度 / 改取值要走评审,两边不许各自偷改——词表一漂移,归因就失真。

覆盖度:题库覆盖全了没

这套词表还用来给题库"体检":对一批打了标签的题,按每个维度算——

  • 覆盖率 = 有题命中的取值数 ÷ 全部声明的取值数;
  • 缺口 = 声明了、但一道题都没命中的取值(= 这类场景没样本,归因会落空)。

缺口决定"下一批补哪些题"——把固定题集变成"按缺口补题"的活题库。

"覆盖率 100%"指的是实现仓的全量评测集(含回归题 + 验收题)——算覆盖率的工具和结果都在实现仓,本知识库不放(要复核就去实现仓看覆盖报告)。本知识库里现存的 11 条示例题,标签已迁到这套词表的 slug(见 题库)。

机器可读版

同目录 scenario-ontology.json 是这张词表的机器可读版(给工具读),和本文必须一致、改动同步。