场景标签体系（让出题和读结果对齐）

给每道评测题打标签的一套统一维度词表——市场、逻辑类型、用户类型、情绪…… 让"出了哪类题"和"在哪类场景上强/弱"用同一套词对得上号。

为什么需要它

评测要能说出这种结论：

"我们在**『交易决策辅助 × 衍生品』这类场景**上、比未加工的通用大模型还弱。"

要说出这句话，出题时给题打的标签，必须和读结果时切片用的维度是同一套词。这套词表就是这里定义的。两边用词不一致，归因就会对不上。

10 个维度

下表是人读版；机器读的精确取值以同目录的 scenario-ontology.json 为准（两者必须一致）。

维度	取值	说明
任务类型 task_type	explain 解释 / analyze 分析 / compare 比较 / review 复盘 / risk_id 风险识别 / trade_prep 交易准备 / trade_decision_aid 交易决策辅助	用户到底想干什么
市场 market	a_shares A股 / us_equities 美股 / hk_equities 港股 / crypto 加密 / rates 利率 / fx_dollar 汇率 / gold 黄金 / macro_cross_asset 宏观跨市场 / general 通用	问的是哪个市场
逻辑类型 logic_type	macro_liquidity 宏观流动性 / valuation 估值 / risk_appetite 风险偏好 / event_transmission 事件传导 / behavioral_bias 行为偏差 / derivatives_mechanics 衍生品机制	背后是哪种金融逻辑
时序 time_horizon	event_window 事件窗 / weeks 数周 / mid_long_term 中长期 / na 概念题	看多长时间
情绪烈度 emotion_intensity	neutral 中性 / anxious_trapped 焦虑套牢 / fomo_chasing 追高	用户带着什么情绪
复杂度 complexity	intro_concept 入门 / routine_analysis 常规 / professional_theory 职业理论	该用多深的密度回答
会话连续性 session_continuity	one_shot 一次性 / multi_turn 多轮连续	是不是要持续跟踪
用户类型 user_archetype	retail 散户 / macro_allocator 宏观配置者 / risk_manager 风险管理者	谁在问
认知阶段 cognition_chain_stage（可选）	context_positioning 情境定位 / evidence_layering 证据分层 / impact_mapping 影响映射	分析师视角的细分，可不打
尺度 scale（可选）	single_asset 单标的 / macro 宏观 / cross_asset 跨资产	可不打

标记"可选"的两个维度，题可以不打（覆盖报告里显示未标，不算缺陷）。

三条铁规则

题不能反过来定义产品该做什么，也不能被硬塞进产品的路由提示词。
被测产品用这套标签，不是反过来：任务类型的七个值，是从第一个被测产品 FinBayes 的任务划分借来做种子的；产品按这套标签出题、读结果。随着更多产品接入，这套词表会泛化得更通用。它是引擎自己的词表，不从属于任何单一产品。
改维度 / 改取值要走评审，两边不许各自偷改——词表一漂移，归因就失真。

覆盖度：题库覆盖全了没

这套词表还用来给题库"体检"：对一批打了标签的题，按每个维度算——

覆盖率 = 有题命中的取值数 ÷ 全部声明的取值数；
缺口 = 声明了、但一道题都没命中的取值（= 这类场景没样本，归因会落空）。

缺口决定"下一批补哪些题"——把固定题集变成"按缺口补题"的活题库。

"覆盖率 100%"指的是实现仓的全量评测集（含回归题 + 验收题）——算覆盖率的工具和结果都在实现仓，本知识库不放（要复核就去实现仓看覆盖报告）。本知识库里现存的 11 条示例题，标签已迁到这套词表的 slug（见题库）。

机器可读版

同目录 scenario-ontology.json 是这张词表的机器可读版（给工具读），和本文必须一致、改动同步。

为什么需要它​

10 个维度​

三条铁规则​

覆盖度：题库覆盖全了没​

机器可读版​

为什么需要它

10 个维度

三条铁规则

覆盖度：题库覆盖全了没

机器可读版