FinClaw 结构化评测用例

状态：草案 / 第一版产品形态结构化用例第一批最后更新：2026-05-13

本目录存放 FinClaw 体系的机器可读评测用例文件。

当前权威解释层仍是 ../case-library.md；本目录中的 YAML 文件是从 FinClaw 战略白皮书、产品定义、第一阶段产品定义和 packets/sync/finclaw-evaluation-to-product-translation-batch-1-2026-05-12.md 下推出来的第一批结构化评测用例。

2026-05-13 后，线程生命周期、金融认知顾问输出契约和风险责任边界的结构化字段以 ../case-schema.md 为承接层；不要在本目录重新定义一套并列产品口径。

第一批范围

本批覆盖 FinClaw 第一版产品形态中最关键的认知对象和体验路径。它不是“最小实现”用例集，也不是概念验证用例集；目标是支撑第一版完整产品形态的设计、评测和后续验收。

本批暂不覆盖全量通用用例矩阵，也不把参考项目能力反向写成 FinClaw 产品承诺。

本批默认目标用户不是所有金融用户，而是：

有真实金融关注对象、会持续观察市场、但缺少稳定认知体系的个人金融参与者。

因此，用例重点不是测试“能否回答金融问题”，而是测试系统能否把过载金融信息、用户关注对象、风险、争议、未知、观察问题和执行前认知检查点组织成可复查、可更新、可持续维护的认知结构。

对象层级评测原则

第一版评测应以市场认知快照和市场认知线程为中心。其他内容按以下层级记录：

层级	内容	评测口径
主对象	市场认知快照、市场认知线程	必须能保存、复查、引用、更新或导出。
边界对象	执行前认知检查点	必须收束行动语言，不能变成执行指令。
驱动字段	观察问题、刷新条件、失效条件	必须推动线程刷新和复盘。
质量字段	证据项、数据质量说明、来源限制、置信边界	必须嵌入正式认知输出。
中间材料	金融认知顾问输出、技能调用结果、反方挑战过程	可追溯，但不作为用户主消费对象评分。
呈现形态	报告、简报、网页报告、聊天摘要、外部渠道消息	只评价其是否正确呈现快照或线程。

场景路径评测原则

第一版用例应区分主路径、辅助路径和后置路径。

路径	场景	评测口径
主路径	市场认知快照、市场认知线程、风险与反方挑战、策略假设 / 执行前认知检查点	必须能形成“理解当前状态 -> 建立持续线程 -> 挑战主判断 -> 形成执行前认知边界”的闭环。
辅助路径	新闻 / 事件解读、宏观 / 板块背景、机会发现、每日 / 每周刷新、报告 / 简报	必须服务主对象和主路径，不独立定义产品本体。
后置路径	全市场扫描器、自动交易信号发现、组合优化、回测系统、机构级投研流程、大规模技能市场、多人协作审计流	第一阶段不作为验收主目标。

三层评测原则

本目录的用例不以“调用了多少金融技能”或“出现了多少金融认知顾问”为主要评价标准。评测重点是三层能力是否共同服务用户认知状态：

金融技能层是否提供了清晰、可复查、可复用的认知原子能力；
金融认知顾问层是否给出了必要的专业视角、分歧、反证和证据边界；
金融 Claw 产品层是否把用户问题、顾问协作、证据检查、输出对象和市场认知线程组织成连续体验。

如果某个用例涉及金融认知顾问，应记录使用了哪些认知视角、为什么需要这些视角、是否存在分歧、证据边界如何表达，以及输出如何更新市场认知线程。

交互形态评测原则

第一版用例应同时覆盖自然语言进入和结构化对象沉淀。评测不应只看系统能否在聊天中回答，也不应只看表单字段是否完整，而应检查：

用户是否可以用真实、口语、模糊或追问式语言进入；
系统是否能把自然语言转译为明确的认知任务；
必要追问是否足够少且足够关键；
输出是否落到市场认知快照、市场认知线程、证据边界、观察问题或执行前认知检查点；
若结果通过外部聊天渠道触达，是否仍能回到权威认知对象层复查和更新。

模型策略评测原则

评测用例应记录测试时使用的模型模式。正式评测默认使用平台认证模型；若使用用户自带模型或替代模型，应显式标注模型来源、能力限制、成本 / 耗时信息和输出质量差异。

对正式市场认知快照、市场认知线程更新、深度研究、策略假设和执行前认知检查点等任务，不应把未认证模型输出直接计为同等质量结果。若自带模型结果需要进入权威认知对象，应经过平台认证模型复核或质量检查。

训练资产评测原则

评测运行结果可以成为未来金融专家模型的训练资产候选，但不能默认进入训练集。每条候选样本至少应能追踪：用户授权状态、匿名化 / 去标识化状态、敏感信息过滤状态、产品记忆与训练数据区分、个人域数据与可聚合学习数据区分、失败案例类型和人工复核状态。

第一阶段评测的重点是形成高质量、可复查的金融认知样本和失败案例库，而不是证明自有大模型已经成熟。

用户画像与敏感信息评测原则

评测用例应覆盖用户主动提供敏感信息的处理。系统应区分普通偏好、金融认知上下文、敏感个人 / 财务信息、账户 / 权限信息、凭证 / 私钥类高危信息。

非凭证类金融上下文可临时用于当前认知任务，但默认不保存；保存到画像、线程或长期记忆前必须确认。凭证、私钥、账户权限类信息应拒收、屏蔽、不得保存、不得训练、不得回显。

商业模式评测原则

评测用例可记录潜在商业层级，但不直接定义价格。建议记录该用例更接近免费试用、标准订阅、深度研究、正式报告、高频刷新、外部渠道通知、自带模型平台服务或隐私优先模式。

商业评测重点不是估算单次模型成本，而是判断用户是否获得了可感知的金融认知服务价值，以及该价值是否适合作为后续收费点。

文件	产品对象	优先级	场景
`crypto-asset-snapshot-colloquial.yaml`	市场认知快照 / 证据有界认知输出	第一优先级	口语化加密资产认知快照
`crypto-event-narrative-understanding.yaml`	市场认知快照 / 证据有界认知输出	第一优先级	加密事件 / 叙事理解
`crypto-thesis-risk-controversy.yaml`	市场认知快照 / 证据有界认知输出	第一优先级	用户投资逻辑的风险与反方挑战
`snapshot-to-watch-questions.yaml`	市场认知线程 / 观察问题	第二优先级	从单次快照延展为可复盘的市场认知线程
`strategy-hypothesis-pre-execution-checkpoint.yaml`	认知阶段策略输出 / 执行前认知检查点	第二优先级	条件化策略假设与执行前认知检查点
`evidence-degradation-source-uncertainty.yaml`	带试运行“证据项 / 数据质量说明”字段的证据有界认知输出	第一优先级质量项	证据降级与来源不确定性处理

试运行字段决策

“证据项”和“数据质量说明”当前只作为“证据有界认知输出”下的结构化字段试运行，不升级为第一阶段产品定义中的正式产品对象。

采用这个口径的原因：

正式对象仍以 projects/finclaw/mvp-product-definition.md 作为当前文件入口；
这两个字段解决的是证据与数据质量表达问题，先通过评测用例和运行结果验证稳定性；
若第一轮实际评测证明它们是稳定的一等对象，再回写产品定义；
在此之前，不应让评测字段反向扩大 FinClaw 第一版产品承诺。

使用规则

产品基准来自 projects/finclaw/strategic-whitepaper.md、projects/finclaw/product-definition.md 和 projects/finclaw/mvp-product-definition.md。
线程生命周期、金融认知顾问职责与输出契约以 projects/finclaw/design/foundation/product-object-and-advisor-design.md 为准。
参考项目评测只作为经验校验和用例设计参考，不直接定义 FinClaw 产品边界。
每个用例应记录产品对象、优先级、提问风格、预期输出、证据要求、数据质量要求、顾问契约要求、线程生命周期要求和动作状态边界。
后续运行结果应写入 ../runs/，不反向修改用例定义。
若某个用例后续被证明可跨项目复用，先在对应项目命名空间验证，再考虑上移到 ../../shared/。

第一批范围​

对象层级评测原则​

场景路径评测原则​

三层评测原则​

交互形态评测原则​

模型策略评测原则​

训练资产评测原则​

用户画像与敏感信息评测原则​

商业模式评测原则​

试运行字段决策​

使用规则​