跳到主要内容

FinClaw 结构化评测用例

状态:草案 / 第一版产品形态结构化用例第一批 最后更新:2026-05-13

本目录存放 FinClaw 体系的机器可读评测用例文件。

当前权威解释层仍是 ../case-library.md;本目录中的 YAML 文件是从 FinClaw 战略白皮书产品定义第一阶段产品定义packets/sync/finclaw-evaluation-to-product-translation-batch-1-2026-05-12.md 下推出来的第一批结构化评测用例。

2026-05-13 后,线程生命周期、金融认知顾问输出契约和风险责任边界的结构化字段以 ../case-schema.md 为承接层;不要在本目录重新定义一套并列产品口径。

第一批范围

本批覆盖 FinClaw 第一版产品形态中最关键的认知对象和体验路径。它不是“最小实现”用例集,也不是概念验证用例集;目标是支撑第一版完整产品形态的设计、评测和后续验收。

本批暂不覆盖全量通用用例矩阵,也不把参考项目能力反向写成 FinClaw 产品承诺。

本批默认目标用户不是所有金融用户,而是:

有真实金融关注对象、会持续观察市场、但缺少稳定认知体系的个人金融参与者。

因此,用例重点不是测试“能否回答金融问题”,而是测试系统能否把过载金融信息、用户关注对象、风险、争议、未知、观察问题和执行前认知检查点组织成可复查、可更新、可持续维护的认知结构。

对象层级评测原则

第一版评测应以市场认知快照和市场认知线程为中心。其他内容按以下层级记录:

层级内容评测口径
主对象市场认知快照、市场认知线程必须能保存、复查、引用、更新或导出。
边界对象执行前认知检查点必须收束行动语言,不能变成执行指令。
驱动字段观察问题、刷新条件、失效条件必须推动线程刷新和复盘。
质量字段证据项、数据质量说明、来源限制、置信边界必须嵌入正式认知输出。
中间材料金融认知顾问输出、技能调用结果、反方挑战过程可追溯,但不作为用户主消费对象评分。
呈现形态报告、简报、网页报告、聊天摘要、外部渠道消息只评价其是否正确呈现快照或线程。

场景路径评测原则

第一版用例应区分主路径、辅助路径和后置路径。

路径场景评测口径
主路径市场认知快照、市场认知线程、风险与反方挑战、策略假设 / 执行前认知检查点必须能形成“理解当前状态 -> 建立持续线程 -> 挑战主判断 -> 形成执行前认知边界”的闭环。
辅助路径新闻 / 事件解读、宏观 / 板块背景、机会发现、每日 / 每周刷新、报告 / 简报必须服务主对象和主路径,不独立定义产品本体。
后置路径全市场扫描器、自动交易信号发现、组合优化、回测系统、机构级投研流程、大规模技能市场、多人协作审计流第一阶段不作为验收主目标。

三层评测原则

本目录的用例不以“调用了多少金融技能”或“出现了多少金融认知顾问”为主要评价标准。评测重点是三层能力是否共同服务用户认知状态:

  1. 金融技能层是否提供了清晰、可复查、可复用的认知原子能力;
  2. 金融认知顾问层是否给出了必要的专业视角、分歧、反证和证据边界;
  3. 金融 Claw 产品层是否把用户问题、顾问协作、证据检查、输出对象和市场认知线程组织成连续体验。

如果某个用例涉及金融认知顾问,应记录使用了哪些认知视角、为什么需要这些视角、是否存在分歧、证据边界如何表达,以及输出如何更新市场认知线程。

交互形态评测原则

第一版用例应同时覆盖自然语言进入和结构化对象沉淀。评测不应只看系统能否在聊天中回答,也不应只看表单字段是否完整,而应检查:

  1. 用户是否可以用真实、口语、模糊或追问式语言进入;
  2. 系统是否能把自然语言转译为明确的认知任务;
  3. 必要追问是否足够少且足够关键;
  4. 输出是否落到市场认知快照、市场认知线程、证据边界、观察问题或执行前认知检查点;
  5. 若结果通过外部聊天渠道触达,是否仍能回到权威认知对象层复查和更新。

模型策略评测原则

评测用例应记录测试时使用的模型模式。正式评测默认使用平台认证模型;若使用用户自带模型或替代模型,应显式标注模型来源、能力限制、成本 / 耗时信息和输出质量差异。

对正式市场认知快照、市场认知线程更新、深度研究、策略假设和执行前认知检查点等任务,不应把未认证模型输出直接计为同等质量结果。若自带模型结果需要进入权威认知对象,应经过平台认证模型复核或质量检查。

训练资产评测原则

评测运行结果可以成为未来金融专家模型的训练资产候选,但不能默认进入训练集。每条候选样本至少应能追踪:用户授权状态、匿名化 / 去标识化状态、敏感信息过滤状态、产品记忆与训练数据区分、个人域数据与可聚合学习数据区分、失败案例类型和人工复核状态。

第一阶段评测的重点是形成高质量、可复查的金融认知样本和失败案例库,而不是证明自有大模型已经成熟。

用户画像与敏感信息评测原则

评测用例应覆盖用户主动提供敏感信息的处理。系统应区分普通偏好、金融认知上下文、敏感个人 / 财务信息、账户 / 权限信息、凭证 / 私钥类高危信息。

非凭证类金融上下文可临时用于当前认知任务,但默认不保存;保存到画像、线程或长期记忆前必须确认。凭证、私钥、账户权限类信息应拒收、屏蔽、不得保存、不得训练、不得回显。

商业模式评测原则

评测用例可记录潜在商业层级,但不直接定义价格。建议记录该用例更接近免费试用、标准订阅、深度研究、正式报告、高频刷新、外部渠道通知、自带模型平台服务或隐私优先模式。

商业评测重点不是估算单次模型成本,而是判断用户是否获得了可感知的金融认知服务价值,以及该价值是否适合作为后续收费点。

文件产品对象优先级场景
crypto-asset-snapshot-colloquial.yaml市场认知快照 / 证据有界认知输出第一优先级口语化加密资产认知快照
crypto-event-narrative-understanding.yaml市场认知快照 / 证据有界认知输出第一优先级加密事件 / 叙事理解
crypto-thesis-risk-controversy.yaml市场认知快照 / 证据有界认知输出第一优先级用户投资逻辑的风险与反方挑战
snapshot-to-watch-questions.yaml市场认知线程 / 观察问题第二优先级从单次快照延展为可复盘的市场认知线程
strategy-hypothesis-pre-execution-checkpoint.yaml认知阶段策略输出 / 执行前认知检查点第二优先级条件化策略假设与执行前认知检查点
evidence-degradation-source-uncertainty.yaml带试运行“证据项 / 数据质量说明”字段的证据有界认知输出第一优先级质量项证据降级与来源不确定性处理

试运行字段决策

“证据项”和“数据质量说明”当前只作为“证据有界认知输出”下的结构化字段试运行,不升级为第一阶段产品定义中的正式产品对象。

采用这个口径的原因:

  1. 正式对象仍以 projects/finclaw/mvp-product-definition.md 作为当前文件入口;
  2. 这两个字段解决的是证据与数据质量表达问题,先通过评测用例和运行结果验证稳定性;
  3. 若第一轮实际评测证明它们是稳定的一等对象,再回写产品定义;
  4. 在此之前,不应让评测字段反向扩大 FinClaw 第一版产品承诺。

使用规则

  1. 产品基准来自 projects/finclaw/strategic-whitepaper.mdprojects/finclaw/product-definition.mdprojects/finclaw/mvp-product-definition.md
  2. 线程生命周期、金融认知顾问职责与输出契约以 projects/finclaw/design/foundation/product-object-and-advisor-design.md 为准。
  3. 参考项目评测只作为经验校验和用例设计参考,不直接定义 FinClaw 产品边界。
  4. 每个用例应记录产品对象、优先级、提问风格、预期输出、证据要求、数据质量要求、顾问契约要求、线程生命周期要求和动作状态边界。
  5. 后续运行结果应写入 ../runs/,不反向修改用例定义。
  6. 若某个用例后续被证明可跨项目复用,先在对应项目命名空间验证,再考虑上移到 ../../shared/