跳到主要内容

FinClaw Evaluation Runs

状态:Active / awaiting first structured runs

本目录用于存放 FinClaw 结构化评测运行结果。当前已有结构化 case 定义,但尚未形成正式 run result。

当前状态

  • evaluation/finclaw/cases/ 已包含第一批机器可读 YAML 用例。
  • evaluation/finclaw/reports/ 已包含第一批 reference cross-analysis。
  • 单个参考项目的历史体验证据仍保留在 projects/finclaw/reference-experience/
  • 本目录尚未写入首批正式 run result。

首批 run result 写入条件

首批文件进入本目录前,应至少满足:

  1. 明确引用被执行的 cases/*.yaml
  2. 记录运行对象、运行时间、模型 / 工具环境和输入材料边界。
  3. 区分模型输出、人工观察、评分结论和后续吸收建议。
  4. 明确说明是否可作为 reader-testing evidence;默认 evaluation run 不等同于 reader test。
  5. 不反向修改 case 定义,除非另开 case update 批次。

建议文件命名

<case-slug>-<runner-or-system>-<yyyy-mm-dd>.yaml

示例:

crypto-asset-snapshot-colloquial-manual-baseline-2026-05-15.yaml