跳到主要内容

FinClaw Evaluation Runs

状态：Active / awaiting first structured runs

本目录用于存放 FinClaw 结构化评测运行结果。当前已有结构化 case 定义，但尚未形成正式 run result。

当前状态

evaluation/finclaw/cases/ 已包含第一批机器可读 YAML 用例。
evaluation/finclaw/reports/ 已包含第一批 reference cross-analysis。
单个参考项目的历史体验证据仍保留在 projects/finclaw/reference-experience/。
本目录尚未写入首批正式 run result。

首批 run result 写入条件

首批文件进入本目录前，应至少满足：

明确引用被执行的 cases/*.yaml。
记录运行对象、运行时间、模型 / 工具环境和输入材料边界。
区分模型输出、人工观察、评分结论和后续吸收建议。
明确说明是否可作为 reader-testing evidence；默认 evaluation run 不等同于 reader test。
不反向修改 case 定义，除非另开 case update 批次。

建议文件命名

<case-slug>-<runner-or-system>-<yyyy-mm-dd>.yaml

示例：

crypto-asset-snapshot-colloquial-manual-baseline-2026-05-15.yaml

当前状态
首批 run result 写入条件
建议文件命名