FinClaw Evaluation Runs
状态:Active / awaiting first structured runs
本目录用于存放 FinClaw 结构化评测运行结果。当前已有结构化 case 定义,但尚未形成正式 run result。
当前状态
evaluation/finclaw/cases/已包含第一批机器可读 YAML 用例。evaluation/finclaw/reports/已包含第一批 reference cross-analysis。- 单个参考项目的历史体验证据仍保留在
projects/finclaw/reference-experience/。 - 本目录尚未写入首批正式 run result。
首批 run result 写入条件
首批文件进入本目录前,应至少满足:
- 明确引用被执行的
cases/*.yaml。 - 记录运行对象、运行时间、模型 / 工具环境和输入材料边界。
- 区分模型输出、人工观察、评分结论和后续吸收建议。
- 明确说明是否可作为 reader-testing evidence;默认 evaluation run 不等同于 reader test。
- 不反向修改 case 定义,除非另开 case update 批次。
建议文件命名
<case-slug>-<runner-or-system>-<yyyy-mm-dd>.yaml
示例:
crypto-asset-snapshot-colloquial-manual-baseline-2026-05-15.yaml