External Evaluation Repository Synthesis

状态：Current Synthesis 更新日期：2026-05-11 角色：FinClaw Program Controller

1. Purpose

本文是三个外部金融评测仓库分析结果的中性汇总。为避免把外部项目名变成 FinClaw Case Library 的内部术语，本文只使用能力类别命名：

这三个仓库对 Case Library 有补充价值，但不应替代真实参考项目体验测试：

Capability Source	Useful For	Should Not Become
Financial benchmark repository	金融文本、推理、数值、严谨性 mini-suite。	产品体验 case 的替代品。
Financial multimodal benchmark repository	图表、表格、截图、财务材料视觉理解 case。	通用 UI/UX 评估术语。
Execution-grounded safety benchmark repository	权限、状态变化、审计、工具调用安全 case。	FinClaw MVP 的直接执行承诺。

建议保留三个中性 adapter family：

这些 family 的职责是补强标准化、可回归、可横向比较的评测层；真实金融用户体验仍由 Cognition-Matrix-*、Real-Chat-* 和项目特定 family 承担。

对 FinTec AI Ecosystem 的价值：

当前不把外部仓库名写入 Case Library 的 case family、schema、评分字段或团队同步入口。

当前应先把 adapter cases 保持在：

/Users/mlabs/Programs/Labs-FinTecAI/projects/finclaw/reference-experience/

等结构化 cases/、runs/ 和 runner 成熟后，再考虑独立成生态评测工具仓库。