aifinlab-FinClaw Official Evaluation Experience Report

状态：V2 / Official reference experience evaluation with Docker OpenClaw rerun 评测日期：2026-05-11 对象：/Users/mlabs/Programs/aifinlab-FinClaw 入口：Docker OpenClaw Agent

正式报告来源工作台：

Docker / OpenClaw orientation: packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-run/
Full case rerun: packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-fcmatrix-run/

How to Use This Report

本报告替换早期 SkillHub-only 评测口径。重新阅读项目说明和 Docker 部署路径后，aifinlab/FinClaw 应被视为 OpenClaw Agent OS 兼容的金融技能与 Agent 体验工程，而不只是 finskillshub catalog。

使用边界：

本报告不是 FinClaw 本体产品定义；
不应把 aifinlab/FinClaw 的 982 skills 直接等同于稳定可执行的金融认知产品；
可复用的是 OpenClaw 技能加载方式、金融 skill taxonomy、A 股 / 行业垂直技能组织、Docker 体验路径、工具降级观察；
不应复用的是当前 Docker image 文档错配、技能发现截断、部分脚本依赖路径不规范、工具失败时的空/误导输出。

1. Installation / Deployment State

Item	Result
Local repo	`/Users/mlabs/Programs/aifinlab-FinClaw`
Remote	`https://github.com/aifinlab/FinClaw.git`
Revision	`e7cee33c7406c845fbdb2282d4781c591c881237`
Local vs remote	`HEAD...origin/main = 0 0` at deployment start
Container	`aifinlab-finclaw-openclaw`
Image actually used	`ghcr.io/openclaw/openclaw:latest`
README image issue	`openclaw/openclaw:latest` could not be pulled from Docker Hub
Host entry	`http://127.0.0.1:18790/`
Health	`/healthz` live; `/readyz` ready
Repo in container	`/home/node/.openclaw/workspace/FinClaw`
OpenClaw model	`moonshot/kimi-k2.6`
Provider / endpoint	`moonshot` / `https://api.moonshot.cn/v1`
Host OpenClaw config	Not touched

2. Skill Loading State

Item	Result
Full `skills/` count	982 `SKILL.md` files
`skillsChoice/` count	60 selected `SKILL.md` files
Container `skills.load.extraDirs`	Added for `skills/` plus six `skillsChoice/*-suite` roots
OpenClaw discovery result	`Skills (257/303 ready)`
Discovery warning	`root has many entries, truncating discovery`
Verified visible skills	`bank-industry-analyzer`, `fund-screener`, many A-share skills

The 60 selected skillsChoice roots are more suitable for controlled first-pass testing than the full 982-skill root, because the large root triggers OpenClaw discovery truncation.

3. Runtime / Dependency State

Container default Python was incomplete for FinClaw scripts. This run installed container-only dependencies:

Debian: python3-pip, python3-venv
pip: pandas, numpy, requests, akshare, numpy-financial, yfinance, efinance, adata

Import checks passed. Script smoke checks:

bank-industry-analyzer/scripts/main.py --help: passed after installing akshare;
fund-screener/scripts/main.py --use-mock-data: passed, with fund_data_adapter warning;
trust-income-calculator/scripts/main.py --help: passed when launched with suite-level PYTHONPATH.

4. Scope

本轮完整执行 Cognition-Matrix-01~Cognition-Matrix-18 与 Real-Chat-01~Real-Chat-12 共 30 个 case。Prompt 未加入 Read-only、项目体验测试、自动化测试 等污染真实用户体验的附加约束。

执行入口：

docker exec aifinlab-finclaw-openclaw \
  node /app/openclaw.mjs agent \
  --agent main \
  --session-id ref-aifinlab-<case-id> \
  --thinking off \
  --timeout 240 \
  --json \
  --message "<real user prompt>"

5. Model / Runtime Telemetry

Token 使用 OpenClaw agentMeta.usage.total；若缺失则回退为 ceil((prompt + output chars) / 2)。该值用于运行比较，不等同于供应商账单 reconciliation。

Metric	Value
Cases	30
Process returncode failures	0
Content-level timeout / tool-failure cases	3
Total duration	1409.9s
Reported / estimated tokens	619,771
Model	`moonshot/kimi-k2.6`
Provider	`moonshot`
Endpoint	`https://api.moonshot.cn/v1`
Longest cases	`Cognition-Matrix-07` 241.74s; `Cognition-Matrix-14` 241.72s; `Cognition-Matrix-04` 241.69s

6. Rating Summary

Rate	Count
A	6
B	12
C	9
D	3
N/A	0

评分解释：aifinlab Docker/OpenClaw 路径可完成真实 chat 执行，且对宏观、跨资产、情绪、策略和新手教育的框架化回答较强。但它的回答明显偏“通用框架 + A股技能语境”，实时数据和来源边界弱；部分 case 因工具失败只返回错误；短追问、watchlist、个性化记忆和主动监控状态真实性不足。

7. Consolidated Case Rating

Case	Scenario	Evaluation	Runtime	Rate
Cognition-Matrix-01	Macro regime shock	能解释强 CPI / 非农对股票、债券、美元、黄金、crypto 的传导，并区分可靠关系与实时待验证项；但没有实际数据来源验证。	29.13s; 20,388 tokens	B
Cognition-Matrix-02	Rates path / assets	higher-for-longer 下 QQQ、区域银行、黄金、长债、BTC 的重估逻辑完整，结构清楚。	78.91s; 30,486 tokens	A
Cognition-Matrix-03	Earnings quality	给出 AI 半导体财报质量拆解模板，能覆盖事实、解释、反方和下一季验证线；但未基于具体公司或财报原文。	45.29s; 23,784 tokens	B
Cognition-Matrix-04	Sector rotation	内容层超时，只返回 timeout 文案。	241.69s; 31,082 tokens	D
Cognition-Matrix-05	L2 token value capture	能解释活跃度、费用、TVL、真实用户、MEV、解锁和代币价值捕获关系；缺少链上数据验证。	14.97s; 18,530 tokens	B
Cognition-Matrix-06	Credit / liquidity stress	信用利差、小盘、高收益债传导框架可用，但输出明显偏 A 股 / 中国利率语境，未完全覆盖全球高收益债问题。	19.72s; 20,145 tokens	B
Cognition-Matrix-07	Stablecoin regulation	工具层只返回 The Block web fetch failed，未完成稳定币监管分析。	241.74s; 22,991 tokens	D
Cognition-Matrix-08	Geopolitical / supply chain	覆盖能源、黄金、美元、半导体供应链和 A 股映射，结构完整；具体价格和冲突场景缺少实时证据。	43.36s; 21,929 tokens	B
Cognition-Matrix-09	Inter-market divergence	对指数新高、收益率上行、美元走强、市场宽度恶化的背离解释强，验证信号清楚。	38.62s; 22,697 tokens	A
Cognition-Matrix-10	Sentiment extremes	能区分基本面改善、叙事扩散、流动性推动和情绪泡沫，并给出验证指标。	32.10s; 21,933 tokens	A
Cognition-Matrix-11	Strategy suitability	短线交易者、长期投资者、风险管理者三类视角区分清晰。	12.58s; 18,639 tokens	A
Cognition-Matrix-12	Portfolio factor exposure	能识别利率 / 流动性、美元、风险偏好、监管和相关性上升等共同风险；部分暴露是按关注清单推断。	52.92s; 25,498 tokens	B
Cognition-Matrix-13	Novice learning	新手解释质量高，能通俗说明宏观新闻对成长股、美元和黄金的差异化传导。	18.46s; 18,867 tokens	A
Cognition-Matrix-14	Expert due diligence	工具层只返回 Circle transparency web fetch failed，未生成尽调问题。	241.72s; 23,098 tokens	D
Cognition-Matrix-15	Sudden event triage	突发事件分诊 SOP 完整，事实确认、影响评估、风险等级和下一步检查顺序清楚；未执行实时查证。	25.70s; 18,978 tokens	B
Cognition-Matrix-16	Long thesis tracking	6 个月 AI 算力 / 代币化跟踪计划可用，包含月度验证和反证；部分项目和数据源需二次验证。	19.63s; 18,999 tokens	B
Cognition-Matrix-17	Team handoff brief	没有直接生成 brief，而是检查 workspace 后要求用户补市场、依据和团队分工；对“当前判断”缺少承接。	21.58s; 19,565 tokens	C
Cognition-Matrix-18	Data gap / degraded cognition	能明确数据边界、降级层级和不可用数据，且承认 FRED、订单簿、链上、社交情绪不可直接获取。	26.89s; 19,271 tokens	A
Real-Chat-01	Market mood	能接住口语情绪，但更像引导用户选择分析方向，当前市场判断不足。	9.53s; 18,313 tokens	C
Real-Chat-02	NVDA current query	承认无法实时获取 NVDA 价格，并给出分析框架；对短问的直接可用性一般。	21.68s; 18,844 tokens	C
Real-Chat-03	BTC anxiety	承认无法查实时 BTC，并请求补价格；末尾触发新用户 onboarding 话术，打断体验。	39.91s; 18,810 tokens	C
Real-Chat-04	CRCL short follow-up	没能利用上下文识别 Circle / CRCL，要求用户澄清；短追问连续性弱。	18.39s; 18,422 tokens	C
Real-Chat-05	Watchlist priority	能诚实说明新环境无关注列表，并要求用户提供 watchlist；未能完成排序。	10.74s; 18,395 tokens	C
Real-Chat-06	Rates / BTC / tech all up	能解释收益率、BTC、科技股同涨的可能情景和不可持续性；仍偏框架化。	10.95s; 18,380 tokens	B
Real-Chat-07	Yield vs tech	新手解释优秀，DCF、久期、风险偏好和场景表述清楚。	14.50s; 18,602 tokens	A
Real-Chat-08	Tonight checklist	给出短清单，覆盖外围、美股、中概、美元、政策、持仓和计划；因无实时上下文，较通用。	18.60s; 18,627 tokens	B
Real-Chat-09	Stablecoin regulation impact	能解释稳定币监管对 USDT / USDC、BTC / ETH、Coinbase 等的直接 / 间接影响；缺少用户持仓上下文。	17.55s; 18,773 tokens	B
Real-Chat-10	Tech / crypto concentration	无历史持仓记录，仅要求用户补仓位，未完成集中风险识别。	9.86s; 18,315 tokens	C
Real-Chat-11	Alternatives to expensive AI	能给出 AI 替代方向：传统行业 AI 赋能、基础设施、电力、资源、高股息、港股 / 美股中小盘等。	21.24s; 19,065 tokens	B
Real-Chat-12	Monitoring / alerts	声称“已记录到 HEARTBEAT.md”，但容器内 `HEARTBEAT.md` 为空；同时承认缺少实时行情和提醒方式。	11.94s; 18,345 tokens	C

8. Side-Effect Evidence

未发送生产渠道消息；
未执行交易、下单、转账或链上操作；
容器内模型 key 和 provider 只配置在 isolated Docker OpenClaw 环境中；
宿主机 OpenClaw 配置未改动；
Real-Chat-12 声称写入 HEARTBEAT.md，但容器内 /home/node/.openclaw/workspace/HEARTBEAT.md 为空，判定为 false completion claim；
case 运行产生 OpenClaw session logs 与 raw JSONL 记录，均位于本轮工作台或容器状态目录。

9. Official Findings

Docker/OpenClaw 路径确认后，aifinlab/FinClaw 可以执行真实自然语言 chat cases，不应再被定性为“无 chat agent 入口”的纯 SkillHub catalog。
该项目最强参考价值是：大规模金融 skill taxonomy、A 股 / 行业 / 金融子行业覆盖、OpenClaw skill 生态组织方式，以及 Docker 化长期体验入口。
当前体验最明显的工程问题是 README Docker image 与实际可拉取 image 不一致；需要使用 ghcr.io/openclaw/openclaw:latest。
OpenClaw 对 982-skill root 出现 discovery truncation；第一轮 controlled evaluation 应优先使用 60 个 skillsChoice selected skills。
Moonshot Kimi K2.6 在该容器下可稳定完成多数 case，但每个 case 的 system / skill context token 较高，30 个 case 总 reported tokens 达 619,771。
金融认知输出多为框架化、教育化和 A 股语境化，实时数据 / 来源 / 工具 trace 的可审计性弱于理想状态。
工具失败处理不稳定：Cognition-Matrix-07、Cognition-Matrix-14 只返回 web fetch failed，未做合理降级综合。
Chat 连续性和用户画像弱：短追问、watchlist、持仓集中度和提醒监控类 case 无法从上下文或持久化状态中有效承接。
Action-state truthfulness 需要警惕：Real-Chat-12 声称写入 HEARTBEAT，但没有状态证据。
相比 martinpmm / Chelae，aifinlab 更像“OpenClaw 金融技能生态 + 框架化金融认知 Agent”，不是已经成熟的个人投资助理产品。

10. Resume Point

本报告已完成 aifinlab/FinClaw Docker/OpenClaw 口径的完整 case rerun。下一批建议：

将该报告与 martinpmm、Chelae 的正式评测做横向表；
继续阅读 aifinlab-skill-layer-evaluation.md，按该文件单独推进 Skill Layer Evaluation；
针对 aifinlab 单独补一轮 60 个 skillsChoice selected skills 的 script/tool-level smoke；
决定是否需要对 Cognition-Matrix-04、Cognition-Matrix-07、Cognition-Matrix-14 进行 timeout / web-fetch-failure targeted retest。

How to Use This Report​

1. Installation / Deployment State​

2. Skill Loading State​

3. Runtime / Dependency State​

4. Scope​

5. Model / Runtime Telemetry​

6. Rating Summary​

7. Consolidated Case Rating​

8. Side-Effect Evidence​

9. Official Findings​

10. Resume Point​