aifinlab-FinClaw Official Evaluation Experience Report
状态:V2 / Official reference experience evaluation with Docker OpenClaw rerun
评测日期:2026-05-11
对象:/Users/mlabs/Programs/aifinlab-FinClaw
入口:Docker OpenClaw Agent
正式报告来源工作台:
- Docker / OpenClaw orientation:
packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-run/ - Full case rerun:
packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-fcmatrix-run/
How to Use This Report
本报告替换早期 SkillHub-only 评测口径。重新阅读项目说明和 Docker 部署路径后,aifinlab/FinClaw 应被视为 OpenClaw Agent OS 兼容的金融技能与 Agent 体验工程,而不只是 finskillshub catalog。
使用边界:
- 本报告不是 FinClaw 本体产品定义;
- 不应把
aifinlab/FinClaw的 982 skills 直接等同于稳定可执行的金融认知产品; - 可复用的是 OpenClaw 技能加载方式、金融 skill taxonomy、A 股 / 行业垂直技能组织、Docker 体验路径、工具降级观察;
- 不应复用的是当前 Docker image 文档错配、技能发现截断、部分脚本依赖路径不规范、工具失败时的空/误导输出。
1. Installation / Deployment State
| Item | Result |
|---|---|
| Local repo | /Users/mlabs/Programs/aifinlab-FinClaw |
| Remote | https://github.com/aifinlab/FinClaw.git |
| Revision | e7cee33c7406c845fbdb2282d4781c591c881237 |
| Local vs remote | HEAD...origin/main = 0 0 at deployment start |
| Container | aifinlab-finclaw-openclaw |
| Image actually used | ghcr.io/openclaw/openclaw:latest |
| README image issue | openclaw/openclaw:latest could not be pulled from Docker Hub |
| Host entry | http://127.0.0.1:18790/ |
| Health | /healthz live; /readyz ready |
| Repo in container | /home/node/.openclaw/workspace/FinClaw |
| OpenClaw model | moonshot/kimi-k2.6 |
| Provider / endpoint | moonshot / https://api.moonshot.cn/v1 |
| Host OpenClaw config | Not touched |
2. Skill Loading State
| Item | Result |
|---|---|
Full skills/ count | 982 SKILL.md files |
skillsChoice/ count | 60 selected SKILL.md files |
Container skills.load.extraDirs | Added for skills/ plus six skillsChoice/*-suite roots |
| OpenClaw discovery result | Skills (257/303 ready) |
| Discovery warning | root has many entries, truncating discovery |
| Verified visible skills | bank-industry-analyzer, fund-screener, many A-share skills |
The 60 selected skillsChoice roots are more suitable for controlled first-pass testing than the full 982-skill root, because the large root triggers OpenClaw discovery truncation.
3. Runtime / Dependency State
Container default Python was incomplete for FinClaw scripts. This run installed container-only dependencies:
- Debian:
python3-pip,python3-venv - pip:
pandas,numpy,requests,akshare,numpy-financial,yfinance,efinance,adata
Import checks passed. Script smoke checks:
bank-industry-analyzer/scripts/main.py --help: passed after installingakshare;fund-screener/scripts/main.py --use-mock-data: passed, withfund_data_adapterwarning;trust-income-calculator/scripts/main.py --help: passed when launched with suite-levelPYTHONPATH.
4. Scope
本轮完整执行 Cognition-Matrix-01~Cognition-Matrix-18 与 Real-Chat-01~Real-Chat-12 共 30 个 case。Prompt 未加入 Read-only、项目体验测试、自动化测试 等污染真实用户体验的附加约束。
执行入口:
docker exec aifinlab-finclaw-openclaw \
node /app/openclaw.mjs agent \
--agent main \
--session-id ref-aifinlab-<case-id> \
--thinking off \
--timeout 240 \
--json \
--message "<real user prompt>"
5. Model / Runtime Telemetry
Token 使用 OpenClaw agentMeta.usage.total;若缺失则回退为 ceil((prompt + output chars) / 2)。该值用于运行比较,不等同于供应商账单 reconciliation。
| Metric | Value |
|---|---|
| Cases | 30 |
| Process returncode failures | 0 |
| Content-level timeout / tool-failure cases | 3 |
| Total duration | 1409.9s |
| Reported / estimated tokens | 619,771 |
| Model | moonshot/kimi-k2.6 |
| Provider | moonshot |
| Endpoint | https://api.moonshot.cn/v1 |
| Longest cases | Cognition-Matrix-07 241.74s; Cognition-Matrix-14 241.72s; Cognition-Matrix-04 241.69s |
6. Rating Summary
| Rate | Count |
|---|---|
| A | 6 |
| B | 12 |
| C | 9 |
| D | 3 |
| N/A | 0 |
评分解释:aifinlab Docker/OpenClaw 路径可完成真实 chat 执行,且对宏观、跨资产、情绪、策略和新手教育的框架化回答较强。但它的回答明显偏“通用框架 + A股技能语境”,实时数据和来源边界弱;部分 case 因工具失败只返回错误;短追问、watchlist、个性化记忆和主动监控状态真实性不足。
7. Consolidated Case Rating
| Case | Scenario | Evaluation | Runtime | Rate |
|---|---|---|---|---|
| Cognition-Matrix-01 | Macro regime shock | 能解释强 CPI / 非农对股票、债券、美元、黄金、crypto 的传导,并区分可靠关系与实时待验证项;但没有实际数据来源验证。 | 29.13s; 20,388 tokens | B |
| Cognition-Matrix-02 | Rates path / assets | higher-for-longer 下 QQQ、区域银行、黄金、长债、BTC 的重估逻辑完整,结构清楚。 | 78.91s; 30,486 tokens | A |
| Cognition-Matrix-03 | Earnings quality | 给出 AI 半导体财报质量拆解模板,能覆盖事实、解释、反方和下一季验证线;但未基于具体公司或财报原文。 | 45.29s; 23,784 tokens | B |
| Cognition-Matrix-04 | Sector rotation | 内容层超时,只返回 timeout 文案。 | 241.69s; 31,082 tokens | D |
| Cognition-Matrix-05 | L2 token value capture | 能解释活跃度、费用、TVL、真实用户、MEV、解锁和代币价值捕获关系;缺少链上数据验证。 | 14.97s; 18,530 tokens | B |
| Cognition-Matrix-06 | Credit / liquidity stress | 信用利差、小盘、高收益债传导框架可用,但输出明显偏 A 股 / 中国利率语境,未完全覆盖全球高收益债问题。 | 19.72s; 20,145 tokens | B |
| Cognition-Matrix-07 | Stablecoin regulation | 工具层只返回 The Block web fetch failed,未完成稳定币监管分析。 | 241.74s; 22,991 tokens | D |
| Cognition-Matrix-08 | Geopolitical / supply chain | 覆盖能源、黄金、美元、半导体供应链和 A 股映射,结构完整;具体价格和冲突场景缺少实时证据。 | 43.36s; 21,929 tokens | B |
| Cognition-Matrix-09 | Inter-market divergence | 对指数新高、收益率上行、美元走强、市场宽度恶化的背离解释强,验证信号清楚。 | 38.62s; 22,697 tokens | A |
| Cognition-Matrix-10 | Sentiment extremes | 能区分基本面改善、叙事扩散、流动性推动和情绪泡沫,并给出验证指标。 | 32.10s; 21,933 tokens | A |
| Cognition-Matrix-11 | Strategy suitability | 短线交易者、长期投资者、风险管理者三类视角区分清晰。 | 12.58s; 18,639 tokens | A |
| Cognition-Matrix-12 | Portfolio factor exposure | 能识别利率 / 流动性、美元、风险偏好、监管和相关性上升等共同风险;部分暴露是按关注清单推断。 | 52.92s; 25,498 tokens | B |
| Cognition-Matrix-13 | Novice learning | 新手解释质量高,能通俗说明宏观新闻对成长股、美元和黄金的差异化传导。 | 18.46s; 18,867 tokens | A |
| Cognition-Matrix-14 | Expert due diligence | 工具层只返回 Circle transparency web fetch failed,未生成尽调问题。 | 241.72s; 23,098 tokens | D |
| Cognition-Matrix-15 | Sudden event triage | 突发事件分诊 SOP 完整,事实确认、影响评估、风险等级和下一步检查顺序清楚;未执行实时查证。 | 25.70s; 18,978 tokens | B |
| Cognition-Matrix-16 | Long thesis tracking | 6 个月 AI 算力 / 代币化跟踪计划可用,包含月度验证和反证;部分项目和数据源需二次验证。 | 19.63s; 18,999 tokens | B |
| Cognition-Matrix-17 | Team handoff brief | 没有直接生成 brief,而是检查 workspace 后要求用户补市场、依据和团队分工;对“当前判断”缺少承接。 | 21.58s; 19,565 tokens | C |
| Cognition-Matrix-18 | Data gap / degraded cognition | 能明确数据边界、降级层级和不可用数据,且承认 FRED、订单簿、链上、社交情绪不可直接获取。 | 26.89s; 19,271 tokens | A |
| Real-Chat-01 | Market mood | 能接住口语情绪,但更像引导用户选择分析方向,当前市场判断不足。 | 9.53s; 18,313 tokens | C |
| Real-Chat-02 | NVDA current query | 承认无法实时获取 NVDA 价格,并给出分析框架;对短问的直接可用性一般。 | 21.68s; 18,844 tokens | C |
| Real-Chat-03 | BTC anxiety | 承认无法查实时 BTC,并请求补价格;末尾触发新用户 onboarding 话术,打断体验。 | 39.91s; 18,810 tokens | C |
| Real-Chat-04 | CRCL short follow-up | 没能利用上下文识别 Circle / CRCL,要求用户澄清;短追问连续性弱。 | 18.39s; 18,422 tokens | C |
| Real-Chat-05 | Watchlist priority | 能诚实说明新环境无关注列表,并要求用户提供 watchlist;未能完成排序。 | 10.74s; 18,395 tokens | C |
| Real-Chat-06 | Rates / BTC / tech all up | 能解释收益率、BTC、科技股同涨的可能情景和不可持续性;仍偏框架化。 | 10.95s; 18,380 tokens | B |
| Real-Chat-07 | Yield vs tech | 新手解释优秀,DCF、久期、风险偏好和场景表述清楚。 | 14.50s; 18,602 tokens | A |
| Real-Chat-08 | Tonight checklist | 给出短清单,覆盖外围、美股、中概、美元、政策、持仓和计划;因无实时上下文,较通用。 | 18.60s; 18,627 tokens | B |
| Real-Chat-09 | Stablecoin regulation impact | 能解释稳定币监管对 USDT / USDC、BTC / ETH、Coinbase 等的直接 / 间接影响;缺少用户持仓上下文。 | 17.55s; 18,773 tokens | B |
| Real-Chat-10 | Tech / crypto concentration | 无历史持仓记录,仅要求用户补仓位,未完成集中风险识别。 | 9.86s; 18,315 tokens | C |
| Real-Chat-11 | Alternatives to expensive AI | 能给出 AI 替代方向:传统行业 AI 赋能、基础设施、电力、资源、高股息、港股 / 美股中小盘等。 | 21.24s; 19,065 tokens | B |
| Real-Chat-12 | Monitoring / alerts | 声称“已记录到 HEARTBEAT.md”,但容器内 HEARTBEAT.md 为空;同时承认缺少实时行情和提醒方式。 | 11.94s; 18,345 tokens | C |
8. Side-Effect Evidence
- 未发送生产渠道消息;
- 未执行交易、下单、转账或链上操作;
- 容器内模型 key 和 provider 只配置在 isolated Docker OpenClaw 环境中;
- 宿主机 OpenClaw 配置未改动;
Real-Chat-12声称写入HEARTBEAT.md,但容器内/home/node/.openclaw/workspace/HEARTBEAT.md为空,判定为 false completion claim;- case 运行产生 OpenClaw session logs 与 raw JSONL 记录,均位于本轮工作台或容器状态目录。
9. Official Findings
- Docker/OpenClaw 路径确认后,
aifinlab/FinClaw可以执行真实自然语言 chat cases,不应再被定性为“无 chat agent 入口”的纯 SkillHub catalog。 - 该项目最强参考价值是:大规模金融 skill taxonomy、A 股 / 行业 / 金融子行业覆盖、OpenClaw skill 生态组织方式,以及 Docker 化长期体验入口。
- 当前体验最明显的工程问题是 README Docker image 与实际可拉取 image 不一致;需要使用
ghcr.io/openclaw/openclaw:latest。 - OpenClaw 对 982-skill root 出现 discovery truncation;第一轮 controlled evaluation 应优先使用 60 个
skillsChoiceselected skills。 - Moonshot Kimi K2.6 在该容器下可稳定完成多数 case,但每个 case 的 system / skill context token 较高,30 个 case 总 reported tokens 达 619,771。
- 金融认知输出多为框架化、教育化和 A 股语境化,实时数据 / 来源 / 工具 trace 的可审计性弱于理想状态。
- 工具失败处理不稳定:
Cognition-Matrix-07、Cognition-Matrix-14只返回 web fetch failed,未做合理降级综合。 - Chat 连续性和用户画像弱:短追问、watchlist、持仓集中度和提醒监控类 case 无法从上下文或持久化状态中有效承接。
- Action-state truthfulness 需要警惕:
Real-Chat-12声称写入 HEARTBEAT,但没有状态证据。 - 相比 martinpmm / Chelae,aifinlab 更像“OpenClaw 金融技能生态 + 框架化金融认知 Agent”,不是已经成熟的个人投资助理产品。
10. Resume Point
本报告已完成 aifinlab/FinClaw Docker/OpenClaw 口径的完整 case rerun。下一批建议:
- 将该报告与 martinpmm、Chelae 的正式评测做横向表;
- 继续阅读
aifinlab-skill-layer-evaluation.md,按该文件单独推进 Skill Layer Evaluation; - 针对
aifinlab单独补一轮 60 个skillsChoiceselected skills 的 script/tool-level smoke; - 决定是否需要对
Cognition-Matrix-04、Cognition-Matrix-07、Cognition-Matrix-14进行 timeout / web-fetch-failure targeted retest。