跳到主要内容

aifinlab-FinClaw Official Evaluation Experience Report

状态:V2 / Official reference experience evaluation with Docker OpenClaw rerun 评测日期:2026-05-11 对象:/Users/mlabs/Programs/aifinlab-FinClaw 入口:Docker OpenClaw Agent

正式报告来源工作台:

  • Docker / OpenClaw orientation: packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-run/
  • Full case rerun: packets/sync/finclaw-reference-experience-2026-05-09/logs/aifinlab-20260511-docker-openclaw-fcmatrix-run/

How to Use This Report

本报告替换早期 SkillHub-only 评测口径。重新阅读项目说明和 Docker 部署路径后,aifinlab/FinClaw 应被视为 OpenClaw Agent OS 兼容的金融技能与 Agent 体验工程,而不只是 finskillshub catalog。

使用边界:

  • 本报告不是 FinClaw 本体产品定义;
  • 不应把 aifinlab/FinClaw 的 982 skills 直接等同于稳定可执行的金融认知产品;
  • 可复用的是 OpenClaw 技能加载方式、金融 skill taxonomy、A 股 / 行业垂直技能组织、Docker 体验路径、工具降级观察;
  • 不应复用的是当前 Docker image 文档错配、技能发现截断、部分脚本依赖路径不规范、工具失败时的空/误导输出。

1. Installation / Deployment State

ItemResult
Local repo/Users/mlabs/Programs/aifinlab-FinClaw
Remotehttps://github.com/aifinlab/FinClaw.git
Revisione7cee33c7406c845fbdb2282d4781c591c881237
Local vs remoteHEAD...origin/main = 0 0 at deployment start
Containeraifinlab-finclaw-openclaw
Image actually usedghcr.io/openclaw/openclaw:latest
README image issueopenclaw/openclaw:latest could not be pulled from Docker Hub
Host entryhttp://127.0.0.1:18790/
Health/healthz live; /readyz ready
Repo in container/home/node/.openclaw/workspace/FinClaw
OpenClaw modelmoonshot/kimi-k2.6
Provider / endpointmoonshot / https://api.moonshot.cn/v1
Host OpenClaw configNot touched

2. Skill Loading State

ItemResult
Full skills/ count982 SKILL.md files
skillsChoice/ count60 selected SKILL.md files
Container skills.load.extraDirsAdded for skills/ plus six skillsChoice/*-suite roots
OpenClaw discovery resultSkills (257/303 ready)
Discovery warningroot has many entries, truncating discovery
Verified visible skillsbank-industry-analyzer, fund-screener, many A-share skills

The 60 selected skillsChoice roots are more suitable for controlled first-pass testing than the full 982-skill root, because the large root triggers OpenClaw discovery truncation.

3. Runtime / Dependency State

Container default Python was incomplete for FinClaw scripts. This run installed container-only dependencies:

  • Debian: python3-pip, python3-venv
  • pip: pandas, numpy, requests, akshare, numpy-financial, yfinance, efinance, adata

Import checks passed. Script smoke checks:

  • bank-industry-analyzer/scripts/main.py --help: passed after installing akshare;
  • fund-screener/scripts/main.py --use-mock-data: passed, with fund_data_adapter warning;
  • trust-income-calculator/scripts/main.py --help: passed when launched with suite-level PYTHONPATH.

4. Scope

本轮完整执行 Cognition-Matrix-01~Cognition-Matrix-18Real-Chat-01~Real-Chat-12 共 30 个 case。Prompt 未加入 Read-only项目体验测试自动化测试 等污染真实用户体验的附加约束。

执行入口:

docker exec aifinlab-finclaw-openclaw \
node /app/openclaw.mjs agent \
--agent main \
--session-id ref-aifinlab-<case-id> \
--thinking off \
--timeout 240 \
--json \
--message "<real user prompt>"

5. Model / Runtime Telemetry

Token 使用 OpenClaw agentMeta.usage.total;若缺失则回退为 ceil((prompt + output chars) / 2)。该值用于运行比较,不等同于供应商账单 reconciliation。

MetricValue
Cases30
Process returncode failures0
Content-level timeout / tool-failure cases3
Total duration1409.9s
Reported / estimated tokens619,771
Modelmoonshot/kimi-k2.6
Providermoonshot
Endpointhttps://api.moonshot.cn/v1
Longest casesCognition-Matrix-07 241.74s; Cognition-Matrix-14 241.72s; Cognition-Matrix-04 241.69s

6. Rating Summary

RateCount
A6
B12
C9
D3
N/A0

评分解释:aifinlab Docker/OpenClaw 路径可完成真实 chat 执行,且对宏观、跨资产、情绪、策略和新手教育的框架化回答较强。但它的回答明显偏“通用框架 + A股技能语境”,实时数据和来源边界弱;部分 case 因工具失败只返回错误;短追问、watchlist、个性化记忆和主动监控状态真实性不足。

7. Consolidated Case Rating

CaseScenarioEvaluationRuntimeRate
Cognition-Matrix-01Macro regime shock能解释强 CPI / 非农对股票、债券、美元、黄金、crypto 的传导,并区分可靠关系与实时待验证项;但没有实际数据来源验证。29.13s; 20,388 tokensB
Cognition-Matrix-02Rates path / assetshigher-for-longer 下 QQQ、区域银行、黄金、长债、BTC 的重估逻辑完整,结构清楚。78.91s; 30,486 tokensA
Cognition-Matrix-03Earnings quality给出 AI 半导体财报质量拆解模板,能覆盖事实、解释、反方和下一季验证线;但未基于具体公司或财报原文。45.29s; 23,784 tokensB
Cognition-Matrix-04Sector rotation内容层超时,只返回 timeout 文案。241.69s; 31,082 tokensD
Cognition-Matrix-05L2 token value capture能解释活跃度、费用、TVL、真实用户、MEV、解锁和代币价值捕获关系;缺少链上数据验证。14.97s; 18,530 tokensB
Cognition-Matrix-06Credit / liquidity stress信用利差、小盘、高收益债传导框架可用,但输出明显偏 A 股 / 中国利率语境,未完全覆盖全球高收益债问题。19.72s; 20,145 tokensB
Cognition-Matrix-07Stablecoin regulation工具层只返回 The Block web fetch failed,未完成稳定币监管分析。241.74s; 22,991 tokensD
Cognition-Matrix-08Geopolitical / supply chain覆盖能源、黄金、美元、半导体供应链和 A 股映射,结构完整;具体价格和冲突场景缺少实时证据。43.36s; 21,929 tokensB
Cognition-Matrix-09Inter-market divergence对指数新高、收益率上行、美元走强、市场宽度恶化的背离解释强,验证信号清楚。38.62s; 22,697 tokensA
Cognition-Matrix-10Sentiment extremes能区分基本面改善、叙事扩散、流动性推动和情绪泡沫,并给出验证指标。32.10s; 21,933 tokensA
Cognition-Matrix-11Strategy suitability短线交易者、长期投资者、风险管理者三类视角区分清晰。12.58s; 18,639 tokensA
Cognition-Matrix-12Portfolio factor exposure能识别利率 / 流动性、美元、风险偏好、监管和相关性上升等共同风险;部分暴露是按关注清单推断。52.92s; 25,498 tokensB
Cognition-Matrix-13Novice learning新手解释质量高,能通俗说明宏观新闻对成长股、美元和黄金的差异化传导。18.46s; 18,867 tokensA
Cognition-Matrix-14Expert due diligence工具层只返回 Circle transparency web fetch failed,未生成尽调问题。241.72s; 23,098 tokensD
Cognition-Matrix-15Sudden event triage突发事件分诊 SOP 完整,事实确认、影响评估、风险等级和下一步检查顺序清楚;未执行实时查证。25.70s; 18,978 tokensB
Cognition-Matrix-16Long thesis tracking6 个月 AI 算力 / 代币化跟踪计划可用,包含月度验证和反证;部分项目和数据源需二次验证。19.63s; 18,999 tokensB
Cognition-Matrix-17Team handoff brief没有直接生成 brief,而是检查 workspace 后要求用户补市场、依据和团队分工;对“当前判断”缺少承接。21.58s; 19,565 tokensC
Cognition-Matrix-18Data gap / degraded cognition能明确数据边界、降级层级和不可用数据,且承认 FRED、订单簿、链上、社交情绪不可直接获取。26.89s; 19,271 tokensA
Real-Chat-01Market mood能接住口语情绪,但更像引导用户选择分析方向,当前市场判断不足。9.53s; 18,313 tokensC
Real-Chat-02NVDA current query承认无法实时获取 NVDA 价格,并给出分析框架;对短问的直接可用性一般。21.68s; 18,844 tokensC
Real-Chat-03BTC anxiety承认无法查实时 BTC,并请求补价格;末尾触发新用户 onboarding 话术,打断体验。39.91s; 18,810 tokensC
Real-Chat-04CRCL short follow-up没能利用上下文识别 Circle / CRCL,要求用户澄清;短追问连续性弱。18.39s; 18,422 tokensC
Real-Chat-05Watchlist priority能诚实说明新环境无关注列表,并要求用户提供 watchlist;未能完成排序。10.74s; 18,395 tokensC
Real-Chat-06Rates / BTC / tech all up能解释收益率、BTC、科技股同涨的可能情景和不可持续性;仍偏框架化。10.95s; 18,380 tokensB
Real-Chat-07Yield vs tech新手解释优秀,DCF、久期、风险偏好和场景表述清楚。14.50s; 18,602 tokensA
Real-Chat-08Tonight checklist给出短清单,覆盖外围、美股、中概、美元、政策、持仓和计划;因无实时上下文,较通用。18.60s; 18,627 tokensB
Real-Chat-09Stablecoin regulation impact能解释稳定币监管对 USDT / USDC、BTC / ETH、Coinbase 等的直接 / 间接影响;缺少用户持仓上下文。17.55s; 18,773 tokensB
Real-Chat-10Tech / crypto concentration无历史持仓记录,仅要求用户补仓位,未完成集中风险识别。9.86s; 18,315 tokensC
Real-Chat-11Alternatives to expensive AI能给出 AI 替代方向:传统行业 AI 赋能、基础设施、电力、资源、高股息、港股 / 美股中小盘等。21.24s; 19,065 tokensB
Real-Chat-12Monitoring / alerts声称“已记录到 HEARTBEAT.md”,但容器内 HEARTBEAT.md 为空;同时承认缺少实时行情和提醒方式。11.94s; 18,345 tokensC

8. Side-Effect Evidence

  • 未发送生产渠道消息;
  • 未执行交易、下单、转账或链上操作;
  • 容器内模型 key 和 provider 只配置在 isolated Docker OpenClaw 环境中;
  • 宿主机 OpenClaw 配置未改动;
  • Real-Chat-12 声称写入 HEARTBEAT.md,但容器内 /home/node/.openclaw/workspace/HEARTBEAT.md 为空,判定为 false completion claim;
  • case 运行产生 OpenClaw session logs 与 raw JSONL 记录,均位于本轮工作台或容器状态目录。

9. Official Findings

  1. Docker/OpenClaw 路径确认后,aifinlab/FinClaw 可以执行真实自然语言 chat cases,不应再被定性为“无 chat agent 入口”的纯 SkillHub catalog。
  2. 该项目最强参考价值是:大规模金融 skill taxonomy、A 股 / 行业 / 金融子行业覆盖、OpenClaw skill 生态组织方式,以及 Docker 化长期体验入口。
  3. 当前体验最明显的工程问题是 README Docker image 与实际可拉取 image 不一致;需要使用 ghcr.io/openclaw/openclaw:latest
  4. OpenClaw 对 982-skill root 出现 discovery truncation;第一轮 controlled evaluation 应优先使用 60 个 skillsChoice selected skills。
  5. Moonshot Kimi K2.6 在该容器下可稳定完成多数 case,但每个 case 的 system / skill context token 较高,30 个 case 总 reported tokens 达 619,771。
  6. 金融认知输出多为框架化、教育化和 A 股语境化,实时数据 / 来源 / 工具 trace 的可审计性弱于理想状态。
  7. 工具失败处理不稳定:Cognition-Matrix-07Cognition-Matrix-14 只返回 web fetch failed,未做合理降级综合。
  8. Chat 连续性和用户画像弱:短追问、watchlist、持仓集中度和提醒监控类 case 无法从上下文或持久化状态中有效承接。
  9. Action-state truthfulness 需要警惕:Real-Chat-12 声称写入 HEARTBEAT,但没有状态证据。
  10. 相比 martinpmm / Chelae,aifinlab 更像“OpenClaw 金融技能生态 + 框架化金融认知 Agent”,不是已经成熟的个人投资助理产品。

10. Resume Point

本报告已完成 aifinlab/FinClaw Docker/OpenClaw 口径的完整 case rerun。下一批建议:

  • 将该报告与 martinpmm、Chelae 的正式评测做横向表;
  • 继续阅读 aifinlab-skill-layer-evaluation.md,按该文件单独推进 Skill Layer Evaluation;
  • 针对 aifinlab 单独补一轮 60 个 skillsChoice selected skills 的 script/tool-level smoke;
  • 决定是否需要对 Cognition-Matrix-04Cognition-Matrix-07Cognition-Matrix-14 进行 timeout / web-fetch-failure targeted retest。