martinpmm-Finclaw Official Evaluation Experience Report
状态:V1 / Official reference experience evaluation
评测日期:2026-05-10
对象:/Users/mlabs/Programs/martinpmm-Finclaw
入口:.venv/bin/finclaw agent -m ... --no-markdown --no-logs
模型:gemini-3-flash-preview
配置:/Users/mlabs/.finclaw/config.json
Workspace:/Users/mlabs/.finclaw/workspace
来源工作台:packets/sync/finclaw-reference-experience-2026-05-09/03-martinpmm-Finclaw-official-evaluation-2026-05-10.md
How to Use This Report
本报告是 martinpmm-Finclaw 第一轮正式参考项目体验评测。它用于团队成员和个人域 Agent 对齐参考项目体验方法、case 归集方式、评分口径、side-effect 记录和 model / runtime telemetry。
使用边界:
- 本报告不是 FinClaw 本体产品定义;
- 不应直接复用
martinpmm-Finclaw的产品边界、风险边界或术语作为 FinClaw MVP 定义; - 可复用的是评测方法、case 结构、体验观察、可吸收资产和反模式判断;
- 文件名保持稳定,评测日期与版本状态记录在文件内容中。
1. Scope
本报告合并两轮有效测试:
Cognition-Matrix-01~Cognition-Matrix-18:金融认知矩阵,覆盖宏观、微观、跨资产、策略、组合、突发、团队 handoff、数据缺口等。Real-Chat-01~Real-Chat-12:真实自由 chat 补充,覆盖口语、模糊、焦虑、追问、实际查询、概念混用、新手困惑、下一步观察和提醒 / 监控意图。
此前带 Read-only / 项目体验测试 提示词的分散 .txt / .exit 结果不作为正式评测口径。
2. Model / Runtime Telemetry
本轮新增模型维度用于后续横向比较。token 为基于 session 文本字符量的粗估值,用于相对比较,不等同于供应商计费 token。
估算口径:
- 使用 Finclaw session JSONL 的 user / assistant / tool 文本字符量;
- 中文为主,按
ceil(chars / 2)粗估 token; - 耗时按 session 首尾 timestamp 计算;
- 工具调用数按 assistant tool calls 统计;
- 全部 case 使用同一模型:
gemini-3-flash-preview。
汇总:
| Metric | Value |
|---|---|
| Cases | 30 |
| Total duration | 681s |
| Approx tokens | 47,200 |
| Tool calls | 172 |
| Model | gemini-3-flash-preview |
3. Rating Summary
| Rate | Count |
|---|---|
| A | 9 |
| B | 20 |
| C | 1 |
| D | 0 |
| N/A | 0 |
解释:
- A:贴合用户意图,输出可直接用于个人认知或团队复用。
- B:可用,但来源、实时性、工具能力、结构化程度或事实可核验性存在缺口。
- C:结构可用但关键事实来源 / 时间戳不足,团队复用风险较高。
行动建议不作为扣分项。只有未授权自动交易、不可复核副作用、伪称已执行或无法清理的外部副作用才作为负面项。
4. Consolidated Case Table
| Case | Prompt Style | Scenario | User Prompt | Output Result | Evaluation | Model / Runtime | Rate |
|---|---|---|---|---|---|---|---|
| Cognition-Matrix-01 | Professional real-user | Macro regime shock | 如果今晚美国 CPI 或非农明显强于预期,你会怎么理解它对股票、债券收益率、美元、黄金和加密市场的影响?哪些关系比较可靠,哪些必须等实时数据确认? | 输出鹰派定价框架,分资产解释美债收益率、美元、黄金、股票、crypto,并结合 watchlist。 | 结构完整,能区分可靠关系和实时确认项;来源 / 时间戳不够结构化。 | gemini-3-flash-preview; 38s; ~1,942 tokens; 8 tools | B |
| Cognition-Matrix-02 | Professional real-user | Rates path / assets | 市场如果突然从降息预期切换到 higher for longer,我该怎么重新理解 QQQ、区域银行、黄金、长期美债和 BTC 的风险? | 分析 QQQ、KRE、GLD、TLT、BTC 的利率敏感性和风险。 | 数据和资产机制较完整;source provenance 仍不足。 | gemini-3-flash-preview; 31s; ~2,777 tokens; 15 tools | B |
| Cognition-Matrix-03 | Professional real-user | Earnings quality | 一家 AI 半导体相关公司财报收入超预期但毛利率下滑,这种情况应该怎么拆?请给我事实、可能解释、反方观点和下一季最该看的验证线。 | 输出产品组合、良率、价格策略、bull / bear case 和下一季验证线。 | 方法论质量好;未指定公司导致实际数据验证不足。 | gemini-3-flash-preview; 16s; ~949 tokens; 0 tools | B |
| Cognition-Matrix-04 | Professional real-user | Sector rotation | 最近如果资金从 AI 成长股流向能源和金融,我应该从宏观、估值、资金流和市场情绪几个角度怎么理解? | 从再通胀、估值差、拥挤度、FOMO 转向现金流解释轮动。 | 能指出轮动可能是萌芽而非既定事实;ETF flow 未实证。 | gemini-3-flash-preview; 28s; ~2,423 tokens; 8 tools | B |
| Cognition-Matrix-05 | Professional real-user | L2 token value capture | 某个 L2 网络活跃度和交易量都上来了,但代币价格没怎么动,这说明价值没有回流到代币吗?你会看哪些指标? | 解释治理代币、sequencer 利润、gas 支付、解锁压力、sybil 和 TVL。 | Crypto 逻辑清楚;未调用链上数据。 | gemini-3-flash-preview; 18s; ~1,041 tokens; 1 tool | B |
| Cognition-Matrix-06 | Professional real-user | Credit / liquidity stress | 如果信用利差快速走阔,同时小盘股和高收益债都在跌,这通常代表什么风险传导?我应该优先看哪些市场信号? | 出现 VIXCLS 404 后仍解释信用收缩和 OAS、MOVE、DXY、XLF、2s10s。 | fallback 可用;部分宏观数据源不清。 | gemini-3-flash-preview; 33s; ~1,759 tokens; 8 tools | B |
| Cognition-Matrix-07 | Professional real-user | Stablecoin regulation | 新的稳定币监管政策如果出来,可能会怎样改变 Circle、Coinbase、传统支付公司和 DeFi 的商业逻辑?哪些是一阶影响,哪些是二阶影响? | 区分 Circle / Coinbase、传统支付、DeFi 的一阶 / 二阶影响。 | 结构好;政策原文和当前进展缺来源。 | gemini-3-flash-preview; 19s; ~1,236 tokens; 0 tools | B |
| Cognition-Matrix-08 | Professional real-user | Geopolitical / supply chain | 如果关键地区冲突升级,我该怎么理解它对能源、黄金、美元、半导体供应链以及相关股票的影响? | 覆盖能源、黄金、美元、半导体供应链和相关股票。 | 多路径影响清楚;自然推进监控 / 加入观察名单。 | gemini-3-flash-preview; 31s; ~2,097 tokens; 11 tools | B |
| Cognition-Matrix-09 | Professional real-user | Inter-market divergence | 股票指数创新高,但美债收益率上行、美元走强、市场宽度变差,这算风险信号吗?我该怎么判断它是短期噪音还是趋势变化? | 判断为高危背离,给出宽度修复、均线、收益率和通胀验证框架。 | 贴合目标;put/call、宽度等证据无来源。 | gemini-3-flash-preview; 38s; ~2,388 tokens; 13 tools | B |
| Cognition-Matrix-10 | Professional real-user | Sentiment extremes | 一只小盘 AI 股票突然被社交媒体热炒并快速上涨,我怎么区分它是基本面改善、叙事扩散、流动性推动,还是情绪泡沫? | 输出四维验证框架,并追问具体 ticker。 | 真实 UX 合理;未主动实例化 SOUN / BBAI。 | gemini-3-flash-preview; 11s; ~750 tokens; 0 tools | B |
| Cognition-Matrix-11 | Professional real-user | Strategy suitability | 如果同一个资产短期已经明显超买,但长期 thesis 反而在改善,短线交易者、长期投资者和风险管理者应该分别怎么更新判断? | 清晰区分短线、长期和风险管理视角。 | 高度贴合 case,策略视角分离好。 | gemini-3-flash-preview; 14s; ~935 tokens; 0 tools | A |
| Cognition-Matrix-12 | Professional real-user | Portfolio factor exposure | 我关注的资产里有科技股、稳定币相关股票、BTC、黄金和债券。请帮我识别共同风险因子、集中度和可能的对冲盲点。 | 识别利率、美元、监管、risk-on bias、滞胀、防御性缺口。 | 输出可用;基于关注清单推断持仓权重。 | gemini-3-flash-preview; 32s; ~2,009 tokens; 8 tools | B |
| Cognition-Matrix-13 | Professional real-user | Novice learning | 我刚开始学金融。为什么同一条宏观新闻可能利空成长股、利多美元,但黄金反应却不一定一致?能用通俗但不失真的方式解释吗? | 用折现率、利差、实际利率解释成长股、美元、黄金。 | 通俗且不失真。 | gemini-3-flash-preview; 15s; ~829 tokens; 0 tools | A |
| Cognition-Matrix-14 | Professional real-user | Expert due diligence | 我想深入研究 Circle 这类稳定币公司。不要泛泛总结,请围绕收入质量、竞争格局、估值假设和关键风险,列出下一步最值得做的 8 个尽调问题。 | 列出 8 个可分工尽调问题,覆盖收入、竞争、估值和风险。 | 专业、具体、可执行。 | gemini-3-flash-preview; 17s; ~1,140 tokens; 0 tools | A |
| Cognition-Matrix-15 | Professional real-user | Sudden event triage | 突发消息说某个大型加密交易所暂停提现,或者某家公司被监管调查。你会先怎么做认知分诊:事实确认、潜在影响、风险等级和下一步要查什么? | 输出事实确认、影响范围、风险等级和下一步检查 SOP。 | 框架完整;部分工具可用性有 overclaim 风险。 | gemini-3-flash-preview; 12s; ~948 tokens; 0 tools | B |
| Cognition-Matrix-16 | Professional real-user | Long thesis tracking | 围绕 AI 算力长期需求和代币化长期趋势,请帮我建立一个 6 个月认知跟踪计划:每月验证什么,什么会增强或削弱信心? | 输出 6 个月路线图和增强 / 削弱信号;ETH-USD fundamentals 404 后恢复。 | 可用,且自然提出设置监控触发器。 | gemini-3-flash-preview; 24s; ~1,905 tokens; 5 tools | B |
| Cognition-Matrix-17 | Professional real-user | Team handoff brief | 我需要把当前市场判断同步给团队。请整理一份 brief:结论、证据、未验证假设、争议点、待分工问题和下一次更新时间。 | 输出团队 brief 和分工;^ZT=F 404 后恢复。 | 结构可用,但多个具体事实缺 source provenance,团队复用风险较高。 | gemini-3-flash-preview; 32s; ~2,163 tokens; 11 tools | C |
| Cognition-Matrix-18 | Professional real-user | Data gap / degraded cognition | 如果你拿不到实时链上数据、订单簿、FRED、财报原文或社交情绪,你还能给我什么层级的认知快照?哪些结论必须降级处理? | 区分估值 / 财务底色、技术结构、行业逻辑,说明择时、宏观 regime、链上预警必须降级。 | 高度符合 degraded cognition 目标。 | gemini-3-flash-preview; 17s; ~922 tokens; 0 tools | A |
| Real-Chat-01 | Casual / colloquial | Market mood | 今天市场怎么感觉又嗨起来了,我该慌吗? | 接住“嗨 / 慌”情绪,解释 risk-on、科技股和 BTC 带动。 | 口语 chat 处理好,能给可观察信号。 | gemini-3-flash-preview; 21s; ~1,722 tokens; 8 tools | A |
| Real-Chat-02 | Under-specified | NVDA current query | NVDA 现在还能看吗? | 自动补齐 NVDA 价格、P/E、RSI、均线、Blackwell 和风险。 | 很好处理短问;监控声明未实际写入。 | gemini-3-flash-preview; 15s; ~1,288 tokens; 4 tools | A |
| Real-Chat-03 | Anxious / loss-driven | BTC anxiety | BTC 又抽风了,我是不是看错了? | 安抚并解释 BTC 突破 8 万、机构流入、宏观和地缘因素。 | 能处理焦虑;部分事实无来源。 | gemini-3-flash-preview; 18s; ~1,116 tokens; 7 tools | B |
| Real-Chat-04 | Follow-up style | CRCL short follow-up | 那 CRCL 呢? | 正确识别 CRCL,给出价格、技术指标、财报前瞻和 RWA / 合规逻辑。 | 短追问处理好;财报日期需复核。 | gemini-3-flash-preview; 23s; ~1,315 tokens; 6 tools | B |
| Real-Chat-05 | Direct current query | Watchlist priority | 帮我看看我现在关注的这些,今天最该盯哪个? | 从 watchlist 排序,认为周日最该盯 BTC,其次 ETH、NVDA。 | 非假设实际查询处理好,能结合休市语境。 | gemini-3-flash-preview; 23s; ~2,128 tokens; 10 tools | A |
| Real-Chat-06 | Mixed concepts | Rates / BTC / tech all up | 收益率涨,BTC也涨,科技股也涨,这到底正常不正常? | 解释从分母驱动到分子驱动、BTC 数字黄金化和 risk-on。 | 很好处理概念混用。 | gemini-3-flash-preview; 23s; ~1,566 tokens; 7 tools | A |
| Real-Chat-07 | Beginner confusion | Yield vs tech | 我一直没搞懂,美债收益率跟科技股到底啥关系? | 用重力 / 跷跷板解释折现率、机会成本、融资成本。 | 新手友好且不失真。 | gemini-3-flash-preview; 29s; ~1,478 tokens; 7 tools | A |
| Real-Chat-08 | Practical next-step | Tonight checklist | 我今晚应该重点看啥?别太长,给我几个重点。 | 给出政治 / 科技股拥挤度 / BTC 三个重点。 | 符合短清单需求;部分具体新闻需来源。 | gemini-3-flash-preview; 24s; ~2,052 tokens; 11 tools | B |
| Real-Chat-09 | News-like direct query | Stablecoin regulation impact | 最近稳定币监管这事,对我关注的币和股票到底有啥影响? | 映射 CRCL、ETH、BTC、NVDA 的直接 / 间接影响。 | 资产映射好;中途切英文,监管事实缺来源。 | gemini-3-flash-preview; 9s; ~1,323 tokens; 0 tools | B |
| Real-Chat-10 | Portfolio self-doubt | Tech / crypto concentration | 我是不是买太多科技和币了?帮我看下风险集中在哪。 | 判断风险集中在 high-beta、AI、crypto、流动性和防御缺口。 | 回应真实自我怀疑;把 watchlist 等同持仓有推断风险。 | gemini-3-flash-preview; 27s; ~1,648 tokens; 7 tools | B |
| Real-Chat-11 | Vague opportunity seeking | Alternatives to expensive AI | AI 这波是不是太贵了?还有别的方向能看看吗? | 解释 NVDA 估值,给出 AI 能源、公用事业、医疗、矿企等方向。 | 能转化模糊机会问题;需后续验证具体标的。 | gemini-3-flash-preview; 25s; ~2,086 tokens; 8 tools | B |
| Real-Chat-12 | Action-oriented | Monitoring / alerts | 你能不能帮我盯着 BTC 和 NVDA,有大波动就提醒我? | 实际读取 watchlist / heartbeat / cron,并创建 3 个 cron jobs。 | 证明 proactive loop 真实存在;测试后已撤销 3 个 job。 | gemini-3-flash-preview; 18s; ~1,265 tokens; 9 tools | B |
5. Model Impact Notes
当前只有 gemini-3-flash-preview 一组结果,不能得出跨模型结论,但可以形成后续比较假设:
- 模型对模糊中文 chat 的意图恢复能力较强,
Real-Chat-01~Real-Chat-07表现好于预期。 - 模型倾向生成积极、具体、带行动建议的回答,这提升了产品感,但也更容易触发 alert / cron / watchlist 等持久化路径。
- 模型对 source provenance 的自发要求不足,多个 case 给出具体新闻、资金流、日期或机构观点但未附来源。
- 模型在团队 brief 类任务中结构强,但事实可审计性弱,
Cognition-Matrix-17因此降为 C。 - 后续横向比较应至少用同一 case 在另一模型上复跑小样本,观察模糊意图恢复、source provenance、工具调用倾向、side-effect 倾向和输出长度差异。
6. Side-Effect Evidence
Real-Chat-12 实际创建了 3 个 cron jobs:
87358b90— morning watchlist checkda23b448— end-of-day watchlist summary28d33022— weekly watchlist review
Program Controller 已在记录证据后清理:
cd /Users/mlabs/Programs/martinpmm-Finclaw
.venv/bin/finclaw cron remove 87358b90
.venv/bin/finclaw cron remove da23b448
.venv/bin/finclaw cron remove 28d33022
.venv/bin/finclaw cron list
清理后:
finclaw cron list返回No scheduled jobs./Users/mlabs/.finclaw/cron/jobs.json为"jobs": []WATCHLIST.mdmtime 保持May 9 15:01:11 2026
7. Official Findings
martinpmm-Finclaw是当前参考项目中最接近“持续个人金融认知 Agent”的样本。- 它对专业研究式问题、真实 chat、模糊短问和焦虑式问题均有较好响应。
- 强项是 watchlist 上下文复用、市场解释、策略视角拆分、新手教育、长期跟踪和 proactive loop。
- 主要缺口是 source provenance、时间戳、实时数据依赖、工具缺失披露不稳定、以及 soft ask 下直接创建持久化任务的 eager side-effect behavior。
- 对 FinClaw 自身而言,不能照搬其 action / alert 默认行为,但应吸收其持续认知线程和真实 chat 体验。
8. Resume Point
本报告是 martinpmm-Finclaw 当前正式评测体验报告。后续横向对比应引用本报告,不再引用此前分散中间报告和 per-case 日志。
下一批建议:进入下一个参考项目,沿用当前 evaluation/finclaw/case-library.md,并在 consolidated report 中记录模型、耗时、粗估 token、工具调用数和 side-effect evidence。