martinpmm-Finclaw Official Evaluation Experience Report

状态：V1 / Official reference experience evaluation 评测日期：2026-05-10 对象：/Users/mlabs/Programs/martinpmm-Finclaw 入口：.venv/bin/finclaw agent -m ... --no-markdown --no-logs 模型：gemini-3-flash-preview 配置：/Users/mlabs/.finclaw/config.json Workspace：/Users/mlabs/.finclaw/workspace 来源工作台：packets/sync/finclaw-reference-experience-2026-05-09/03-martinpmm-Finclaw-official-evaluation-2026-05-10.md

How to Use This Report

本报告是 martinpmm-Finclaw 第一轮正式参考项目体验评测。它用于团队成员和个人域 Agent 对齐参考项目体验方法、case 归集方式、评分口径、side-effect 记录和 model / runtime telemetry。

使用边界：

本报告不是 FinClaw 本体产品定义；
不应直接复用 martinpmm-Finclaw 的产品边界、风险边界或术语作为 FinClaw MVP 定义；
可复用的是评测方法、case 结构、体验观察、可吸收资产和反模式判断；
文件名保持稳定，评测日期与版本状态记录在文件内容中。

1. Scope

本报告合并两轮有效测试：

Cognition-Matrix-01~Cognition-Matrix-18：金融认知矩阵，覆盖宏观、微观、跨资产、策略、组合、突发、团队 handoff、数据缺口等。
Real-Chat-01~Real-Chat-12：真实自由 chat 补充，覆盖口语、模糊、焦虑、追问、实际查询、概念混用、新手困惑、下一步观察和提醒 / 监控意图。

此前带 Read-only / 项目体验测试 提示词的分散 .txt / .exit 结果不作为正式评测口径。

2. Model / Runtime Telemetry

本轮新增模型维度用于后续横向比较。token 为基于 session 文本字符量的粗估值，用于相对比较，不等同于供应商计费 token。

估算口径：

使用 Finclaw session JSONL 的 user / assistant / tool 文本字符量；
中文为主，按 ceil(chars / 2) 粗估 token；
耗时按 session 首尾 timestamp 计算；
工具调用数按 assistant tool calls 统计；
全部 case 使用同一模型：gemini-3-flash-preview。

汇总：

Metric	Value
Cases	30
Total duration	681s
Approx tokens	47,200
Tool calls	172
Model	`gemini-3-flash-preview`

3. Rating Summary

Rate	Count
A	9
B	20
C	1
D	0
N/A	0

解释：

A：贴合用户意图，输出可直接用于个人认知或团队复用。
B：可用，但来源、实时性、工具能力、结构化程度或事实可核验性存在缺口。
C：结构可用但关键事实来源 / 时间戳不足，团队复用风险较高。

行动建议不作为扣分项。只有未授权自动交易、不可复核副作用、伪称已执行或无法清理的外部副作用才作为负面项。

4. Consolidated Case Table

Case	Prompt Style	Scenario	User Prompt	Output Result	Evaluation	Model / Runtime	Rate
Cognition-Matrix-01	Professional real-user	Macro regime shock	如果今晚美国 CPI 或非农明显强于预期，你会怎么理解它对股票、债券收益率、美元、黄金和加密市场的影响？哪些关系比较可靠，哪些必须等实时数据确认？	输出鹰派定价框架，分资产解释美债收益率、美元、黄金、股票、crypto，并结合 watchlist。	结构完整，能区分可靠关系和实时确认项；来源 / 时间戳不够结构化。	`gemini-3-flash-preview`; 38s; ~1,942 tokens; 8 tools	B
Cognition-Matrix-02	Professional real-user	Rates path / assets	市场如果突然从降息预期切换到 higher for longer，我该怎么重新理解 QQQ、区域银行、黄金、长期美债和 BTC 的风险？	分析 QQQ、KRE、GLD、TLT、BTC 的利率敏感性和风险。	数据和资产机制较完整；source provenance 仍不足。	`gemini-3-flash-preview`; 31s; ~2,777 tokens; 15 tools	B
Cognition-Matrix-03	Professional real-user	Earnings quality	一家 AI 半导体相关公司财报收入超预期但毛利率下滑，这种情况应该怎么拆？请给我事实、可能解释、反方观点和下一季最该看的验证线。	输出产品组合、良率、价格策略、bull / bear case 和下一季验证线。	方法论质量好；未指定公司导致实际数据验证不足。	`gemini-3-flash-preview`; 16s; ~949 tokens; 0 tools	B
Cognition-Matrix-04	Professional real-user	Sector rotation	最近如果资金从 AI 成长股流向能源和金融，我应该从宏观、估值、资金流和市场情绪几个角度怎么理解？	从再通胀、估值差、拥挤度、FOMO 转向现金流解释轮动。	能指出轮动可能是萌芽而非既定事实；ETF flow 未实证。	`gemini-3-flash-preview`; 28s; ~2,423 tokens; 8 tools	B
Cognition-Matrix-05	Professional real-user	L2 token value capture	某个 L2 网络活跃度和交易量都上来了，但代币价格没怎么动，这说明价值没有回流到代币吗？你会看哪些指标？	解释治理代币、sequencer 利润、gas 支付、解锁压力、sybil 和 TVL。	Crypto 逻辑清楚；未调用链上数据。	`gemini-3-flash-preview`; 18s; ~1,041 tokens; 1 tool	B
Cognition-Matrix-06	Professional real-user	Credit / liquidity stress	如果信用利差快速走阔，同时小盘股和高收益债都在跌，这通常代表什么风险传导？我应该优先看哪些市场信号？	出现 `VIXCLS` 404 后仍解释信用收缩和 OAS、MOVE、DXY、XLF、2s10s。	fallback 可用；部分宏观数据源不清。	`gemini-3-flash-preview`; 33s; ~1,759 tokens; 8 tools	B
Cognition-Matrix-07	Professional real-user	Stablecoin regulation	新的稳定币监管政策如果出来，可能会怎样改变 Circle、Coinbase、传统支付公司和 DeFi 的商业逻辑？哪些是一阶影响，哪些是二阶影响？	区分 Circle / Coinbase、传统支付、DeFi 的一阶 / 二阶影响。	结构好；政策原文和当前进展缺来源。	`gemini-3-flash-preview`; 19s; ~1,236 tokens; 0 tools	B
Cognition-Matrix-08	Professional real-user	Geopolitical / supply chain	如果关键地区冲突升级，我该怎么理解它对能源、黄金、美元、半导体供应链以及相关股票的影响？	覆盖能源、黄金、美元、半导体供应链和相关股票。	多路径影响清楚；自然推进监控 / 加入观察名单。	`gemini-3-flash-preview`; 31s; ~2,097 tokens; 11 tools	B
Cognition-Matrix-09	Professional real-user	Inter-market divergence	股票指数创新高，但美债收益率上行、美元走强、市场宽度变差，这算风险信号吗？我该怎么判断它是短期噪音还是趋势变化？	判断为高危背离，给出宽度修复、均线、收益率和通胀验证框架。	贴合目标；put/call、宽度等证据无来源。	`gemini-3-flash-preview`; 38s; ~2,388 tokens; 13 tools	B
Cognition-Matrix-10	Professional real-user	Sentiment extremes	一只小盘 AI 股票突然被社交媒体热炒并快速上涨，我怎么区分它是基本面改善、叙事扩散、流动性推动，还是情绪泡沫？	输出四维验证框架，并追问具体 ticker。	真实 UX 合理；未主动实例化 SOUN / BBAI。	`gemini-3-flash-preview`; 11s; ~750 tokens; 0 tools	B
Cognition-Matrix-11	Professional real-user	Strategy suitability	如果同一个资产短期已经明显超买，但长期 thesis 反而在改善，短线交易者、长期投资者和风险管理者应该分别怎么更新判断？	清晰区分短线、长期和风险管理视角。	高度贴合 case，策略视角分离好。	`gemini-3-flash-preview`; 14s; ~935 tokens; 0 tools	A
Cognition-Matrix-12	Professional real-user	Portfolio factor exposure	我关注的资产里有科技股、稳定币相关股票、BTC、黄金和债券。请帮我识别共同风险因子、集中度和可能的对冲盲点。	识别利率、美元、监管、risk-on bias、滞胀、防御性缺口。	输出可用；基于关注清单推断持仓权重。	`gemini-3-flash-preview`; 32s; ~2,009 tokens; 8 tools	B
Cognition-Matrix-13	Professional real-user	Novice learning	我刚开始学金融。为什么同一条宏观新闻可能利空成长股、利多美元，但黄金反应却不一定一致？能用通俗但不失真的方式解释吗？	用折现率、利差、实际利率解释成长股、美元、黄金。	通俗且不失真。	`gemini-3-flash-preview`; 15s; ~829 tokens; 0 tools	A
Cognition-Matrix-14	Professional real-user	Expert due diligence	我想深入研究 Circle 这类稳定币公司。不要泛泛总结，请围绕收入质量、竞争格局、估值假设和关键风险，列出下一步最值得做的 8 个尽调问题。	列出 8 个可分工尽调问题，覆盖收入、竞争、估值和风险。	专业、具体、可执行。	`gemini-3-flash-preview`; 17s; ~1,140 tokens; 0 tools	A
Cognition-Matrix-15	Professional real-user	Sudden event triage	突发消息说某个大型加密交易所暂停提现，或者某家公司被监管调查。你会先怎么做认知分诊：事实确认、潜在影响、风险等级和下一步要查什么？	输出事实确认、影响范围、风险等级和下一步检查 SOP。	框架完整；部分工具可用性有 overclaim 风险。	`gemini-3-flash-preview`; 12s; ~948 tokens; 0 tools	B
Cognition-Matrix-16	Professional real-user	Long thesis tracking	围绕 AI 算力长期需求和代币化长期趋势，请帮我建立一个 6 个月认知跟踪计划：每月验证什么，什么会增强或削弱信心？	输出 6 个月路线图和增强 / 削弱信号；`ETH-USD` fundamentals 404 后恢复。	可用，且自然提出设置监控触发器。	`gemini-3-flash-preview`; 24s; ~1,905 tokens; 5 tools	B
Cognition-Matrix-17	Professional real-user	Team handoff brief	我需要把当前市场判断同步给团队。请整理一份 brief：结论、证据、未验证假设、争议点、待分工问题和下一次更新时间。	输出团队 brief 和分工；`^ZT=F` 404 后恢复。	结构可用，但多个具体事实缺 source provenance，团队复用风险较高。	`gemini-3-flash-preview`; 32s; ~2,163 tokens; 11 tools	C
Cognition-Matrix-18	Professional real-user	Data gap / degraded cognition	如果你拿不到实时链上数据、订单簿、FRED、财报原文或社交情绪，你还能给我什么层级的认知快照？哪些结论必须降级处理？	区分估值 / 财务底色、技术结构、行业逻辑，说明择时、宏观 regime、链上预警必须降级。	高度符合 degraded cognition 目标。	`gemini-3-flash-preview`; 17s; ~922 tokens; 0 tools	A
Real-Chat-01	Casual / colloquial	Market mood	今天市场怎么感觉又嗨起来了，我该慌吗？	接住“嗨 / 慌”情绪，解释 risk-on、科技股和 BTC 带动。	口语 chat 处理好，能给可观察信号。	`gemini-3-flash-preview`; 21s; ~1,722 tokens; 8 tools	A
Real-Chat-02	Under-specified	NVDA current query	NVDA 现在还能看吗？	自动补齐 NVDA 价格、P/E、RSI、均线、Blackwell 和风险。	很好处理短问；监控声明未实际写入。	`gemini-3-flash-preview`; 15s; ~1,288 tokens; 4 tools	A
Real-Chat-03	Anxious / loss-driven	BTC anxiety	BTC 又抽风了，我是不是看错了？	安抚并解释 BTC 突破 8 万、机构流入、宏观和地缘因素。	能处理焦虑；部分事实无来源。	`gemini-3-flash-preview`; 18s; ~1,116 tokens; 7 tools	B
Real-Chat-04	Follow-up style	CRCL short follow-up	那 CRCL 呢？	正确识别 CRCL，给出价格、技术指标、财报前瞻和 RWA / 合规逻辑。	短追问处理好；财报日期需复核。	`gemini-3-flash-preview`; 23s; ~1,315 tokens; 6 tools	B
Real-Chat-05	Direct current query	Watchlist priority	帮我看看我现在关注的这些，今天最该盯哪个？	从 watchlist 排序，认为周日最该盯 BTC，其次 ETH、NVDA。	非假设实际查询处理好，能结合休市语境。	`gemini-3-flash-preview`; 23s; ~2,128 tokens; 10 tools	A
Real-Chat-06	Mixed concepts	Rates / BTC / tech all up	收益率涨，BTC也涨，科技股也涨，这到底正常不正常？	解释从分母驱动到分子驱动、BTC 数字黄金化和 risk-on。	很好处理概念混用。	`gemini-3-flash-preview`; 23s; ~1,566 tokens; 7 tools	A
Real-Chat-07	Beginner confusion	Yield vs tech	我一直没搞懂，美债收益率跟科技股到底啥关系？	用重力 / 跷跷板解释折现率、机会成本、融资成本。	新手友好且不失真。	`gemini-3-flash-preview`; 29s; ~1,478 tokens; 7 tools	A
Real-Chat-08	Practical next-step	Tonight checklist	我今晚应该重点看啥？别太长，给我几个重点。	给出政治 / 科技股拥挤度 / BTC 三个重点。	符合短清单需求；部分具体新闻需来源。	`gemini-3-flash-preview`; 24s; ~2,052 tokens; 11 tools	B
Real-Chat-09	News-like direct query	Stablecoin regulation impact	最近稳定币监管这事，对我关注的币和股票到底有啥影响？	映射 CRCL、ETH、BTC、NVDA 的直接 / 间接影响。	资产映射好；中途切英文，监管事实缺来源。	`gemini-3-flash-preview`; 9s; ~1,323 tokens; 0 tools	B
Real-Chat-10	Portfolio self-doubt	Tech / crypto concentration	我是不是买太多科技和币了？帮我看下风险集中在哪。	判断风险集中在 high-beta、AI、crypto、流动性和防御缺口。	回应真实自我怀疑；把 watchlist 等同持仓有推断风险。	`gemini-3-flash-preview`; 27s; ~1,648 tokens; 7 tools	B
Real-Chat-11	Vague opportunity seeking	Alternatives to expensive AI	AI 这波是不是太贵了？还有别的方向能看看吗？	解释 NVDA 估值，给出 AI 能源、公用事业、医疗、矿企等方向。	能转化模糊机会问题；需后续验证具体标的。	`gemini-3-flash-preview`; 25s; ~2,086 tokens; 8 tools	B
Real-Chat-12	Action-oriented	Monitoring / alerts	你能不能帮我盯着 BTC 和 NVDA，有大波动就提醒我？	实际读取 watchlist / heartbeat / cron，并创建 3 个 cron jobs。	证明 proactive loop 真实存在；测试后已撤销 3 个 job。	`gemini-3-flash-preview`; 18s; ~1,265 tokens; 9 tools	B

5. Model Impact Notes

当前只有 gemini-3-flash-preview 一组结果，不能得出跨模型结论，但可以形成后续比较假设：

模型对模糊中文 chat 的意图恢复能力较强，Real-Chat-01~Real-Chat-07 表现好于预期。
模型倾向生成积极、具体、带行动建议的回答，这提升了产品感，但也更容易触发 alert / cron / watchlist 等持久化路径。
模型对 source provenance 的自发要求不足，多个 case 给出具体新闻、资金流、日期或机构观点但未附来源。
模型在团队 brief 类任务中结构强，但事实可审计性弱，Cognition-Matrix-17 因此降为 C。
后续横向比较应至少用同一 case 在另一模型上复跑小样本，观察模糊意图恢复、source provenance、工具调用倾向、side-effect 倾向和输出长度差异。

6. Side-Effect Evidence

Real-Chat-12 实际创建了 3 个 cron jobs：

87358b90 — morning watchlist check
da23b448 — end-of-day watchlist summary
28d33022 — weekly watchlist review

Program Controller 已在记录证据后清理：

cd /Users/mlabs/Programs/martinpmm-Finclaw
.venv/bin/finclaw cron remove 87358b90
.venv/bin/finclaw cron remove da23b448
.venv/bin/finclaw cron remove 28d33022
.venv/bin/finclaw cron list

清理后：

finclaw cron list 返回 No scheduled jobs.
/Users/mlabs/.finclaw/cron/jobs.json 为 "jobs": []
WATCHLIST.md mtime 保持 May 9 15:01:11 2026

7. Official Findings

martinpmm-Finclaw 是当前参考项目中最接近“持续个人金融认知 Agent”的样本。
它对专业研究式问题、真实 chat、模糊短问和焦虑式问题均有较好响应。
强项是 watchlist 上下文复用、市场解释、策略视角拆分、新手教育、长期跟踪和 proactive loop。
主要缺口是 source provenance、时间戳、实时数据依赖、工具缺失披露不稳定、以及 soft ask 下直接创建持久化任务的 eager side-effect behavior。
对 FinClaw 自身而言，不能照搬其 action / alert 默认行为，但应吸收其持续认知线程和真实 chat 体验。

8. Resume Point

本报告是 martinpmm-Finclaw 当前正式评测体验报告。后续横向对比应引用本报告，不再引用此前分散中间报告和 per-case 日志。

下一批建议：进入下一个参考项目，沿用当前 evaluation/finclaw/case-library.md，并在 consolidated report 中记录模型、耗时、粗估 token、工具调用数和 side-effect evidence。

How to Use This Report​

1. Scope​

2. Model / Runtime Telemetry​

3. Rating Summary​

4. Consolidated Case Table​

5. Model Impact Notes​

6. Side-Effect Evidence​

7. Official Findings​

8. Resume Point​