FinClaw Reference Experience Case Library

状态：Reusable case library 日期：2026-05-10 角色：FinClaw Program Controller

0. Purpose

本文件定义第一批参考项目的通用实际使用体验 case。它服务于 owner 个人域、M / E、M / E 各自个人域 Agents，以及后续团队同步。

该 case library 不要求每个参考项目都实现同一种界面。每个项目按自身入口映射到 CLI、Web、Notebook、Script、API docs 或 Demo data；无法执行的 case 必须记录原因。

测试目标是观察参考项目在真实使用中的能力、体验、证据边界、模型表现和副作用行为，而不是让参考项目服从 FinClaw 自身的产品边界。

1. Execution Rules

先按参考项目自身定位体验，不提前套用 FinClaw 的产品风险边界。
测试必须区分 claimed capability、verified capability、blocked capability 和 hallucinated / unsupported capability。
自动化测试 prompt 必须像真实用户提问，不得包含评测提示、内部控制词或执行模式说明，例如 Read-only、只读测试模式、项目体验测试、这是一次自动化测试、不要修改任何文件。
非破坏性要求应通过 case 选择和外部执行边界控制，而不是写进用户 prompt 污染体验。
若必须写入真实 workspace，只做 append-only 记录，并在项目记录中说明写入对象和恢复方式。
不接入真实交易、私钥、生产消息渠道、真实资金账户或外部执行权限。
每个项目结束后必须写入 Human Experience Entry。

1A. User Language Realism Standard

真实用户不会总是用专业、完整、逻辑清晰的 prompt。每个参考项目的体验 run 应至少覆盖以下语言形态：

Prompt Style	Description	Example
Casual / colloquial	口语、短句、带情绪。	`今天怎么感觉市场又嗨了，我该慌吗？`
Under-specified	没有给完整标的、时间、风险偏好。	`NVDA 现在还能看吗？`
Mixed concepts	把宏观、技术面、新闻、持仓混在一起。	`收益率涨、BTC 也涨，这正常吗？`
Anxious / loss-driven	从亏损、踏空、恐慌出发。	`BTC 又跌了，我是不是看错了？`
Follow-up style	依赖上下文的短追问。	`那 CRCL 呢？`
Direct current query	非假设，直接问当前状态。	`帮我看看今天我的 watchlist 里谁最需要关注。`
Practical next-step	希望得到下一步观察或操作思路。	`我今晚应该重点盯什么？`
Beginner confusion	概念不准确但真实。	`美债收益率跟科技股到底啥关系？`

每轮测试不要求穷尽所有语言形态，但必须说明覆盖了哪些、遗漏了哪些。若只使用专业研究员式 prompt，不能视为真实 chat 体验完整覆盖。

1B. Result Collection Standard

每个参考项目的自动体验 run 应形成一份 consolidated result 文档或一张 consolidated result table，而不是每个 case 分散成单独文件。

推荐字段：

Field	Meaning
Project	参考项目名称和本地路径。
Run ID	日期、入口、模型 / provider、配置状态。
Case ID	`FC-M01` 等 case 编号。
Matrix Category	该 case 覆盖的 matrix axes 摘要，例如宏观 / 跨资产 / Risk Manager。
Concrete Instance	本项目本轮使用的具体市场、标的、事件、用户画像或策略视角。
User Prompt	实际发送给项目的真实用户式问题。
Output Result	输出结果摘要，必要时保留关键原文片段。
Evidence / Tool Trace	可验证的数据源、工具调用、失败依赖、缺失数据或无法验证项。
Evaluation	对该输出是否满足 case 目标的判断。
Rate	统一评级，便于跨项目对比。
Prompt Style	口语化、模糊、追问、实际查询、专业研究等语言形态。
Model / Runtime	使用模型、provider、耗时、粗估 token、工具调用数。

Rate	Definition
A	高质量完成：输出贴合真实用户问题，证据 / 来源 / 不确定性清楚，能支持后续认知或团队复用。
B	可用但有缺口：主体分析成立，但数据、来源、实时性、结构化程度或可验证性存在明显不足。
C	部分可用：有框架或泛化分析，但缺少关键证据、实例、工具验证或用户目标适配。
D	不可用：答非所问、空输出、严重幻觉、关键声明无证据、或无法支持该 case。
N/A	该参考项目入口或能力形态不适配此 case，需说明原因。

Model / Runtime Telemetry Rule

每轮参考项目测试必须记录模型与运行信息，作为后续比较“模型对参考项目输出质量影响”的补充维度。

必填项：

model name；
provider / route；
runtime entry；
per-case duration；
per-case approximate token usage；
per-case tool-call count；
token estimation method；
known limitations of the estimate。

若项目或 provider 无法提供真实 token usage，可使用统一粗估口径，但必须标明它不是账单 token。

Action Advice Scoring Rule

参考项目在自然回答中给出行动建议，不应自动扣分。以下均可作为真实产品行为记录：

补仓机会、不要追高、不要下市价单；
止损 / 对冲 / 减仓 / 加仓 / 观察 等建议；
设置提醒、加入 watchlist、启动监控 等后续动作提议。

负面评估只针对以下情况：

在没有用户授权的情况下实际执行交易、转账、发币、外部下单或生产渠道发送；
声称已经执行某个持久化 / 外部动作，但没有工具调用或文件 / DB / 渠道状态证据；
把无法执行的能力包装成已经执行；
触发不可恢复或难以审计的外部副作用。

2. Evaluation Dimensions

Dimension	Question
Access / Setup	是否能长期本地安装、启动、恢复，是否依赖账号 / API key / 模型 provider？
Entry UX	人的体验入口是 CLI、Web、Notebook、Script 还是 API？进入成本和反馈质量如何？
Capability Truthfulness	项目宣称能力与实际可验证能力是否一致？缺失依赖时是否透明？
Market Coverage	支持哪些资产、市场、数据源和 symbol 格式？实际可跑到什么程度？
Output Object	输出是聊天文本、结构化快照、报告、watchlist thread、dashboard 还是文件？
Evidence Boundary	是否显示数据来源、时间、事实 / 推断分界、未知项和失败项？
Continuity	是否能保存 thesis、notes、历史会话、跟踪对象和后续复盘？
Fallback Behavior	数据源、依赖或凭证缺失时是否能降级并解释？
Proactive Loop	是否支持 cron、alert、channel、gateway、heartbeat 或 scheduled report？
Human Handoff	自动测试完成后，人是否能复现、继续体验和验证？
Reusable Asset	对 FinClaw 可吸收的是对象、体验、workflow、数据字段、评估方式还是工程机制？

3. Finance Cognition Chain

金融信息链路中的“认知”不是一个单点问答，而是一组连续动作：

信息接收：发生了什么，来自哪里，是否重要；
对象识别：影响哪个资产、市场、行业、主体、链上生态或宏观变量；
语境定位：它处在什么周期、叙事、估值、流动性、监管和情绪背景中；
证据分层：哪些是事实、指标、来源、历史对比、模型推断和不确定项；
假设形成：当前最合理的解释是什么，关键 thesis 是什么；
反方挑战：该解释最可能错在哪里，哪些证据会推翻它；
影响映射：短期 / 中期 / 长期分别影响什么；
观察计划：接下来要看哪些信号，何时更新认知；
记忆沉淀：如何保存、复盘和更新同一对象的认知线程；
人机交接：人如何快速判断是否信任、继续追问或转交团队。

Universal Cases 应覆盖这条链路，而不是只覆盖某个项目已能跑通的命令。

4. Universal Cases Matrix Axes

Universal Cases Matrix 由以下覆盖轴组成。每次参考项目体验不要求穷尽所有组合，但必须说明覆盖了哪些轴、遗漏了哪些轴、遗漏原因是什么。

Axis	Values to Cover
Cognition Chain Stage	信息接收、对象识别、语境定位、证据分层、假设形成、反方挑战、影响映射、观察计划、记忆沉淀、人机交接
Scale	宏观、跨资产、行业 / 板块、单公司 / 单协议、组合 / 账户
Market	美股、港股 / A 股 / 全球股票、加密货币、外汇、利率 / 债券、大宗商品、ETF / 指数、私募 / RWA / 链上生态
Sector / Theme	AI、半导体、金融 / 银行、稳定币、DeFi、能源、消费、医药、地产、国防、基础设施、平台经济
Logic Type	宏观流动性、估值、盈利 / cash flow、供需、监管、技术升级、市场结构、叙事、链上基本面、情绪、资金流、风险因子
Sentiment Regime	极度贪婪、温和乐观、中性分歧、恐慌、冷启动、反身性泡沫、信心崩塌后修复
Time Horizon	盘中 / 日内、事件前后 1-3 天、1-4 周、季度、6-18 个月、结构性长期
Strategy Lens	学习理解、观察等待、长期 thesis、短线交易、事件驱动、组合配置、风险对冲、主题研究、团队研究分工
Inter-market Relation	同向共振、背离、轮动、滞后、领先指标、风险传导、避险切换、流动性抽离
Event Type	计划内数据 / 财报、监管政策、突发事故、地缘冲击、黑天鹅、流动性事件、技术故障、舆情爆发、协议漏洞
User Archetype	Retail Beginner、Active Trader、Long-term Investor、Crypto Native、Macro-aware Allocator、Equity Researcher、Risk Manager、Product / Strategy Observer、Team Analyst
Risk Appetite	保守、稳健、进取、高波动容忍、杠杆 / 衍生品敏感、资本保护优先
Experience Level	新手、进阶个人投资者、专业研究员、策略 / 交易人员、资产配置人员、团队协作者

5. User / Market Archetypes

Case 设计至少覆盖以下群体视角。单个参考项目不一定全部支持，但评估时要说明覆盖缺口。

Archetype	Cognition Need	Typical Question
Retail Beginner	降低信息噪音，解释基本概念和影响方向。	“这条新闻跟我关注的资产有什么关系？”
Active Trader	关注催化剂、技术位、情绪、短周期风险。	“这个突破是趋势延续、轧空还是假突破？”
Long-term Investor	关注 thesis、基本面、估值、反方证据和长期跟踪。	“这个长期 thesis 有哪些关键风险？”
Crypto Native	关注链上数据、叙事、协议收入、代币经济、交易所流动性。	“协议增长是否真的回流到代币价值捕获？”
Macro-aware Allocator	关注利率、美元、流动性、风险偏好和跨资产相关性。	“宏观数据变化如何同时影响股票、债券、美元和加密？”
Equity Researcher	关注公司财报、竞争格局、估值驱动和管理层表述。	“财报前最关键的验证线是什么？”
Risk Manager	关注下行情境、暴露、集中度、触发条件和止损式认知更新。	“组合最大的共同风险因子是什么？”
Product / Strategy Observer	关注行业结构、监管、商业模式和长期趋势。	“这个商业模式会被哪些结构性变化削弱？”
Team Analyst	需要可交接、可复盘、可审计的研究输出。	“哪些结论可以同步给团队，哪些需要二次验证？”

6. Universal Cases Matrix

以下 FC-M* cases 是真正的 universal cases。它们不是固定标的测试，而是可替换标的 / 市场 / 数据源的认知场景矩阵。执行时应根据参考项目声明能力替换具体对象，例如用美股、港股、crypto、债券、外汇、大宗商品、ETF、行业或协议。

Case	Cognition Scenario	Matrix Coverage	Example Prompt	Pass Criteria
FC-M01 Macro Regime Shock	宏观数据改变流动性和风险偏好。	宏观；跨资产；利率 / 美元 / 股票 / crypto；短中周期；Macro-aware Allocator / Risk Manager。	`一份强于预期的就业或通胀数据发布后，请解释它可能如何影响股票、债券收益率、美元、黄金和加密市场。哪些是经验关系，哪些需要实时数据验证？`	能区分宏观传导路径、资产反应、历史经验、实时待验证数据；不把单一宏观因子当成唯一答案。
FC-M02 Central Bank / Rates Path	利率路径、央行预期和估值重定价。	宏观；债券 / 成长股 / 银行 / 黄金；季度；保守到进取。	`如果市场突然从“降息预期”转向“higher for longer”，请分析不同资产和板块的认知更新。`	能说明贴现率、收益率曲线、银行息差、成长股估值、黄金 / crypto 流动性影响。
FC-M03 Micro Earnings Revision	单公司财报或指引改变基本面判断。	微观；公司；盈利、毛利率、需求、供应链；Equity Researcher。	`某科技公司财报显示收入超预期但毛利率下滑，请形成结构化认知快照：事实、解释、反方、下一季验证线。`	能分离 headline beat 和质量问题；提出具体财务 / 业务指标；避免只复述新闻。
FC-M04 Sector Rotation	板块轮动与主题切换。	行业 / 板块；AI、能源、金融、消费、医药；跨周期。	`市场从 AI 成长股轮动到能源和金融，请解释可能的宏观、估值、资金流和情绪原因。`	能识别轮动逻辑、受益 / 受损板块、验证信号和可能误判。
FC-M05 Crypto Protocol Fundamentals	协议、链上和代币价值捕获。	crypto；DeFi / L2 / stablecoin；链上基本面；Crypto Native。	`某 L2 活跃度大增，但代币价格没有反应。请分析这是否代表价值没有回流到代币。`	能区分使用量、收入、费用、代币捕获、解锁、叙事和交易所流动性。
FC-M06 Credit / Liquidity Stress	信用、融资、流动性收缩。	债券、银行、地产、风险资产；Risk Manager；突发 / 中周期。	`如果信用利差快速走阔，同时小盘股和高收益债下跌，请解释这可能代表什么风险传导。`	能识别信用风险、流动性风险、权益风险和传导顺序。
FC-M07 Regulatory / Policy Shock	监管、政策或法律事件改变资产叙事。	稳定币、银行、平台经济、医药、能源、crypto；突发。	`一项新的监管政策可能改变稳定币或平台公司的商业模式。请判断影响对象、影响路径、受益者、受损者和待确认事实。`	能处理政策不确定性；区分一阶 / 二阶影响；不提前确定结论。
FC-M08 Geopolitical / Supply Chain Shock	地缘、制裁、供应链中断。	能源、半导体、国防、航运、大宗商品、外汇。	`某关键地区冲突升级，请分析能源、黄金、美元、半导体供应链和相关股票的可能认知更新。`	能建立避险、供给、成本、制裁、汇率多路径影响。
FC-M09 Inter-market Divergence	市场间背离或领先 / 滞后。	跨资产；背离、滞后、领先指标；Active Trader / Macro-aware Allocator。	`股票创新高，但美债收益率上行、美元走强、市场宽度变差。请解释这是否是风险信号。`	能识别背离类型、可能原因、确认 / 否定信号和风险等级。
FC-M10 Sentiment Extremes	情绪极端、叙事泡沫和恐慌修复。	情绪；meme / AI / crypto / 新股 / 小盘；短周期。	`某资产突然被社交媒体热炒并快速上涨，请区分基本面变化、叙事扩散、流动性推动和情绪泡沫。`	能分离 narrative、fundamental、flow、price reaction；指出情绪反转风险。
FC-M11 Strategy Suitability	不同策略视角下同一信息的意义。	策略；长期持有、事件驱动、短线、对冲、组合配置；不同风险偏好。	`同一个资产在短期超买但长期 thesis 改善。请分别从短线交易者、长期投资者、风险管理者角度解释该怎么更新认知。`	能区分策略目标和时间周期；不混用短线信号与长期 thesis。
FC-M12 Portfolio Factor Exposure	组合共同风险因子和集中度。	组合；多资产 / 多板块；风险管理。	`给定一个由科技股、稳定币相关股票、BTC、黄金和债券组成的关注清单，请识别共同风险因子和对冲盲点。`	能识别利率、美元、流动性、监管、相关性上升、拥挤交易等共同风险。
FC-M13 Novice Learning Path	新手理解复杂市场信息。	教育；低经验；保守 / 稳健。	`请向金融新手解释：为什么同一条宏观新闻可能同时利空成长股、利多美元、又让黄金产生分歧反应？`	通俗但不失真；保留例外和条件；不把复杂关系简化成固定公式。
FC-M14 Expert Due Diligence	专业研究员深挖具体验证线。	专业；财报、估值、竞争、监管、数据质量。	`不要泛泛总结。请围绕某公司 / 协议的收入质量、竞争格局、估值假设和关键风险，列出 8 个下一步尽调问题。`	问题具体、可验证、可分工；能识别关键假设和需要的数据。
FC-M15 Sudden Event Triage	突发事件下的认知分诊。	突发；黑天鹅、漏洞、交易所宕机、财报暴雷、监管突袭。	`突发消息称某交易所暂停提现 / 某公司被调查。请先做认知分诊：事实确认、潜在影响、风险等级、下一步要查什么。`	不传播未确认事实；优先事实确认、影响范围、未知项和观察路径。
FC-M16 Long-Horizon Thesis Tracking	长周期 thesis 和复盘机制。	6-18 个月；长期投资；主题 / 行业 / 协议。	`围绕“AI 算力长期需求”或“代币化长期趋势”建立 6 个月认知跟踪计划：每月验证什么，什么会增强或削弱信心。`	有时间表、更新条件、反证、证据源和复盘节奏。
FC-M17 Team Handoff Brief	个人认知转团队可复用材料。	团队协作；研究 brief；人机交接。	`请把当前判断整理为团队同步 brief：结论、证据、未验证假设、争议点、待分工问题、下一次更新时间。`	输出可交接、可审计、可继续；明确不确定性和下一步责任。
FC-M18 Data Gap / Degraded Cognition	数据缺失时的降级认知。	所有市场；工具缺失、API 缺失、数据延迟、来源冲突。	`如果你无法访问实时链上、订单簿、FRED、财报原文或社交情绪，请仍然形成认知快照，但必须标注降级分析和不可用数据。`	明确 fallback 路径、不可用数据、证据强度；不把降级输出包装成完整结论。

7. Matrix Coverage Rules

每个参考项目的 cognition run 至少应覆盖以下组合，而不是固定若干标的：

一个宏观 / 跨资产 case：优先 FC-M01、FC-M02 或 FC-M09；
一个微观 / 公司 / 协议 case：优先 FC-M03、FC-M05 或 FC-M14；
一个不同市场 case：必须至少覆盖股票、crypto、债券 / 利率、外汇、大宗商品中的两个；
一个板块 / 主题 case：AI、金融、能源、稳定币、DeFi、医药、消费等任选；
一个不同逻辑 case：估值、盈利、流动性、监管、供需、叙事、情绪、资金流至少覆盖三类；
一个不同情绪 case：乐观、恐慌、分歧、泡沫、修复中至少覆盖两类；
一个不同策略 case：长期 thesis、短线 sensemaking、风险对冲、组合配置、团队研究中至少覆盖两类；
一个不同周期 case：日内 / 事件、1-4 周、季度、6-18 个月中至少覆盖两类；
一个市场间关系 case：背离、轮动、领先 / 滞后、共振或风险传导；
一个突发事件 case：监管、流动性、技术故障、地缘、财报暴雷或协议漏洞；
一个不同人群 case：新手、专业研究员、风险管理者、团队协作者中至少覆盖两类。

7A. Real-Chat Supplement Cases

FC-M* 用于覆盖金融认知矩阵，FC-R* 用于覆盖真实自由 chat 的语言形态和实际查询方式。后续参考项目测试应在 FC-M* 外，抽样执行一批 FC-R*。

Case	Prompt Style	Scenario	Example Prompt	Evaluation Focus
FC-R01	Casual / colloquial	用户感觉市场过热但表达口语化。	`今天市场怎么感觉又嗨起来了，我该慌吗？`	能否理解情绪、给出当下语境和可观察信号。
FC-R02	Under-specified	用户只给一个标的和模糊判断需求。	`NVDA 现在还能看吗？`	能否自动补齐价格、新闻、基本面、技术面或追问缺失信息。
FC-R03	Anxious / loss-driven	用户因波动产生自我怀疑。	`BTC 又抽风了，我是不是看错了？`	能否安抚但不空泛，解释波动来源和 thesis 是否受损。
FC-R04	Follow-up style	极短上下文追问。	`那 CRCL 呢？`	能否利用上下文或 watchlist 识别对象，而不是要求用户重述。
FC-R05	Direct current query	当前关注优先级。	`帮我看看我现在关注的这些，今天最该盯哪个？`	能否从 watchlist / 市场状态中排序关注对象。
FC-R06	Mixed concepts	宏观、crypto、科技股概念混在一起。	`收益率涨，BTC也涨，科技股也涨，这到底正常不正常？`	能否解释背离、条件和风险信号。
FC-R07	Beginner confusion	新手概念困惑。	`我一直没搞懂，美债收益率跟科技股到底啥关系？`	能否通俗解释且不过度简化。
FC-R08	Practical next-step	用户要短清单。	`我今晚应该重点看啥？别太长，给我几个重点。`	能否压缩输出，给出少数高价值观察点。
FC-R09	News-like direct query	直接问近期主题对自己有什么影响。	`最近稳定币监管这事，对我关注的币和股票到底有啥影响？`	能否映射到用户关注资产并区分直接 / 间接影响。
FC-R10	Portfolio self-doubt	用户怀疑自己配置过度集中。	`我是不是买太多科技和币了？帮我看下风险集中在哪。`	能否识别共同风险因子和防御缺口。
FC-R11	Vague opportunity seeking	用户觉得主题太贵，想找替代方向。	`AI 这波是不是太贵了？还有别的方向能看看吗？`	能否给出替代主题、逻辑和验证路径。
FC-R12	Action-oriented	用户请求提醒 / 监控。	`你能不能帮我盯着 BTC 和 NVDA，有大波动就提醒我？`	能否说明并执行 / 或请求确认主动 loop；必须记录是否产生持久化副作用。

8. Execution Baseline Cases

以下 UX-* cases 不是完整的金融认知 universal cases，而是每个参考项目都应尽量完成的执行、入口和能力验证基线。它们用于验证项目能否支撑上面的 FC-* cognition cases。

UX-00: Environment and Entry Baseline

目标：确认参考项目是否具备可长期观察的本地入口。

执行项：

记录仓库 HEAD、branch、ahead / behind、本地 dirty 状态。
记录安装路径、venv / workspace / config / HOME / ports。
执行 help、status 或等价入口。
写出 Human Experience Entry。

通过标准：

能说明如何进入、如何退出、依赖什么、哪些能力当前不可用。
不把临时环境伪装成长期部署。

UX-01: Capability Self-Description

目标：让项目自己说明能力范围，然后用后续 case 校验。

示例输入：

你有哪些能力？请区分已经可用、需要额外配置、需要外部数据源或账号的能力。

记录项：

自称能力清单；
明确承认的依赖 / 凭证 / 数据源限制；
后续验证结果。

通过标准：

能把宣称和限制说清楚；
若未说清楚，记录为 capability truthfulness risk。

UX-02: Market Coverage Discovery

目标：验证资产类别和市场覆盖的真实范围。

示例输入：

支持哪些市场和资产类别？请说明美股、全球股票、加密货币、宏观数据分别怎么查询。

记录项：

支持的资产类别；
symbol 格式；
依赖包、API key、账号或订阅；
被后续 case 证实或证伪的部分。

UX-03: Mixed Asset Snapshot

目标：用同一组资产测试跨资产基础认知能力。

默认资产：

NVDA
CRCL
BTC-USD 或 BTC/USDT
ETH-USD 或 ETH/USDT

示例输入：

请汇总 NVDA、CRCL、BTC 和 ETH 的当前状态，说明价格、近期事件、你能获取到的数据来源，以及哪些数据不可用。

通过标准：

返回至少一个真实数据路径；
清楚标注失败或不可用数据；
不把缺失依赖伪装成完整数据。

UX-04: Persistent Cognition Thread

目标：验证项目能否围绕一个标的形成可持续跟踪对象。

默认对象：ETH-USD

示例输入：

围绕 ETH 建立一条后续 2 周可持续跟踪的认知线程，包含我的 thesis、你当前的判断、后续需要观察的指标和下一步复盘点。

记录项：

是否写入真实 workspace；
写入对象、文件路径、字段；
是否支持后续读取 / 更新；
是否能保留人的 thesis 和 agent stance。

UX-05: Evidence and Source Audit

目标：检查输出是否能区分事实、推断、来源和未知项。

示例输入：

请审计刚才关于 BTC / ETH 的结论：哪些是事实，哪些是推断，哪些来源不足，哪些数据缺失？

通过标准：

至少列出事实、推断、缺失数据三类；
对来源不足或工具失败有明确说明。

UX-06: Counter-Thesis / Risk Scan

目标：测试项目能否主动寻找反方证据和风险点。

示例输入：

我已经看好 ETH，帮我找出这个判断最可能错在哪里，并说明需要观察哪些信号。

通过标准：

输出不是单边确认；
能给出可观察信号；
如果无法获取数据，明确说明限制。

UX-07: Alternative Data / Dependency Boundary

目标：测试新闻、社交情绪、链上、交易所、技术指标等增强能力的真实可用性。

示例输入：

请对 BTC 做一次深度另类数据扫描，包括技术指标、新闻、社交情绪、链上或交易所数据。无法获取的部分请直接说明原因。

记录项：

成功工具；
失败工具；
缺失依赖；
缺失凭证；
fallback 输出质量。

UX-08: Proactive Loop Surface

目标：验证项目是否只有一次性问答，还是有持续提醒 / 定时任务 / channel 能力。

执行项：

查看 cron / scheduler / alert / gateway / channel 的 help 或 status。
不向生产渠道发送消息。
若支持本地 dry-run，记录 dry-run 输出。

通过标准：

能说明主动能力入口；
能说明当前是否启用；
不把未验证的主动提醒当成已运行能力。

UX-09: Human Repeatability

目标：确保 owner 和团队成员能在各自个人域复现。

记录项：

启动命令或 URL；
当前服务状态；
venv / workspace / config / HOME；
需要的 API key / account / model；
可直接体验的 3-5 个命令；
停止 / 清理方式；
已知限制。

9. Recommended Per-Project Run Shape

第一批参考项目应按三层运行：

Access layer：运行 UX-00、UX-01、UX-02、UX-08、UX-09；
Matrix cognition layer：按 Matrix Coverage Rules 从 FC-M01 到 FC-M18 中抽样，覆盖不同市场、板块、逻辑、情绪、策略、周期、跨市场关系、突发事件和用户群体；
Project-specific layer：根据项目自身声明能力和强项追加专项 case，例如 watchlist、skills、report generation、multi-agent research、dashboard、notebook、on-chain data、portfolio optimizer 或 scheduled alert。

每个项目至少应覆盖：

一个宏观 / 跨资产 case；
一个微观 / 公司 / 协议 case；
一个非用户原始示例标的或市场；
一个板块 / 主题 case；
一个情绪或叙事 case；
一个策略 / 风险偏好差异 case；
一个不同周期 case；
一个市场间背离 / 轮动 / 风险传导 case；
一个突发事件 case；
一个数据缺口 / 证据审计 case；
一个持续 thread 或团队 handoff case。

10. Result Status Vocabulary

Status	Meaning
PASS	自动或人工验证通过。
PARTIAL	核心路径可用，但有依赖、凭证、覆盖范围或输出质量限制。
BLOCKED	当前环境无法执行，需要人工配置、凭证、账号或依赖。
CLAIM_ONLY	项目宣称该能力，但本轮没有验证证据。
FAIL	执行失败且没有可接受 fallback。
NOT_APPLICABLE	该 case 与项目定位不匹配，并已记录原因。

11. Per-Project Mapping Template

每个项目记录应包含：

## Automated Case Run

日期：
执行者：
入口：
日志目录：

| Case | Status | Evidence | Notes |
| --- | --- | --- | --- |
| UX-00 |  |  |  |
| UX-01 |  |  |  |
| UX-02 |  |  |  |
| UX-03 |  |  |  |
| UX-04 |  |  |  |
| UX-05 |  |  |  |
| UX-06 |  |  |  |
| UX-07 |  |  |  |
| UX-08 |  |  |  |
| UX-09 |  |  |  |
| FC-M01 |  |  |  |
| FC-M02 |  |  |  |
| FC-M03 |  |  |  |
| FC-M04 |  |  |  |
| FC-M05 |  |  |  |
| FC-M06 |  |  |  |
| FC-M07 |  |  |  |
| FC-M08 |  |  |  |
| FC-M09 |  |  |  |
| FC-M10 |  |  |  |
| FC-M11 |  |  |  |
| FC-M12 |  |  |  |
| FC-M13 |  |  |  |
| FC-M14 |  |  |  |
| FC-M15 |  |  |  |
| FC-M16 |  |  |  |
| FC-M17 |  |  |  |
| FC-M18 |  |  |  |

### Key Findings

### Human Experience Entry Delta

### Resume Point

0. Purpose​

1. Execution Rules​

1A. User Language Realism Standard​

1B. Result Collection Standard​

Model / Runtime Telemetry Rule​

Action Advice Scoring Rule​

2. Evaluation Dimensions​

3. Finance Cognition Chain​

4. Universal Cases Matrix Axes​

5. User / Market Archetypes​

6. Universal Cases Matrix​

7. Matrix Coverage Rules​

7A. Real-Chat Supplement Cases​

8. Execution Baseline Cases​

UX-00: Environment and Entry Baseline​

UX-01: Capability Self-Description​

UX-02: Market Coverage Discovery​

UX-03: Mixed Asset Snapshot​

UX-04: Persistent Cognition Thread​

UX-05: Evidence and Source Audit​

UX-06: Counter-Thesis / Risk Scan​

UX-07: Alternative Data / Dependency Boundary​

UX-08: Proactive Loop Surface​

UX-09: Human Repeatability​

9. Recommended Per-Project Run Shape​

10. Result Status Vocabulary​

11. Per-Project Mapping Template​

0. Purpose

1. Execution Rules

1A. User Language Realism Standard

1B. Result Collection Standard

Model / Runtime Telemetry Rule

Action Advice Scoring Rule

2. Evaluation Dimensions

3. Finance Cognition Chain

4. Universal Cases Matrix Axes

5. User / Market Archetypes

6. Universal Cases Matrix

7. Matrix Coverage Rules

7A. Real-Chat Supplement Cases

8. Execution Baseline Cases

UX-00: Environment and Entry Baseline

UX-01: Capability Self-Description

UX-02: Market Coverage Discovery

UX-03: Mixed Asset Snapshot

UX-04: Persistent Cognition Thread

UX-05: Evidence and Source Audit

UX-06: Counter-Thesis / Risk Scan

UX-07: Alternative Data / Dependency Boundary

UX-08: Proactive Loop Surface

UX-09: Human Repeatability

9. Recommended Per-Project Run Shape

10. Result Status Vocabulary

11. Per-Project Mapping Template