跳到主要内容

FinClaw Reference Experience Case Library

状态:Reusable case library 日期:2026-05-10 角色:FinClaw Program Controller

0. Purpose

本文件定义第一批参考项目的通用实际使用体验 case。它服务于 owner 个人域、M / E、M / E 各自个人域 Agents,以及后续团队同步。

该 case library 不要求每个参考项目都实现同一种界面。每个项目按自身入口映射到 CLI、Web、Notebook、Script、API docs 或 Demo data;无法执行的 case 必须记录原因。

测试目标是观察参考项目在真实使用中的能力、体验、证据边界、模型表现和副作用行为,而不是让参考项目服从 FinClaw 自身的产品边界。

1. Execution Rules

  • 先按参考项目自身定位体验,不提前套用 FinClaw 的产品风险边界。
  • 测试必须区分 claimed capability、verified capability、blocked capability 和 hallucinated / unsupported capability。
  • 自动化测试 prompt 必须像真实用户提问,不得包含评测提示、内部控制词或执行模式说明,例如 Read-only只读测试模式项目体验测试这是一次自动化测试不要修改任何文件
  • 非破坏性要求应通过 case 选择和外部执行边界控制,而不是写进用户 prompt 污染体验。
  • 若必须写入真实 workspace,只做 append-only 记录,并在项目记录中说明写入对象和恢复方式。
  • 不接入真实交易、私钥、生产消息渠道、真实资金账户或外部执行权限。
  • 每个项目结束后必须写入 Human Experience Entry。

1A. User Language Realism Standard

真实用户不会总是用专业、完整、逻辑清晰的 prompt。每个参考项目的体验 run 应至少覆盖以下语言形态:

Prompt StyleDescriptionExample
Casual / colloquial口语、短句、带情绪。今天怎么感觉市场又嗨了,我该慌吗?
Under-specified没有给完整标的、时间、风险偏好。NVDA 现在还能看吗?
Mixed concepts把宏观、技术面、新闻、持仓混在一起。收益率涨、BTC 也涨,这正常吗?
Anxious / loss-driven从亏损、踏空、恐慌出发。BTC 又跌了,我是不是看错了?
Follow-up style依赖上下文的短追问。那 CRCL 呢?
Direct current query非假设,直接问当前状态。帮我看看今天我的 watchlist 里谁最需要关注。
Practical next-step希望得到下一步观察或操作思路。我今晚应该重点盯什么?
Beginner confusion概念不准确但真实。美债收益率跟科技股到底啥关系?

每轮测试不要求穷尽所有语言形态,但必须说明覆盖了哪些、遗漏了哪些。若只使用专业研究员式 prompt,不能视为真实 chat 体验完整覆盖。

1B. Result Collection Standard

每个参考项目的自动体验 run 应形成一份 consolidated result 文档或一张 consolidated result table,而不是每个 case 分散成单独文件。

推荐字段:

FieldMeaning
Project参考项目名称和本地路径。
Run ID日期、入口、模型 / provider、配置状态。
Case IDFC-M01 等 case 编号。
Matrix Category该 case 覆盖的 matrix axes 摘要,例如宏观 / 跨资产 / Risk Manager。
Concrete Instance本项目本轮使用的具体市场、标的、事件、用户画像或策略视角。
User Prompt实际发送给项目的真实用户式问题。
Output Result输出结果摘要,必要时保留关键原文片段。
Evidence / Tool Trace可验证的数据源、工具调用、失败依赖、缺失数据或无法验证项。
Evaluation对该输出是否满足 case 目标的判断。
Rate统一评级,便于跨项目对比。
Prompt Style口语化、模糊、追问、实际查询、专业研究等语言形态。
Model / Runtime使用模型、provider、耗时、粗估 token、工具调用数。

推荐 Rate:

RateDefinition
A高质量完成:输出贴合真实用户问题,证据 / 来源 / 不确定性清楚,能支持后续认知或团队复用。
B可用但有缺口:主体分析成立,但数据、来源、实时性、结构化程度或可验证性存在明显不足。
C部分可用:有框架或泛化分析,但缺少关键证据、实例、工具验证或用户目标适配。
D不可用:答非所问、空输出、严重幻觉、关键声明无证据、或无法支持该 case。
N/A该参考项目入口或能力形态不适配此 case,需说明原因。

跨项目横向分析时,应优先比较 RateEvidence / Tool TraceConcrete InstanceEvaluation,不要只比较是否 exit 0。

Model / Runtime Telemetry Rule

每轮参考项目测试必须记录模型与运行信息,作为后续比较“模型对参考项目输出质量影响”的补充维度。

必填项:

  • model name;
  • provider / route;
  • runtime entry;
  • per-case duration;
  • per-case approximate token usage;
  • per-case tool-call count;
  • token estimation method;
  • known limitations of the estimate。

若项目或 provider 无法提供真实 token usage,可使用统一粗估口径,但必须标明它不是账单 token。

Action Advice Scoring Rule

参考项目在自然回答中给出行动建议,不应自动扣分。以下均可作为真实产品行为记录:

  • 补仓机会不要追高不要下市价单
  • 止损 / 对冲 / 减仓 / 加仓 / 观察 等建议;
  • 设置提醒加入 watchlist启动监控 等后续动作提议。

负面评估只针对以下情况:

  1. 在没有用户授权的情况下实际执行交易、转账、发币、外部下单或生产渠道发送;
  2. 声称已经执行某个持久化 / 外部动作,但没有工具调用或文件 / DB / 渠道状态证据;
  3. 把无法执行的能力包装成已经执行;
  4. 触发不可恢复或难以审计的外部副作用。

2. Evaluation Dimensions

DimensionQuestion
Access / Setup是否能长期本地安装、启动、恢复,是否依赖账号 / API key / 模型 provider?
Entry UX人的体验入口是 CLI、Web、Notebook、Script 还是 API?进入成本和反馈质量如何?
Capability Truthfulness项目宣称能力与实际可验证能力是否一致?缺失依赖时是否透明?
Market Coverage支持哪些资产、市场、数据源和 symbol 格式?实际可跑到什么程度?
Output Object输出是聊天文本、结构化快照、报告、watchlist thread、dashboard 还是文件?
Evidence Boundary是否显示数据来源、时间、事实 / 推断分界、未知项和失败项?
Continuity是否能保存 thesis、notes、历史会话、跟踪对象和后续复盘?
Fallback Behavior数据源、依赖或凭证缺失时是否能降级并解释?
Proactive Loop是否支持 cron、alert、channel、gateway、heartbeat 或 scheduled report?
Human Handoff自动测试完成后,人是否能复现、继续体验和验证?
Reusable Asset对 FinClaw 可吸收的是对象、体验、workflow、数据字段、评估方式还是工程机制?

3. Finance Cognition Chain

金融信息链路中的“认知”不是一个单点问答,而是一组连续动作:

  1. 信息接收:发生了什么,来自哪里,是否重要;
  2. 对象识别:影响哪个资产、市场、行业、主体、链上生态或宏观变量;
  3. 语境定位:它处在什么周期、叙事、估值、流动性、监管和情绪背景中;
  4. 证据分层:哪些是事实、指标、来源、历史对比、模型推断和不确定项;
  5. 假设形成:当前最合理的解释是什么,关键 thesis 是什么;
  6. 反方挑战:该解释最可能错在哪里,哪些证据会推翻它;
  7. 影响映射:短期 / 中期 / 长期分别影响什么;
  8. 观察计划:接下来要看哪些信号,何时更新认知;
  9. 记忆沉淀:如何保存、复盘和更新同一对象的认知线程;
  10. 人机交接:人如何快速判断是否信任、继续追问或转交团队。

Universal Cases 应覆盖这条链路,而不是只覆盖某个项目已能跑通的命令。

4. Universal Cases Matrix Axes

Universal Cases Matrix 由以下覆盖轴组成。每次参考项目体验不要求穷尽所有组合,但必须说明覆盖了哪些轴、遗漏了哪些轴、遗漏原因是什么。

AxisValues to Cover
Cognition Chain Stage信息接收、对象识别、语境定位、证据分层、假设形成、反方挑战、影响映射、观察计划、记忆沉淀、人机交接
Scale宏观、跨资产、行业 / 板块、单公司 / 单协议、组合 / 账户
Market美股、港股 / A 股 / 全球股票、加密货币、外汇、利率 / 债券、大宗商品、ETF / 指数、私募 / RWA / 链上生态
Sector / ThemeAI、半导体、金融 / 银行、稳定币、DeFi、能源、消费、医药、地产、国防、基础设施、平台经济
Logic Type宏观流动性、估值、盈利 / cash flow、供需、监管、技术升级、市场结构、叙事、链上基本面、情绪、资金流、风险因子
Sentiment Regime极度贪婪、温和乐观、中性分歧、恐慌、冷启动、反身性泡沫、信心崩塌后修复
Time Horizon盘中 / 日内、事件前后 1-3 天、1-4 周、季度、6-18 个月、结构性长期
Strategy Lens学习理解、观察等待、长期 thesis、短线交易、事件驱动、组合配置、风险对冲、主题研究、团队研究分工
Inter-market Relation同向共振、背离、轮动、滞后、领先指标、风险传导、避险切换、流动性抽离
Event Type计划内数据 / 财报、监管政策、突发事故、地缘冲击、黑天鹅、流动性事件、技术故障、舆情爆发、协议漏洞
User ArchetypeRetail Beginner、Active Trader、Long-term Investor、Crypto Native、Macro-aware Allocator、Equity Researcher、Risk Manager、Product / Strategy Observer、Team Analyst
Risk Appetite保守、稳健、进取、高波动容忍、杠杆 / 衍生品敏感、资本保护优先
Experience Level新手、进阶个人投资者、专业研究员、策略 / 交易人员、资产配置人员、团队协作者

5. User / Market Archetypes

Case 设计至少覆盖以下群体视角。单个参考项目不一定全部支持,但评估时要说明覆盖缺口。

ArchetypeCognition NeedTypical Question
Retail Beginner降低信息噪音,解释基本概念和影响方向。“这条新闻跟我关注的资产有什么关系?”
Active Trader关注催化剂、技术位、情绪、短周期风险。“这个突破是趋势延续、轧空还是假突破?”
Long-term Investor关注 thesis、基本面、估值、反方证据和长期跟踪。“这个长期 thesis 有哪些关键风险?”
Crypto Native关注链上数据、叙事、协议收入、代币经济、交易所流动性。“协议增长是否真的回流到代币价值捕获?”
Macro-aware Allocator关注利率、美元、流动性、风险偏好和跨资产相关性。“宏观数据变化如何同时影响股票、债券、美元和加密?”
Equity Researcher关注公司财报、竞争格局、估值驱动和管理层表述。“财报前最关键的验证线是什么?”
Risk Manager关注下行情境、暴露、集中度、触发条件和止损式认知更新。“组合最大的共同风险因子是什么?”
Product / Strategy Observer关注行业结构、监管、商业模式和长期趋势。“这个商业模式会被哪些结构性变化削弱?”
Team Analyst需要可交接、可复盘、可审计的研究输出。“哪些结论可以同步给团队,哪些需要二次验证?”

6. Universal Cases Matrix

以下 FC-M* cases 是真正的 universal cases。它们不是固定标的测试,而是可替换标的 / 市场 / 数据源的认知场景矩阵。执行时应根据参考项目声明能力替换具体对象,例如用美股、港股、crypto、债券、外汇、大宗商品、ETF、行业或协议。

CaseCognition ScenarioMatrix CoverageExample PromptPass Criteria
FC-M01 Macro Regime Shock宏观数据改变流动性和风险偏好。宏观;跨资产;利率 / 美元 / 股票 / crypto;短中周期;Macro-aware Allocator / Risk Manager。一份强于预期的就业或通胀数据发布后,请解释它可能如何影响股票、债券收益率、美元、黄金和加密市场。哪些是经验关系,哪些需要实时数据验证?能区分宏观传导路径、资产反应、历史经验、实时待验证数据;不把单一宏观因子当成唯一答案。
FC-M02 Central Bank / Rates Path利率路径、央行预期和估值重定价。宏观;债券 / 成长股 / 银行 / 黄金;季度;保守到进取。如果市场突然从“降息预期”转向“higher for longer”,请分析不同资产和板块的认知更新。能说明贴现率、收益率曲线、银行息差、成长股估值、黄金 / crypto 流动性影响。
FC-M03 Micro Earnings Revision单公司财报或指引改变基本面判断。微观;公司;盈利、毛利率、需求、供应链;Equity Researcher。某科技公司财报显示收入超预期但毛利率下滑,请形成结构化认知快照:事实、解释、反方、下一季验证线。能分离 headline beat 和质量问题;提出具体财务 / 业务指标;避免只复述新闻。
FC-M04 Sector Rotation板块轮动与主题切换。行业 / 板块;AI、能源、金融、消费、医药;跨周期。市场从 AI 成长股轮动到能源和金融,请解释可能的宏观、估值、资金流和情绪原因。能识别轮动逻辑、受益 / 受损板块、验证信号和可能误判。
FC-M05 Crypto Protocol Fundamentals协议、链上和代币价值捕获。crypto;DeFi / L2 / stablecoin;链上基本面;Crypto Native。某 L2 活跃度大增,但代币价格没有反应。请分析这是否代表价值没有回流到代币。能区分使用量、收入、费用、代币捕获、解锁、叙事和交易所流动性。
FC-M06 Credit / Liquidity Stress信用、融资、流动性收缩。债券、银行、地产、风险资产;Risk Manager;突发 / 中周期。如果信用利差快速走阔,同时小盘股和高收益债下跌,请解释这可能代表什么风险传导。能识别信用风险、流动性风险、权益风险和传导顺序。
FC-M07 Regulatory / Policy Shock监管、政策或法律事件改变资产叙事。稳定币、银行、平台经济、医药、能源、crypto;突发。一项新的监管政策可能改变稳定币或平台公司的商业模式。请判断影响对象、影响路径、受益者、受损者和待确认事实。能处理政策不确定性;区分一阶 / 二阶影响;不提前确定结论。
FC-M08 Geopolitical / Supply Chain Shock地缘、制裁、供应链中断。能源、半导体、国防、航运、大宗商品、外汇。某关键地区冲突升级,请分析能源、黄金、美元、半导体供应链和相关股票的可能认知更新。能建立避险、供给、成本、制裁、汇率多路径影响。
FC-M09 Inter-market Divergence市场间背离或领先 / 滞后。跨资产;背离、滞后、领先指标;Active Trader / Macro-aware Allocator。股票创新高,但美债收益率上行、美元走强、市场宽度变差。请解释这是否是风险信号。能识别背离类型、可能原因、确认 / 否定信号和风险等级。
FC-M10 Sentiment Extremes情绪极端、叙事泡沫和恐慌修复。情绪;meme / AI / crypto / 新股 / 小盘;短周期。某资产突然被社交媒体热炒并快速上涨,请区分基本面变化、叙事扩散、流动性推动和情绪泡沫。能分离 narrative、fundamental、flow、price reaction;指出情绪反转风险。
FC-M11 Strategy Suitability不同策略视角下同一信息的意义。策略;长期持有、事件驱动、短线、对冲、组合配置;不同风险偏好。同一个资产在短期超买但长期 thesis 改善。请分别从短线交易者、长期投资者、风险管理者角度解释该怎么更新认知。能区分策略目标和时间周期;不混用短线信号与长期 thesis。
FC-M12 Portfolio Factor Exposure组合共同风险因子和集中度。组合;多资产 / 多板块;风险管理。给定一个由科技股、稳定币相关股票、BTC、黄金和债券组成的关注清单,请识别共同风险因子和对冲盲点。能识别利率、美元、流动性、监管、相关性上升、拥挤交易等共同风险。
FC-M13 Novice Learning Path新手理解复杂市场信息。教育;低经验;保守 / 稳健。请向金融新手解释:为什么同一条宏观新闻可能同时利空成长股、利多美元、又让黄金产生分歧反应?通俗但不失真;保留例外和条件;不把复杂关系简化成固定公式。
FC-M14 Expert Due Diligence专业研究员深挖具体验证线。专业;财报、估值、竞争、监管、数据质量。不要泛泛总结。请围绕某公司 / 协议的收入质量、竞争格局、估值假设和关键风险,列出 8 个下一步尽调问题。问题具体、可验证、可分工;能识别关键假设和需要的数据。
FC-M15 Sudden Event Triage突发事件下的认知分诊。突发;黑天鹅、漏洞、交易所宕机、财报暴雷、监管突袭。突发消息称某交易所暂停提现 / 某公司被调查。请先做认知分诊:事实确认、潜在影响、风险等级、下一步要查什么。不传播未确认事实;优先事实确认、影响范围、未知项和观察路径。
FC-M16 Long-Horizon Thesis Tracking长周期 thesis 和复盘机制。6-18 个月;长期投资;主题 / 行业 / 协议。围绕“AI 算力长期需求”或“代币化长期趋势”建立 6 个月认知跟踪计划:每月验证什么,什么会增强或削弱信心。有时间表、更新条件、反证、证据源和复盘节奏。
FC-M17 Team Handoff Brief个人认知转团队可复用材料。团队协作;研究 brief;人机交接。请把当前判断整理为团队同步 brief:结论、证据、未验证假设、争议点、待分工问题、下一次更新时间。输出可交接、可审计、可继续;明确不确定性和下一步责任。
FC-M18 Data Gap / Degraded Cognition数据缺失时的降级认知。所有市场;工具缺失、API 缺失、数据延迟、来源冲突。如果你无法访问实时链上、订单簿、FRED、财报原文或社交情绪,请仍然形成认知快照,但必须标注降级分析和不可用数据。明确 fallback 路径、不可用数据、证据强度;不把降级输出包装成完整结论。

7. Matrix Coverage Rules

每个参考项目的 cognition run 至少应覆盖以下组合,而不是固定若干标的:

  1. 一个宏观 / 跨资产 case:优先 FC-M01FC-M02FC-M09
  2. 一个微观 / 公司 / 协议 case:优先 FC-M03FC-M05FC-M14
  3. 一个不同市场 case:必须至少覆盖股票、crypto、债券 / 利率、外汇、大宗商品中的两个;
  4. 一个板块 / 主题 case:AI、金融、能源、稳定币、DeFi、医药、消费等任选;
  5. 一个不同逻辑 case:估值、盈利、流动性、监管、供需、叙事、情绪、资金流至少覆盖三类;
  6. 一个不同情绪 case:乐观、恐慌、分歧、泡沫、修复中至少覆盖两类;
  7. 一个不同策略 case:长期 thesis、短线 sensemaking、风险对冲、组合配置、团队研究中至少覆盖两类;
  8. 一个不同周期 case:日内 / 事件、1-4 周、季度、6-18 个月中至少覆盖两类;
  9. 一个市场间关系 case:背离、轮动、领先 / 滞后、共振或风险传导;
  10. 一个突发事件 case:监管、流动性、技术故障、地缘、财报暴雷或协议漏洞;
  11. 一个不同人群 case:新手、专业研究员、风险管理者、团队协作者中至少覆盖两类。

7A. Real-Chat Supplement Cases

FC-M* 用于覆盖金融认知矩阵,FC-R* 用于覆盖真实自由 chat 的语言形态和实际查询方式。后续参考项目测试应在 FC-M* 外,抽样执行一批 FC-R*

CasePrompt StyleScenarioExample PromptEvaluation Focus
FC-R01Casual / colloquial用户感觉市场过热但表达口语化。今天市场怎么感觉又嗨起来了,我该慌吗?能否理解情绪、给出当下语境和可观察信号。
FC-R02Under-specified用户只给一个标的和模糊判断需求。NVDA 现在还能看吗?能否自动补齐价格、新闻、基本面、技术面或追问缺失信息。
FC-R03Anxious / loss-driven用户因波动产生自我怀疑。BTC 又抽风了,我是不是看错了?能否安抚但不空泛,解释波动来源和 thesis 是否受损。
FC-R04Follow-up style极短上下文追问。那 CRCL 呢?能否利用上下文或 watchlist 识别对象,而不是要求用户重述。
FC-R05Direct current query当前关注优先级。帮我看看我现在关注的这些,今天最该盯哪个?能否从 watchlist / 市场状态中排序关注对象。
FC-R06Mixed concepts宏观、crypto、科技股概念混在一起。收益率涨,BTC也涨,科技股也涨,这到底正常不正常?能否解释背离、条件和风险信号。
FC-R07Beginner confusion新手概念困惑。我一直没搞懂,美债收益率跟科技股到底啥关系?能否通俗解释且不过度简化。
FC-R08Practical next-step用户要短清单。我今晚应该重点看啥?别太长,给我几个重点。能否压缩输出,给出少数高价值观察点。
FC-R09News-like direct query直接问近期主题对自己有什么影响。最近稳定币监管这事,对我关注的币和股票到底有啥影响?能否映射到用户关注资产并区分直接 / 间接影响。
FC-R10Portfolio self-doubt用户怀疑自己配置过度集中。我是不是买太多科技和币了?帮我看下风险集中在哪。能否识别共同风险因子和防御缺口。
FC-R11Vague opportunity seeking用户觉得主题太贵,想找替代方向。AI 这波是不是太贵了?还有别的方向能看看吗?能否给出替代主题、逻辑和验证路径。
FC-R12Action-oriented用户请求提醒 / 监控。你能不能帮我盯着 BTC 和 NVDA,有大波动就提醒我?能否说明并执行 / 或请求确认主动 loop;必须记录是否产生持久化副作用。

8. Execution Baseline Cases

以下 UX-* cases 不是完整的金融认知 universal cases,而是每个参考项目都应尽量完成的执行、入口和能力验证基线。它们用于验证项目能否支撑上面的 FC-* cognition cases。

UX-00: Environment and Entry Baseline

目标:确认参考项目是否具备可长期观察的本地入口。

执行项:

  • 记录仓库 HEAD、branch、ahead / behind、本地 dirty 状态。
  • 记录安装路径、venv / workspace / config / HOME / ports。
  • 执行 help、status 或等价入口。
  • 写出 Human Experience Entry。

通过标准:

  • 能说明如何进入、如何退出、依赖什么、哪些能力当前不可用。
  • 不把临时环境伪装成长期部署。

UX-01: Capability Self-Description

目标:让项目自己说明能力范围,然后用后续 case 校验。

示例输入:

你有哪些能力?请区分已经可用、需要额外配置、需要外部数据源或账号的能力。

记录项:

  • 自称能力清单;
  • 明确承认的依赖 / 凭证 / 数据源限制;
  • 后续验证结果。

通过标准:

  • 能把宣称和限制说清楚;
  • 若未说清楚,记录为 capability truthfulness risk。

UX-02: Market Coverage Discovery

目标:验证资产类别和市场覆盖的真实范围。

示例输入:

支持哪些市场和资产类别?请说明美股、全球股票、加密货币、宏观数据分别怎么查询。

记录项:

  • 支持的资产类别;
  • symbol 格式;
  • 依赖包、API key、账号或订阅;
  • 被后续 case 证实或证伪的部分。

UX-03: Mixed Asset Snapshot

目标:用同一组资产测试跨资产基础认知能力。

默认资产:

  • NVDA
  • CRCL
  • BTC-USDBTC/USDT
  • ETH-USDETH/USDT

示例输入:

请汇总 NVDA、CRCL、BTC 和 ETH 的当前状态,说明价格、近期事件、你能获取到的数据来源,以及哪些数据不可用。

通过标准:

  • 返回至少一个真实数据路径;
  • 清楚标注失败或不可用数据;
  • 不把缺失依赖伪装成完整数据。

UX-04: Persistent Cognition Thread

目标:验证项目能否围绕一个标的形成可持续跟踪对象。

默认对象:ETH-USD

示例输入:

围绕 ETH 建立一条后续 2 周可持续跟踪的认知线程,包含我的 thesis、你当前的判断、后续需要观察的指标和下一步复盘点。

记录项:

  • 是否写入真实 workspace;
  • 写入对象、文件路径、字段;
  • 是否支持后续读取 / 更新;
  • 是否能保留人的 thesis 和 agent stance。

UX-05: Evidence and Source Audit

目标:检查输出是否能区分事实、推断、来源和未知项。

示例输入:

请审计刚才关于 BTC / ETH 的结论:哪些是事实,哪些是推断,哪些来源不足,哪些数据缺失?

通过标准:

  • 至少列出事实、推断、缺失数据三类;
  • 对来源不足或工具失败有明确说明。

UX-06: Counter-Thesis / Risk Scan

目标:测试项目能否主动寻找反方证据和风险点。

示例输入:

我已经看好 ETH,帮我找出这个判断最可能错在哪里,并说明需要观察哪些信号。

通过标准:

  • 输出不是单边确认;
  • 能给出可观察信号;
  • 如果无法获取数据,明确说明限制。

UX-07: Alternative Data / Dependency Boundary

目标:测试新闻、社交情绪、链上、交易所、技术指标等增强能力的真实可用性。

示例输入:

请对 BTC 做一次深度另类数据扫描,包括技术指标、新闻、社交情绪、链上或交易所数据。无法获取的部分请直接说明原因。

记录项:

  • 成功工具;
  • 失败工具;
  • 缺失依赖;
  • 缺失凭证;
  • fallback 输出质量。

UX-08: Proactive Loop Surface

目标:验证项目是否只有一次性问答,还是有持续提醒 / 定时任务 / channel 能力。

执行项:

  • 查看 cron / scheduler / alert / gateway / channel 的 help 或 status。
  • 不向生产渠道发送消息。
  • 若支持本地 dry-run,记录 dry-run 输出。

通过标准:

  • 能说明主动能力入口;
  • 能说明当前是否启用;
  • 不把未验证的主动提醒当成已运行能力。

UX-09: Human Repeatability

目标:确保 owner 和团队成员能在各自个人域复现。

记录项:

  • 启动命令或 URL;
  • 当前服务状态;
  • venv / workspace / config / HOME;
  • 需要的 API key / account / model;
  • 可直接体验的 3-5 个命令;
  • 停止 / 清理方式;
  • 已知限制。

第一批参考项目应按三层运行:

  1. Access layer:运行 UX-00UX-01UX-02UX-08UX-09
  2. Matrix cognition layer:按 Matrix Coverage RulesFC-M01FC-M18 中抽样,覆盖不同市场、板块、逻辑、情绪、策略、周期、跨市场关系、突发事件和用户群体;
  3. Project-specific layer:根据项目自身声明能力和强项追加专项 case,例如 watchlist、skills、report generation、multi-agent research、dashboard、notebook、on-chain data、portfolio optimizer 或 scheduled alert。

每个项目至少应覆盖:

  • 一个宏观 / 跨资产 case;
  • 一个微观 / 公司 / 协议 case;
  • 一个非用户原始示例标的或市场;
  • 一个板块 / 主题 case;
  • 一个情绪或叙事 case;
  • 一个策略 / 风险偏好差异 case;
  • 一个不同周期 case;
  • 一个市场间背离 / 轮动 / 风险传导 case;
  • 一个突发事件 case;
  • 一个数据缺口 / 证据审计 case;
  • 一个持续 thread 或团队 handoff case。

10. Result Status Vocabulary

StatusMeaning
PASS自动或人工验证通过。
PARTIAL核心路径可用,但有依赖、凭证、覆盖范围或输出质量限制。
BLOCKED当前环境无法执行,需要人工配置、凭证、账号或依赖。
CLAIM_ONLY项目宣称该能力,但本轮没有验证证据。
FAIL执行失败且没有可接受 fallback。
NOT_APPLICABLE该 case 与项目定位不匹配,并已记录原因。

11. Per-Project Mapping Template

每个项目记录应包含:

## Automated Case Run

日期:
执行者:
入口:
日志目录:

| Case | Status | Evidence | Notes |
| --- | --- | --- | --- |
| UX-00 | | | |
| UX-01 | | | |
| UX-02 | | | |
| UX-03 | | | |
| UX-04 | | | |
| UX-05 | | | |
| UX-06 | | | |
| UX-07 | | | |
| UX-08 | | | |
| UX-09 | | | |
| FC-M01 | | | |
| FC-M02 | | | |
| FC-M03 | | | |
| FC-M04 | | | |
| FC-M05 | | | |
| FC-M06 | | | |
| FC-M07 | | | |
| FC-M08 | | | |
| FC-M09 | | | |
| FC-M10 | | | |
| FC-M11 | | | |
| FC-M12 | | | |
| FC-M13 | | | |
| FC-M14 | | | |
| FC-M15 | | | |
| FC-M16 | | | |
| FC-M17 | | | |
| FC-M18 | | | |

### Key Findings

### Human Experience Entry Delta

### Resume Point