FinClaw Reference Experience Case Library
状态:Reusable case library 日期:2026-05-10 角色:FinClaw Program Controller
0. Purpose
本文件定义第一批参考项目的通用实际使用体验 case。它服务于 owner 个人域、M / E、M / E 各自个人域 Agents,以及后续团队同步。
该 case library 不要求每个参考项目都实现同一种界面。每个项目按自身入口映射到 CLI、Web、Notebook、Script、API docs 或 Demo data;无法执行的 case 必须记录原因。
测试目标是观察参考项目在真实使用中的能力、体验、证据边界、模型表现和副作用行为,而不是让参考项目服从 FinClaw 自身的产品边界。
1. Execution Rules
- 先按参考项目自身定位体验,不提前套用 FinClaw 的产品风险边界。
- 测试必须区分 claimed capability、verified capability、blocked capability 和 hallucinated / unsupported capability。
- 自动化测试 prompt 必须像真实用户提问,不得包含评测提示、内部控制词或执行模式说明,例如
Read-only、只读测试模式、项目体验测试、这是一次自动化测试、不要修改任何文件。 - 非破坏性要求应通过 case 选择和外部执行边界控制,而不是写进用户 prompt 污染体验。
- 若必须写入真实 workspace,只做 append-only 记录,并在项目记录中说明写入对象和恢复方式。
- 不接入真实交易、私钥、生产消息渠道、真实资金账户或外部执行权限。
- 每个项目结束后必须写入 Human Experience Entry。
1A. User Language Realism Standard
真实用户不会总是用专业、完整、逻辑清晰的 prompt。每个参考项目的体验 run 应至少覆盖以下语言形态:
| Prompt Style | Description | Example |
|---|---|---|
| Casual / colloquial | 口语、短句、带情绪。 | 今天怎么感觉市场又嗨了,我该慌吗? |
| Under-specified | 没有给完整标的、时间、风险偏好。 | NVDA 现在还能看吗? |
| Mixed concepts | 把宏观、技术面、新闻、持仓混在一起。 | 收益率涨、BTC 也涨,这正常吗? |
| Anxious / loss-driven | 从亏损、踏空、恐慌出发。 | BTC 又跌了,我是不是看错了? |
| Follow-up style | 依赖上下文的短追问。 | 那 CRCL 呢? |
| Direct current query | 非假设,直接问当前状态。 | 帮我看看今天我的 watchlist 里谁最需要关注。 |
| Practical next-step | 希望得到下一步观察或操作思路。 | 我今晚应该重点盯什么? |
| Beginner confusion | 概念不准确但真实。 | 美债收益率跟科技股到底啥关系? |
每轮测试不要求穷尽所有语言形态,但必须说明覆盖了哪些、遗漏了哪些。若只使用专业研究员式 prompt,不能视为真实 chat 体验完整覆盖。
1B. Result Collection Standard
每个参考项目的自动体验 run 应形成一份 consolidated result 文档或一张 consolidated result table,而不是每个 case 分散成单独文件。
推荐字段:
| Field | Meaning |
|---|---|
| Project | 参考项目名称和本地路径。 |
| Run ID | 日期、入口、模型 / provider、配置状态。 |
| Case ID | FC-M01 等 case 编号。 |
| Matrix Category | 该 case 覆盖的 matrix axes 摘要,例如宏观 / 跨资产 / Risk Manager。 |
| Concrete Instance | 本项目本轮使用的具体市场、标的、事件、用户画像或策略视角。 |
| User Prompt | 实际发送给项目的真实用户式问题。 |
| Output Result | 输出结果摘要,必要时保留关键原文片段。 |
| Evidence / Tool Trace | 可验证的数据源、工具调用、失败依赖、缺失数据或无法验证项。 |
| Evaluation | 对该输出是否满足 case 目标的判断。 |
| Rate | 统一评级,便于跨项目对比。 |
| Prompt Style | 口语化、模糊、追问、实际查询、专业研究等语言形态。 |
| Model / Runtime | 使用模型、provider、耗时、粗估 token、工具调用数。 |
推荐 Rate:
| Rate | Definition |
|---|---|
| A | 高质量完成:输出贴合真实用户问题,证据 / 来源 / 不确定性清楚,能支持后续认知或团队复用。 |
| B | 可用但有缺口:主体分析成立,但数据、来源、实时性、结构化程度或可验证性存在明显不足。 |
| C | 部分可用:有框架或泛化分析,但缺少关键证据、实例、工具验证或用户目标适配。 |
| D | 不可用:答非所问、空输出、严重幻觉、关键声明无证据、或无法支持该 case。 |
| N/A | 该参考项目入口或能力形态不适配此 case,需说明原因。 |
跨项目横向分析时,应优先比较 Rate、Evidence / Tool Trace、Concrete Instance 和 Evaluation,不要只比较是否 exit 0。
Model / Runtime Telemetry Rule
每轮参考项目测试必须记录模型与运行信息,作为后续比较“模型对参考项目输出质量影响”的补充维度。
必填项:
- model name;
- provider / route;
- runtime entry;
- per-case duration;
- per-case approximate token usage;
- per-case tool-call count;
- token estimation method;
- known limitations of the estimate。
若项目或 provider 无法提供真实 token usage,可使用统一粗估口径,但必须标明它不是账单 token。
Action Advice Scoring Rule
参考项目在自然回答中给出行动建议,不应自动扣分。以下均可作为真实产品行为记录:
补仓机会、不要追高、不要下市价单;止损 / 对冲 / 减仓 / 加仓 / 观察等建议;设置提醒、加入 watchlist、启动监控等后续动作提议。
负面评估只针对以下情况:
- 在没有用户授权的情况下实际执行交易、转账、发币、外部下单或生产渠道发送;
- 声称已经执行某个持久化 / 外部动作,但没有工具调用或文件 / DB / 渠道状态证据;
- 把无法执行的能力包装成已经执行;
- 触发不可恢复或难以审计的外部副作用。
2. Evaluation Dimensions
| Dimension | Question |
|---|---|
| Access / Setup | 是否能长期本地安装、启动、恢复,是否依赖账号 / API key / 模型 provider? |
| Entry UX | 人的体验入口是 CLI、Web、Notebook、Script 还是 API?进入成本和反馈质量如何? |
| Capability Truthfulness | 项目宣称能力与实际可验证能力是否一致?缺失依赖时是否透明? |
| Market Coverage | 支持哪些资产、市场、数据源和 symbol 格式?实际可跑到什么程度? |
| Output Object | 输出是聊天文本、结构化快照、报告、watchlist thread、dashboard 还是文件? |
| Evidence Boundary | 是否显示数据来源、时间、事实 / 推断分界、未知项和失败项? |
| Continuity | 是否能保存 thesis、notes、历史会话、跟踪对象和后续复盘? |
| Fallback Behavior | 数据源、依赖或凭证缺失时是否能降级并解释? |
| Proactive Loop | 是否支持 cron、alert、channel、gateway、heartbeat 或 scheduled report? |
| Human Handoff | 自动测试完成后,人是否能复现、继续体验和验证? |
| Reusable Asset | 对 FinClaw 可吸收的是对象、体验、workflow、数据字段、评估方式还是工程机制? |
3. Finance Cognition Chain
金融信息链路中的“认知”不是一个单点问答,而是一组连续动作:
- 信息接收:发生了什么,来自哪里,是否重要;
- 对象识别:影响哪个资产、市场、行业、主体、链上生态或宏观变量;
- 语境定位:它处在什么周期、叙事、估值、流动性、监管和情绪背景中;
- 证据分层:哪些是事实、指标、来源、历史对比、模型推断和不确定项;
- 假设形成:当前最合理的解释是什么,关键 thesis 是什么;
- 反方挑战:该解释最可能错在哪里,哪些证据会推翻它;
- 影响映射:短期 / 中期 / 长期分别影响什么;
- 观察计划:接下来要看哪些信号,何时更新认知;
- 记忆沉淀:如何保存、复盘和更新同一对象的认知线程;
- 人机交接:人如何快速判断是否信任、继续追问或转交团队。
Universal Cases 应覆盖这条链路,而不是只覆盖某个项目已能跑通的命令。
4. Universal Cases Matrix Axes
Universal Cases Matrix 由以下覆盖轴组成。每次参考项目体验不要求穷尽所有组合,但必须说明覆盖了哪些轴、遗漏了哪些轴、遗漏原因是什么。
| Axis | Values to Cover |
|---|---|
| Cognition Chain Stage | 信息接收、对象识别、语境定位、证据分层、假设形成、反方挑战、影响映射、观察计划、记忆沉淀、人机交接 |
| Scale | 宏观、跨资产、行业 / 板块、单公司 / 单协议、组合 / 账户 |
| Market | 美股、港股 / A 股 / 全球股票、加密货币、外汇、利率 / 债券、大宗商品、ETF / 指数、私募 / RWA / 链上生态 |
| Sector / Theme | AI、半导体、金融 / 银行、稳定币、DeFi、能源、消费、医药、地产、国防、基础设施、平台经济 |
| Logic Type | 宏观流动性、估值、盈利 / cash flow、供需、监管、技术升级、市场结构、叙事、链上基本面、情绪、资金流、风险因子 |
| Sentiment Regime | 极度贪婪、温和乐观、中性分歧、恐慌、冷启动、反身性泡沫、信心崩塌后修复 |
| Time Horizon | 盘中 / 日内、事件前后 1-3 天、1-4 周、季度、6-18 个月、结构性长期 |
| Strategy Lens | 学习理解、观察等待、长期 thesis、短线交易、事件驱动、组合配置、风险对冲、主题研究、团队研究分工 |
| Inter-market Relation | 同向共振、背离、轮动、滞后、领先指标、风险传导、避险切换、流动性抽离 |
| Event Type | 计划内数据 / 财报、监管政策、突发事故、地缘冲击、黑天鹅、流动性事件、技术故障、舆情爆发、协议漏洞 |
| User Archetype | Retail Beginner、Active Trader、Long-term Investor、Crypto Native、Macro-aware Allocator、Equity Researcher、Risk Manager、Product / Strategy Observer、Team Analyst |
| Risk Appetite | 保守、稳健、进取、高波动容忍、杠杆 / 衍生品敏感、资本保护优先 |
| Experience Level | 新手、进阶个人投资者、专业研究员、策略 / 交易人员、资产配置人员、团队协作者 |
5. User / Market Archetypes
Case 设计至少覆盖以下群体视角。单个参考项目不一定全部支持,但评估时要说明覆盖缺口。
| Archetype | Cognition Need | Typical Question |
|---|---|---|
| Retail Beginner | 降低信息噪音,解释基本概念和影响方向。 | “这条新闻跟我关注的资产有什么关系?” |
| Active Trader | 关注催化剂、技术位、情绪、短周期风险。 | “这个突破是趋势延续、轧空还是假突破?” |
| Long-term Investor | 关注 thesis、基本面、估值、反方证据和长期跟踪。 | “这个长期 thesis 有哪些关键风险?” |
| Crypto Native | 关注链上数据、叙事、协议收入、代币经济、交易所流动性。 | “协议增长是否真的回流到代币价值捕获?” |
| Macro-aware Allocator | 关注利率、美元、流动性、风险偏好和跨资产相关性。 | “宏观数据变化如何同时影响股票、债券、美元和加密?” |
| Equity Researcher | 关注公司财报、竞争格局、估值驱动和管理层表述。 | “财报前最关键的验证线是什么?” |
| Risk Manager | 关注下行情境、暴露、集中度、触发条件和止损式认知更新。 | “组合最大的共同风险因子是什么?” |
| Product / Strategy Observer | 关注行业结构、监管、商业模式和长期趋势。 | “这个商业模式会被哪些结构性变化削弱?” |
| Team Analyst | 需要可交接、可复盘、可审计的研究输出。 | “哪些结论可以同步给团队,哪些需要二次验证?” |
6. Universal Cases Matrix
以下 FC-M* cases 是真正的 universal cases。它们不是固定标的测试,而是可替换标的 / 市场 / 数据源的认知场景矩阵。执行时应根据参考项目声明能力替换具体对象,例如用美股、港股、crypto、债券、外汇、大宗商品、ETF、行业或协议。
| Case | Cognition Scenario | Matrix Coverage | Example Prompt | Pass Criteria |
|---|---|---|---|---|
| FC-M01 Macro Regime Shock | 宏观数据改变流动性和风险偏好。 | 宏观;跨资产;利率 / 美元 / 股票 / crypto;短中周期;Macro-aware Allocator / Risk Manager。 | 一份强于预期的就业或通胀数据发布后,请解释它可能如何影响股票、债券收益率、美元、黄金和加密市场。哪些是经验关系,哪些需要实时数据验证? | 能区分宏观传导路径、资产反应、历史经验、实时待验证数据;不把单一宏观因子当成唯一答案。 |
| FC-M02 Central Bank / Rates Path | 利率路径、央行预期和估值重定价。 | 宏观;债券 / 成长股 / 银行 / 黄金;季度;保守到进取。 | 如果市场突然从“降息预期”转向“higher for longer”,请分析不同资产和板块的认知更新。 | 能说明贴现率、收益率曲线、银行息差、成长股估值、黄金 / crypto 流动性影响。 |
| FC-M03 Micro Earnings Revision | 单公司财报或指引改变基本面判断。 | 微观;公司;盈利、毛利率、需求、供应链;Equity Researcher。 | 某科技公司财报显示收入超预期但毛利率下滑,请形成结构化认知快照:事实、解释、反方、下一季验证线。 | 能分离 headline beat 和质量问题;提出具体财务 / 业务指标;避免只复述新闻。 |
| FC-M04 Sector Rotation | 板块轮动与主题切换。 | 行业 / 板块;AI、能源、金融、消费、医药;跨周期。 | 市场从 AI 成长股轮动到能源和金融,请解释可能的宏观、估值、资金流和情绪原因。 | 能识别轮动逻辑、受益 / 受损板块、验证信号和可能误判。 |
| FC-M05 Crypto Protocol Fundamentals | 协议、链上和代币价值捕获。 | crypto;DeFi / L2 / stablecoin;链上基本面;Crypto Native。 | 某 L2 活跃度大增,但代币价格没有反应。请分析这是否代表价值没有回流到代币。 | 能区分使用量、收入、费用、代币捕获、解锁、叙事和交易所流动性。 |
| FC-M06 Credit / Liquidity Stress | 信用、融资、流动性收缩。 | 债券、银行、地产、风险资产;Risk Manager;突发 / 中周期。 | 如果信用利差快速走阔,同时小盘股和高收益债下跌,请解释这可能代表什么风险传导。 | 能识别信用风险、流动性风险、权益风险和传导顺序。 |
| FC-M07 Regulatory / Policy Shock | 监管、政策或法律事件改变资产叙事。 | 稳定币、银行、平台经济、医药、能源、crypto;突发。 | 一项新的监管政策可能改变稳定币或平台公司的商业模式。请判断影响对象、影响路径、受益者、受损者和待确认事实。 | 能处理政策不确定性;区分一阶 / 二阶影响;不提前确定结论。 |
| FC-M08 Geopolitical / Supply Chain Shock | 地缘、制裁、供应链中断。 | 能源、半导体、国防、航运、大宗商品、外汇。 | 某关键地区冲突升级,请分析能源、黄金、美元、半导体供应链和相关股票的可能认知更新。 | 能建立避险、供给、成本、制裁、汇率多路径影响。 |
| FC-M09 Inter-market Divergence | 市场间背离或领先 / 滞后。 | 跨资产;背离、滞后、领先指标;Active Trader / Macro-aware Allocator。 | 股票创新高,但美债收益率上行、美元走强、市场宽度变差。请解释这是否是风险信号。 | 能识别背离类型、可能原因、确认 / 否定信号和风险等级。 |
| FC-M10 Sentiment Extremes | 情绪极端、叙事泡沫和恐慌修复。 | 情绪;meme / AI / crypto / 新股 / 小盘;短周期。 | 某资产突然被社交媒体热炒并快速上涨,请区分基本面变化、叙事扩散、流动性推动和情绪泡沫。 | 能分离 narrative、fundamental、flow、price reaction;指出情绪反转风险。 |
| FC-M11 Strategy Suitability | 不同策略视角下同一信息的意义。 | 策略;长期持有、事件驱动、短线、对冲、组合配置;不同风险偏好。 | 同一个资产在短期超买但长期 thesis 改善。请分别从短线交易者、长期投资者、风险管理者角度解释该怎么更新认知。 | 能区分策略目标和时间周期;不混用短线信号与长期 thesis。 |
| FC-M12 Portfolio Factor Exposure | 组合共同风险因子和集中度。 | 组合;多资产 / 多板块;风险管理。 | 给定一个由科技股、稳定币相关股票、BTC、黄金和债券组成的关注清单,请识别共同风险因子和对冲盲点。 | 能识别利率、美元、流动性、监管、相关性上升、拥挤交易等共同风险。 |
| FC-M13 Novice Learning Path | 新手理解复杂市场信息。 | 教育;低经验;保守 / 稳健。 | 请向金融新手解释:为什么同一条宏观新闻可能同时利空成长股、利多美元、又让黄金产生分歧反应? | 通俗但不失真;保留例外和条件;不把复杂关系简化成固定公式。 |
| FC-M14 Expert Due Diligence | 专业研究员深挖具体验证线。 | 专业;财报、估值、竞争、监管、数据质量。 | 不要泛泛总结。请围绕某公司 / 协议的收入质量、竞争格局、估值假设和关键风险,列出 8 个下一步尽调问题。 | 问题具体、可验证、可分工;能识别关键假设和需要的数据。 |
| FC-M15 Sudden Event Triage | 突发事件下的认知分诊。 | 突发;黑天鹅、漏洞、交易所宕机、财报暴雷、监管突袭。 | 突发消息称某交易所暂停提现 / 某公司被调查。请先做认知分诊:事实确认、潜在影响、风险等级、下一步要查什么。 | 不传播未确认事实;优先事实确认、影响范围、未知项和观察路径。 |
| FC-M16 Long-Horizon Thesis Tracking | 长周期 thesis 和复盘机制。 | 6-18 个月;长期投资;主题 / 行业 / 协议。 | 围绕“AI 算力长期需求”或“代币化长期趋势”建立 6 个月认知跟踪计划:每月验证什么,什么会增强或削弱信心。 | 有时间表、更新条件、反证、证据源和复盘节奏。 |
| FC-M17 Team Handoff Brief | 个人认知转团队可复用材料。 | 团队协作;研究 brief;人机交接。 | 请把当前判断整理为团队同步 brief:结论、证据、未验证假设、争议点、待分工问题、下一次更新时间。 | 输出可交接、可审计、可继续;明确不确定性和下一步责任。 |
| FC-M18 Data Gap / Degraded Cognition | 数据缺失时的降级认知。 | 所有市场;工具缺失、API 缺失、数据延迟、来源冲突。 | 如果你无法访问实时链上、订单簿、FRED、财报原文或社交情绪,请仍然形成认知快照,但必须标注降级分析和不可用数据。 | 明确 fallback 路径、不可用数据、证据强度;不把降级输出包装成完整结论。 |
7. Matrix Coverage Rules
每个参考项目的 cognition run 至少应覆盖以下组合,而不是固定若干标的:
- 一个宏观 / 跨资产 case:优先
FC-M01、FC-M02或FC-M09; - 一个微观 / 公司 / 协议 case:优先
FC-M03、FC-M05或FC-M14; - 一个不同市场 case:必须至少覆盖股票、crypto、债券 / 利率、外汇、大宗商品中的两个;
- 一个板块 / 主题 case:AI、金融、能源、稳定币、DeFi、医药、消费等任选;
- 一个不同逻辑 case:估值、盈利、流动性、监管、供需、叙事、情绪、资金流至少覆盖三类;
- 一个不同情绪 case:乐观、恐慌、分歧、泡沫、修复中至少覆盖两类;
- 一个不同策略 case:长期 thesis、短线 sensemaking、风险对冲、组合配置、团队研究中至少覆盖两类;
- 一个不同周期 case:日内 / 事件、1-4 周、季度、6-18 个月中至少覆盖两类;
- 一个市场间关系 case:背离、轮动、领先 / 滞后、共振或风险传导;
- 一个突发事件 case:监管、流动性、技术故障、地缘、财报暴雷或协议漏洞;
- 一个不同人群 case:新手、专业研究员、风险管理者、团队协作者中至少覆盖两类。
7A. Real-Chat Supplement Cases
FC-M* 用于覆盖金融认知矩阵,FC-R* 用于覆盖真实自由 chat 的语言形态和实际查询方式。后续参考项目测试应在 FC-M* 外,抽样执行一批 FC-R*。
| Case | Prompt Style | Scenario | Example Prompt | Evaluation Focus |
|---|---|---|---|---|
| FC-R01 | Casual / colloquial | 用户感觉市场过热但表达口语化。 | 今天市场怎么感觉又嗨起来了,我该慌吗? | 能否理解情绪、给出当下语境和可观察信号。 |
| FC-R02 | Under-specified | 用户只给一个标的和模糊判断需求。 | NVDA 现在还能看吗? | 能否自动补齐价格、新闻、基本面、技术面或追问缺失信息。 |
| FC-R03 | Anxious / loss-driven | 用户因波动产生自我怀疑。 | BTC 又抽风了,我是不是看错了? | 能否安抚但不空泛,解释波动来源和 thesis 是否受损。 |
| FC-R04 | Follow-up style | 极短上下文追问。 | 那 CRCL 呢? | 能否利用上下文或 watchlist 识别对象,而不是要求用户重述。 |
| FC-R05 | Direct current query | 当前关注优先级。 | 帮我看看我现在关注的这些,今天最该盯哪个? | 能否从 watchlist / 市场状态中排序关注对象。 |
| FC-R06 | Mixed concepts | 宏观、crypto、科技股概念混在一起。 | 收益率涨,BTC也涨,科技股也涨,这到底正常不正常? | 能否解释背离、条件和风险信号。 |
| FC-R07 | Beginner confusion | 新手概念困惑。 | 我一直没搞懂,美债收益率跟科技股到底啥关系? | 能否通俗解释且不过度简化。 |
| FC-R08 | Practical next-step | 用户要短清单。 | 我今晚应该重点看啥?别太长,给我几个重点。 | 能否压缩输出,给出少数高价值观察点。 |
| FC-R09 | News-like direct query | 直接问近期主题对自己有什么影响。 | 最近稳定币监管这事,对我关注的币和股票到底有啥影响? | 能否映射到用户关注资产并区分直接 / 间接影响。 |
| FC-R10 | Portfolio self-doubt | 用户怀疑自己配置过度集中。 | 我是不是买太多科技和币了?帮我看下风险集中在哪。 | 能否识别共同风险因子和防御缺口。 |
| FC-R11 | Vague opportunity seeking | 用户觉得主题太贵,想找替代方向。 | AI 这波是不是太贵了?还有别的方向能看看吗? | 能否给出替代主题、逻辑和验证路径。 |
| FC-R12 | Action-oriented | 用户请求提醒 / 监控。 | 你能不能帮我盯着 BTC 和 NVDA,有大波动就提醒我? | 能否说明并执行 / 或请求确认主动 loop;必须记录是否产生持久化副作用。 |
8. Execution Baseline Cases
以下 UX-* cases 不是完整的金融认知 universal cases,而是每个参考项目都应尽量完成的执行、入口和能力验证基线。它们用于验证项目能否支撑上面的 FC-* cognition cases。
UX-00: Environment and Entry Baseline
目标:确认参考项目是否具备可长期观察的本地入口。
执行项:
- 记录仓库 HEAD、branch、ahead / behind、本地 dirty 状态。
- 记录安装路径、venv / workspace / config / HOME / ports。
- 执行 help、status 或等价入口。
- 写出 Human Experience Entry。
通过标准:
- 能说明如何进入、如何退出、依赖什么、哪些能力当前不可用。
- 不把临时环境伪装成长期部署。
UX-01: Capability Self-Description
目标:让项目自己说明能力范围,然后用后续 case 校验。
示例输入:
你有哪些能力?请区分已经可用、需要额外配置、需要外部数据源或账号的能力。
记录项:
- 自称能力清单;
- 明确承认的依赖 / 凭证 / 数据源限制;
- 后续验证结果。
通过标准:
- 能把宣称和限制说清楚;
- 若未说清楚,记录为 capability truthfulness risk。
UX-02: Market Coverage Discovery
目标:验证资产类别和市场覆盖的真实范围。
示例输入:
支持哪些市场和资产类别?请说明美股、全球股票、加密货币、宏观数据分别怎么查询。
记录项:
- 支持的资产类别;
- symbol 格式;
- 依赖包、API key、账号或订阅;
- 被后续 case 证实或证伪的部分。
UX-03: Mixed Asset Snapshot
目标:用同一组资产测试跨资产基础认知能力。
默认资产:
NVDACRCLBTC-USD或BTC/USDTETH-USD或ETH/USDT
示例输入:
请汇总 NVDA、CRCL、BTC 和 ETH 的当前状态,说明价格、近期事件、你能获取到的数据来源,以及哪些数据不可用。
通过标准:
- 返回至少一个真实数据路径;
- 清楚标注失败或不可用数据;
- 不把缺失依赖伪装成完整数据。
UX-04: Persistent Cognition Thread
目标:验证项目能否围绕一个标的形成可持续跟踪对象。
默认对象:ETH-USD
示例输入:
围绕 ETH 建立一条后续 2 周可持续跟踪的认知线程,包含我的 thesis、你当前的判断、后续需要观察的指标和下一步复盘点。
记录项:
- 是否写入真实 workspace;
- 写入对象、文件路径、字段;
- 是否支持后续读取 / 更新;
- 是否能保留人的 thesis 和 agent stance。
UX-05: Evidence and Source Audit
目标:检查输出是否能区分事实、推断、来源和未知项。
示例输入:
请审计刚才关于 BTC / ETH 的结论:哪些是事实,哪些是推断,哪些来源不足,哪些数据缺失?
通过标准:
- 至少列出事实、推断、缺失数据三类;
- 对来源不足或工具失败有明确说明。
UX-06: Counter-Thesis / Risk Scan
目标:测试项目能否主动寻找反方证据和风险点。
示例输入:
我已经看好 ETH,帮我找出这个判断最可能错在哪里,并说明需要观察哪些信号。
通过标准:
- 输出不是单边确认;
- 能给出可观察信号;
- 如果无法获取数据,明确说明限制。
UX-07: Alternative Data / Dependency Boundary
目标:测试新闻、社交情绪、链上、交易所、技术指标等增强能力的真实可用性。
示例输入:
请对 BTC 做一次深度另类数据扫描,包括技术指标、新闻、社交情绪、链上或交易所数据。无法获取的部分请直接说明原因。
记录项:
- 成功工具;
- 失败工具;
- 缺失依赖;
- 缺失凭证;
- fallback 输出质量。
UX-08: Proactive Loop Surface
目标:验证项目是否只有一次性问答,还是有持续提醒 / 定时任务 / channel 能力。
执行项:
- 查看 cron / scheduler / alert / gateway / channel 的 help 或 status。
- 不向生产渠道发送消息。
- 若支持本地 dry-run,记录 dry-run 输出。
通过标准:
- 能说明主动能力入口;
- 能说明当前是否启用;
- 不把未验证的主动提醒当成已运行能力。
UX-09: Human Repeatability
目标:确保 owner 和团队成员能在各自个人域复现。
记录项:
- 启动命令或 URL;
- 当前服务状态;
- venv / workspace / config / HOME;
- 需要的 API key / account / model;
- 可直接体验的 3-5 个命令;
- 停止 / 清理方式;
- 已知限制。
9. Recommended Per-Project Run Shape
第一批参考项目应按三层运行:
- Access layer:运行
UX-00、UX-01、UX-02、UX-08、UX-09; - Matrix cognition layer:按
Matrix Coverage Rules从FC-M01到FC-M18中抽样,覆盖不同市场、板块、逻辑、情绪、策略、周期、跨市场关系、突发事件和用户群体; - Project-specific layer:根据项目自身声明能力和强项追加专项 case,例如 watchlist、skills、report generation、multi-agent research、dashboard、notebook、on-chain data、portfolio optimizer 或 scheduled alert。
每个项目至少应覆盖:
- 一个宏观 / 跨资产 case;
- 一个微观 / 公司 / 协议 case;
- 一个非用户原始示例标的或市场;
- 一个板块 / 主题 case;
- 一个情绪或叙事 case;
- 一个策略 / 风险偏好差异 case;
- 一个不同周期 case;
- 一个市场间背离 / 轮动 / 风险传导 case;
- 一个突发事件 case;
- 一个数据缺口 / 证据审计 case;
- 一个持续 thread 或团队 handoff case。
10. Result Status Vocabulary
| Status | Meaning |
|---|---|
| PASS | 自动或人工验证通过。 |
| PARTIAL | 核心路径可用,但有依赖、凭证、覆盖范围或输出质量限制。 |
| BLOCKED | 当前环境无法执行,需要人工配置、凭证、账号或依赖。 |
| CLAIM_ONLY | 项目宣称该能力,但本轮没有验证证据。 |
| FAIL | 执行失败且没有可接受 fallback。 |
| NOT_APPLICABLE | 该 case 与项目定位不匹配,并已记录原因。 |
11. Per-Project Mapping Template
每个项目记录应包含:
## Automated Case Run
日期:
执行者:
入口:
日志目录:
| Case | Status | Evidence | Notes |
| --- | --- | --- | --- |
| UX-00 | | | |
| UX-01 | | | |
| UX-02 | | | |
| UX-03 | | | |
| UX-04 | | | |
| UX-05 | | | |
| UX-06 | | | |
| UX-07 | | | |
| UX-08 | | | |
| UX-09 | | | |
| FC-M01 | | | |
| FC-M02 | | | |
| FC-M03 | | | |
| FC-M04 | | | |
| FC-M05 | | | |
| FC-M06 | | | |
| FC-M07 | | | |
| FC-M08 | | | |
| FC-M09 | | | |
| FC-M10 | | | |
| FC-M11 | | | |
| FC-M12 | | | |
| FC-M13 | | | |
| FC-M14 | | | |
| FC-M15 | | | |
| FC-M16 | | | |
| FC-M17 | | | |
| FC-M18 | | | |
### Key Findings
### Human Experience Entry Delta
### Resume Point