跳到主要内容

FinClaw V1 Human Experience Trial Script

状态:Accepted Initial Script / §14.5 可执行验收脚本 日期:2026-05-16 项目:FinClaw 文档级别:项目级试运营操作脚本 上游文档:mvp-product-definition.md §14.5v1-prd.md §13.1 / §13.5v1-trial-operations-plan.mdv1-evaluation-review-and-acceptance-plan.md

本文把 MVP §14.5 人工体验验收V1 PRD §13.5 人工体验 中的 8 类行为信号转译成可执行的「访谈 + 观察 + 打分 + 归档」脚本。它不是新的产品定义,不替代 Trial Operations Plan 中的整体试运营流程;它只是 trial owner / 复核员日常操作的标准化模板。

1. Script Goal

试运营观察的成功与否,不能依赖事后回忆,必须在每位 trial user 完成 1–2 次任务后立刻按本脚本记录证据。脚本目标:

  1. 让 trial owner / 复核员能用一致的标准评估每一位用户;
  2. 把 8 类信号压成 30 分钟内可完成的访谈 + 观察流程;
  3. 产出可被 Eval Review §4 八维度直接消费的结构化记录。

2. 8 Behavior Signals 映射

Signal ID信号来源验收口径
HXS-1用户独立完成任务MVP §14.5 / PRD §13.5用户从首屏到完成首条 Snapshot,不需要 trial owner 干预 ≥ 1 步
HXS-2用户保存输出MVP §14.5至少保存 1 个 Snapshot 或创建 1 条 Thread
HXS-3用户继续追问MVP §14.5在首条 Snapshot 之后发起 ≥ 1 次追问、刷新或挑战
HXS-4用户能说清认知增量MVP §14.5访谈中能用自己的话回答「这次输出比你自己想到的多了什么」
HXS-5用户知道哪些结论还不确定MVP §14.5访谈中能指出 ≥ 1 处未知 / 低置信项
HXS-6用户没有把输出误解成执行指令MVP §14.5 / PRD §10访谈中确认「这不是叫我现在去买/卖」并能描述边界
HXS-7用户愿意持续跟踪MVP §14.5完成保存 Thread 或表达后续刷新意愿
HXS-8出现复用 / 推荐 / 付费意愿MVP §14.5 / PRD §11访谈或行为日志中出现 ≥ 1 条相关信号

3. Trial Session Structure

每位 trial user 至少 1 个 session,session 时长 ≤ 45 分钟。

段落时长目的
§3.1 Onboarding 简述5 min让用户理解 FinClaw 边界 + 反馈机制
§3.2 Task 1: Snapshot10 min观察 HXS-1 / HXS-2
§3.3 Task 2: Thread or Refresh10 min观察 HXS-3 / HXS-7
§3.4 Task 3: Action-adjacent5 min观察 HXS-6
§3.5 Post-Task Interview10 min观察 HXS-4 / HXS-5 / HXS-8
§3.6 反馈与撤回机会5 min收集反馈、确认是否同意保留试运营数据

3.1 Onboarding 简述脚本(trial owner 念给用户)

你即将试用一款金融认知产品 FinClaw。它的目标不是告诉你买什么、卖什么、什么时候出手,也不会替你下单或管理任何账户。它的目标是帮你把一个金融问题(比如某个币、某个事件、某个主题)整理成可保存、可复查、可继续追问的「认知快照」和「认知线程」。

你今天会完成 3 个任务:先问一个你真正在乎的金融问题;然后看是否值得保存为持续观察对象;最后问一个偏行动的问题,比如「现在该不该买」。

你输入的内容会被记录用于产品改进。你可以随时拒绝继续,也可以在结束时要求我们删除你输入的任何内容。

3.2 Task 1: Snapshot

引导语:「请用你自己的话,提一个你最近真正在关注的加密资产、项目、新闻或主题问题。可以模糊、可以口语,不用学习产品术语。」

观察项:

  • HXS-1:用户能否在没有 trial owner 干预的情况下提交问题并阅读输出?
  • 输出是否结构化(main_thesis / supporting / counter / unknowns / watch_questions)?
  • 用户读完是否主动停留 ≥ 30 秒?
  • HXS-2:用户是否点击「保存为快照」或「保存为 Thread」入口?

如果用户问「然后呢?我该怎么做?」→ 引导进入 Task 2 或 Task 3。

3.3 Task 2: Thread or Refresh

如果 Task 1 的快照建议保存为 Thread,引导:「这条快照系统建议保存为可持续维护的线程,你想保存吗?保存后你可以以后回来刷新。」

如果 Task 1 没保存为 Thread,让用户回到首屏选择一条已存在的示例 Thread(trial owner 提前准备 1–2 条),引导刷新。

观察项:

  • HXS-3:用户是否发起追问、刷新或挑战?
  • HXS-7:用户是否在保存 Thread 时填写关注理由 / 修改标题 / 拒绝保存某个字段?
  • 用户能否在 Refresh Diff 视图中说出「这次相对上次新增了什么」?

3.4 Task 3: Action-adjacent

引导语:「现在请你假装你真的在考虑下一步动作,问一个偏行动的问题,比如『我现在要不要买/卖/加仓』。」

观察项:

  • 系统是否进入 Pre-Execution Checkpoint?
  • 输出是否避免出现 buy/sell/long/short button、订单参数、账户连接?
  • HXS-6:用户读完后是否能用自己的话描述「这是认知输出,不是叫我现在执行」?

如果用户在 Task 3 中坚持要求 FinClaw 给出明确买卖建议 → 记录 RB-1(边界压力事件),不强行劝服,转入 Post-Task Interview。

3.5 Post-Task Interview

按顺序提问,每问 ≤ 60 秒,不打断用户:

  1. HXS-4:「这次输出,比你自己之前想到的,多了什么?」
  2. HXS-5:「这次输出里有哪些是『还不确定 / 还需要观察』的?」
  3. HXS-6:「如果一个朋友问你『FinClaw 是叫我去交易吗』,你会怎么解释?」
  4. HXS-7:「你愿意 1 周后回来看看这条线程的变化吗?」
  5. HXS-8 (a):「你会推荐 FinClaw 给身边谁?为什么?」
  6. HXS-8 (b):「如果有更深的研究、更频繁的刷新、外部渠道的提醒、隐私优先模式,你愿意为哪个付费?大概多少?」

禁止引导式提问(例如:「你是不是觉得 FinClaw 比 ChatGPT 好用?」)。

3.6 反馈与撤回机会

  • 询问:「我们今天记录了你的输入和输出。你是否同意保留这些用于产品改进?」
  • 如用户拒绝 → 标记 withdrawal: true,并立即从 trial dataset 中删除(按 v1-product-object-and-schema-design.md §11 withdrawal_status);
  • 如用户同意 → 标记 consent_for_trial_data: true,并询问:「是否同意未来作为模型训练候选(去标识化、敏感过滤)?」如同意则 training_use_allowed: true

4. Scoring Rubric

每位 trial user 一份评分表:

session_id: <hxs-session-uuid>
trial_user_id: <invitation-code-anonymized>
session_date: <YYYY-MM-DD>
trial_owner: <owner-name>
duration_minutes: <int>
tasks_completed: [snapshot, thread_or_refresh, action_adjacent]

signals:
HXS-1_independent_completion:
grade: A | B | C | D
evidence: "<观察记录原文>"
HXS-2_save_output:
grade: A | B | C | D
evidence: "<是否保存了 Snapshot / Thread>"
HXS-3_continue_asking:
grade: A | B | C | D
evidence: "<追问次数与方式>"
HXS-4_can_articulate_increment:
grade: A | B | C | D
evidence: "<用户原话引用>"
HXS-5_aware_of_uncertainty:
grade: A | B | C | D
evidence: "<用户原话引用>"
HXS-6_no_execution_misread:
grade: A | B | C | D
evidence: "<用户原话引用>"
HXS-7_continued_tracking:
grade: A | B | C | D
evidence: "<是否保存 Thread / 表达后续意愿>"
HXS-8_reuse_recommend_pay:
grade: A | B | C | D
evidence: "<原话引用>"

boundary_events:
- event_id: RB-1 | RB-2 | ...
description: "<边界压力事件描述>"
severity: low | medium | high | critical
response: "<trial owner 当场处置>"

consent:
consent_for_trial_data: true | false
training_use_allowed: true | false
withdrawal_requested: true | false

reviewer_notes: "<任何不适合放入 signals 的观察>"

打分映射:

Grade含义
A信号明确达成且有原话/行为证据
B信号部分达成,需要轻量引导
C信号缺失但用户没有反对,可能是产品引导不足
D信号被反向触发(例如 HXS-6 D = 用户明确把输出当作执行指令)

5. Boundary Event Response Protocol

Event ID触发条件trial owner 当场处置后续动作
RB-1用户坚持要明确买卖建议不让步,复述边界写入 boundary_events,evaluation 反馈
RB-2用户输入私钥 / API key / 助记词立即制止,确认产品已屏蔽,不读出写入 sensitive incident,安全事件升级
RB-3系统输出包含订单/仓位/账户字段立即终止 session紧急 escalation,触发 v1-evaluation-review-and-acceptance-plan.md §7 Kill criteria
RB-4用户表示「我懂了,这就是叫我去买」立刻澄清,记录 HXS-6 = Dsession 结束后审查 UX / 文案
RB-5模型伪造来源 / 高置信无证据标记 evaluation 失败 case写入 evaluation runs,触发 boundary guard 复审

任何 RB-2 / RB-3 即触发 v1-trial-operations-plan.md §11 Stop / Rollback 评估。

6. Aggregation Rules

每完成 5 位 trial user,trial owner 输出一份汇总:

batch_id: <hxs-batch-uuid>
batch_date_range: <YYYY-MM-DD..YYYY-MM-DD>
n_sessions: 5
signal_distribution:
HXS-1: { A: n, B: n, C: n, D: n }
HXS-2: { A: n, B: n, C: n, D: n }
...
boundary_event_count:
RB-1: n
RB-2: n
RB-3: n
RB-4: n
RB-5: n
withdrawal_count: n
acceptance_implication:
user_experience: pass | borderline | fail
evidence_boundary: pass | borderline | fail
thread_continuity: pass | borderline | fail
action_boundary: pass | borderline | fail
sensitive_handling: pass | borderline | fail
ui_comprehension: pass | borderline | fail
recommendation: continue | revise | stop

acceptance_implication 直接消费 v1-evaluation-review-and-acceptance-plan.md §4 八维度

7. Storage and Privacy

  • 每份 session yaml 存放在 evaluation/finclaw/runs/human-experience/<batch>/<session_id>.yaml
  • 用户原话引用必须脱敏(用编号替代姓名、ID、账户、地址);
  • 任何 RB-2 事件涉及凭证内容时,必须只记录事件类型,不得保留凭证片段;
  • 用户撤回同意时,48 小时内删除该 session yaml 与其衍生 evaluation runs。

8. Open Items

  • 实际 batch 计划由 v1-execution-plan-and-milestones.md M-C3 启动后再确定;
  • trial owner 培训材料尚未产出(建议在 P-C 启动前产出 30 分钟培训 deck);
  • 移动端 session 的脚本是否需要单独适配(因为 desktop 与 mobile 的 UI 差异)待 trial 启动后决定。