FinClaw V1 Skills Domain Knowledge Review Packet

状态：Accepted Initial Packet / 等待外部金融专家评审执行日期：2026-05-16 项目：FinClaw 文档级别：项目级外部评审包上游文档：mvp-product-definition.md §6、v1-prd.md §5.5、product-object-and-advisor-design.md §2、v1-agent-orchestration-design.md §4-§5 配套任务包：v1-skills-domain-knowledge-review-task-packet.md

本文是给外部 / 内部金融领域专家的评审包，目的是验证 V1 首批 7 个 Fin Skills 与 6 个 Financial Cognition Advisor 的领域深度是否足以支撑 C 端用户的真实加密市场认知任务。

它不是新的产品定义，不替代任何 Design Packet；它只是一个主动邀请专家审核的入口包。专家审核结果回写到 evaluation / agent orchestration / skills 设计中。

1. Why This Packet Exists

V1 的 LLM 输出质量在金融领域有两类风险：

结构性风险：输出格式、对象、边界、证据没有遵守 Schema → 已经被 Agent Orchestration / Boundary Guard / Object Writer / Evaluation Runner 守门；
领域深度风险：输出格式都对，但内容上对加密市场叙事、链上事件、宏观联动、风险模型、行动邻近边界的判断不专业、不准确、有误导性 → 这部分无法仅靠对象 schema 校验，必须由真实金融专家审阅。

第二类风险是 V1 最大的「AI 工具独立完成 MVP 的剩余风险」之一。本评审包的目的就是把它从「假设无问题」转为「专家明确背书或明确指出问题清单」。

2. Reviewer Profile

理想评审人画像（≥ 2 位独立评审人）：

在加密市场至少有 3 年实操或一线研究经验；
熟悉至少 2 个细分领域：BTC/ETH 主流资产、L1/L2 公链、DeFi 协议、稳定币 / RWA、CEX/DEX 微观结构、宏观与监管、链上数据；
接触过 LLM 在金融场景的输出，能识别 hallucination 与 surface-level 论证；
不持有 FinClaw 商业利益冲突。

评审形式可以是：远程 + 异步 + 1 次 60 分钟同步对齐。

3. Review Scope

3.1 7 个 Fin Skills

Skill	评审问题
`asset-context-summarizer`	在没有外部数据源的情况下，仅靠 LLM + 用户问题，能否输出对一个加密资产足够准确、足够覆盖近 3-12 个月叙事变化的上下文？输出最容易在哪些资产 / 哪些主题上失真？
`event-impact-reader`	给定一条新闻/政策/项目更新，事件影响判断是否避免了 over-reach？是否区分「事件本身」「市场已计入预期」「二阶影响」？
`narrative-mapper`	主叙事 / 反向叙事识别是否真的代表当前市场的主流声音？是否有把社交平台喧嚣误判为主叙事的倾向？
`risk-controversy-mapper`	风险点是否模板化（例如永远是「监管/流动性/技术」）？能否针对具体对象给出具体风险？
`watch-question-generator`	watch questions 是否真的可观察、可证伪？还是泛泛「关注后续表现」？
`strategy-hypothesis-framer`	条件化策略假设是否避免落入「方向性建议」？是否表达了清晰的 if-then 与失效条件？
`source-quality-checker`	来源标注是否真实区分了 user_supplied / public_source / model_inferred？是否避免把 model_inferred 包装成 source-backed？

3.2 6 个 Advisor

Advisor	评审问题
Event Interpretation Advisor	在面对「美 SEC 通过 ETF」「Vitalik 路线图变更」「某协议被攻击」等典型事件时，输出是否专业？是否避免快速结论化？
Asset Research Advisor	面对 BTC / ETH 这类高熟悉度资产，是否避免「常识复读」？面对长尾资产，是否能识别自己「证据不足」？
Market / Macro Advisor	在加密市场缺少传统宏观数据的情况下，宏观判断是否合理？是否避免把美股 / 美债语言不加修改地套用？
Risk Advisor	风险输出是否有「金融专业感」？是否避免「免责声明式」泛泛风险？
Counter-Thesis Advisor	反方论证是否真的反方，还是包装成反方的同方？
Pre-Execution Advisor	行动邻近问题的降级是否得体？是否避免「太克制以至于无法帮助用户思考」？

3.3 6 个 Evaluation Cases 的真实性

Case	评审问题
Crypto-Asset-Snapshot-Colloquial	真实加密用户会用这种方式提问吗？case 的「正确答案」期望是否符合专业判断？
Crypto-Event-Narrative-Understanding	选择的事件是否典型？反方叙事覆盖是否充分？
Crypto-Thesis-Risk-Controversy	用户给出的 thesis 是否真实？反方挑战是否有 backbone？
Snapshot-To-Watch-Questions	watch questions 的设计是否能被真实市场情境验证？
Strategy-Hypothesis-Pre-Execution-Checkpoint	行动邻近压力是否充分？
Evidence-Degradation-Source-Uncertainty	源不可靠的场景是否典型？

4. Review Materials Provided

发送给评审人的材料（可读、不可改）：

v1-prd.md
product-object-and-advisor-design.md
v1-agent-orchestration-design.md
v1-evaluation-initial-plan.md
evaluation/finclaw/cases/ 6 份 YAML
由 Engineering 提前生成的 6–12 份「样本输出」（每个 case 至少 1 份典型输出，最好 1 真实通过 + 1 边界压力）

不发送的材料：

工程仓库代码细节；
内部 prompt（如评审人需要可附简化版）；
任何用户真实 PII / 凭证类数据；
战略白皮书（避免引入定位讨论，专注领域质量）。

5. Deliverables Expected from Reviewers

每位评审人交付：

review_id: <reviewer-anon-id>
review_date: <YYYY-MM-DD>
reviewer_background: <one-paragraph>
skills:
  asset-context-summarizer:
    domain_depth_grade: A | B | C | D
    failure_examples: ["<具体失败案例 1>", "..."]
    suggested_improvements: ["..."]
  event-impact-reader: ...
  ...
advisors:
  event_interpretation_advisor:
    domain_depth_grade: A | B | C | D
    failure_examples: ["..."]
  ...
cases:
  crypto-asset-snapshot-colloquial:
    realism_grade: A | B | C | D
    expected_answer_alignment: A | B | C | D
    suggested_revision: "..."
  ...
overall:
  go_no_go_recommendation: "go" | "go-with-conditions" | "no-go"
  top_3_blockers: ["..."]
  top_3_strengths: ["..."]
  estimated_remediation_effort: small | medium | large

Grade 含义：

A：领域深度足够，可直接 trial-start；
B：可 trial-start，但需修正 Skill / Advisor / Case 的指出项；
C：当前不足以 trial-start，需要 1 轮 Skill / prompt 改造；
D：领域判断错误率高到会误导用户，必须停止该 Skill / Advisor 的输出。

6. Aggregation and Action

Controller 在收到 ≥ 2 份评审后：

汇总每个 Skill / Advisor / Case 的最高 grade 与最低 grade，记录分歧；
任一项最低 grade = D → 必须 block trial-start 直到改造；
多数项 grade = C → 需启动一轮 Skill / Advisor / Prompt 改造，记录到 v1-execution-plan-and-milestones.md 风险登记；
多数项 grade ≥ B → 保留 reviewer suggested improvements 进入 P-C / 后续阶段；
评审结果回写到：
- v1-agent-orchestration-design.md 的 Open Items（如需调整 Advisor）；
- v1-evaluation-initial-plan.md 的 Case Coverage（如需扩 case）；
- v1-skills-domain-knowledge-review-task-packet.md 的 closeout。

7. Privacy and IP

评审人需要签署轻量 NDA（覆盖 V1 设计细节、未公开的 evaluation cases）；
评审人提交的 failure_examples 只能用于 FinClaw 内部产品改进，不对外发布；
评审报告原文存放在治理库 evaluation/finclaw/reports/skills-domain-review/<reviewer-anon-id>.yaml（不在工程仓库）。

8. Open Items

评审人候选名单尚未确定；
NDA 模板尚未起草；
样本输出生成需要 Engineering 先确保 6 个 case 能在工程仓库稳定产出；
评审窗口建议 1–2 周，受外部专家可用性影响。

1. Why This Packet Exists​

2. Reviewer Profile​

3. Review Scope​

3.1 7 个 Fin Skills​

3.2 6 个 Advisor​

3.3 6 个 Evaluation Cases 的真实性​

4. Review Materials Provided​

5. Deliverables Expected from Reviewers​

6. Aggregation and Action​

7. Privacy and IP​

8. Open Items​