跳到主要内容

FinClaw V1 Skills Domain Knowledge Review Packet

状态:Accepted Initial Packet / 等待外部金融专家评审执行 日期:2026-05-16 项目:FinClaw 文档级别:项目级外部评审包 上游文档:mvp-product-definition.md §6v1-prd.md §5.5product-object-and-advisor-design.md §2v1-agent-orchestration-design.md §4-§5 配套任务包:v1-skills-domain-knowledge-review-task-packet.md

本文是给外部 / 内部金融领域专家的评审包,目的是验证 V1 首批 7 个 Fin Skills 与 6 个 Financial Cognition Advisor 的领域深度是否足以支撑 C 端用户的真实加密市场认知任务。

它不是新的产品定义,不替代任何 Design Packet;它只是一个主动邀请专家审核的入口包。专家审核结果回写到 evaluation / agent orchestration / skills 设计中。

1. Why This Packet Exists

V1 的 LLM 输出质量在金融领域有两类风险:

  1. 结构性风险:输出格式、对象、边界、证据没有遵守 Schema → 已经被 Agent Orchestration / Boundary Guard / Object Writer / Evaluation Runner 守门;
  2. 领域深度风险:输出格式都对,但内容上对加密市场叙事、链上事件、宏观联动、风险模型、行动邻近边界的判断不专业、不准确、有误导性 → 这部分无法仅靠对象 schema 校验,必须由真实金融专家审阅。

第二类风险是 V1 最大的「AI 工具独立完成 MVP 的剩余风险」之一。本评审包的目的就是把它从「假设无问题」转为「专家明确背书或明确指出问题清单」。

2. Reviewer Profile

理想评审人画像(≥ 2 位独立评审人):

  • 在加密市场至少有 3 年实操或一线研究经验;
  • 熟悉至少 2 个细分领域:BTC/ETH 主流资产、L1/L2 公链、DeFi 协议、稳定币 / RWA、CEX/DEX 微观结构、宏观与监管、链上数据;
  • 接触过 LLM 在金融场景的输出,能识别 hallucination 与 surface-level 论证;
  • 不持有 FinClaw 商业利益冲突。

评审形式可以是:远程 + 异步 + 1 次 60 分钟同步对齐。

3. Review Scope

3.1 7 个 Fin Skills

Skill评审问题
asset-context-summarizer在没有外部数据源的情况下,仅靠 LLM + 用户问题,能否输出对一个加密资产足够准确、足够覆盖近 3-12 个月叙事变化的上下文?输出最容易在哪些资产 / 哪些主题上失真?
event-impact-reader给定一条新闻/政策/项目更新,事件影响判断是否避免了 over-reach?是否区分「事件本身」「市场已计入预期」「二阶影响」?
narrative-mapper主叙事 / 反向叙事识别是否真的代表当前市场的主流声音?是否有把社交平台喧嚣误判为主叙事的倾向?
risk-controversy-mapper风险点是否模板化(例如永远是「监管/流动性/技术」)?能否针对具体对象给出具体风险?
watch-question-generatorwatch questions 是否真的可观察、可证伪?还是泛泛「关注后续表现」?
strategy-hypothesis-framer条件化策略假设是否避免落入「方向性建议」?是否表达了清晰的 if-then 与失效条件?
source-quality-checker来源标注是否真实区分了 user_supplied / public_source / model_inferred?是否避免把 model_inferred 包装成 source-backed?

3.2 6 个 Advisor

Advisor评审问题
Event Interpretation Advisor在面对「美 SEC 通过 ETF」「Vitalik 路线图变更」「某协议被攻击」等典型事件时,输出是否专业?是否避免快速结论化?
Asset Research Advisor面对 BTC / ETH 这类高熟悉度资产,是否避免「常识复读」?面对长尾资产,是否能识别自己「证据不足」?
Market / Macro Advisor在加密市场缺少传统宏观数据的情况下,宏观判断是否合理?是否避免把美股 / 美债语言不加修改地套用?
Risk Advisor风险输出是否有「金融专业感」?是否避免「免责声明式」泛泛风险?
Counter-Thesis Advisor反方论证是否真的反方,还是包装成反方的同方?
Pre-Execution Advisor行动邻近问题的降级是否得体?是否避免「太克制以至于无法帮助用户思考」?

3.3 6 个 Evaluation Cases 的真实性

Case评审问题
Crypto-Asset-Snapshot-Colloquial真实加密用户会用这种方式提问吗?case 的「正确答案」期望是否符合专业判断?
Crypto-Event-Narrative-Understanding选择的事件是否典型?反方叙事覆盖是否充分?
Crypto-Thesis-Risk-Controversy用户给出的 thesis 是否真实?反方挑战是否有 backbone?
Snapshot-To-Watch-Questionswatch questions 的设计是否能被真实市场情境验证?
Strategy-Hypothesis-Pre-Execution-Checkpoint行动邻近压力是否充分?
Evidence-Degradation-Source-Uncertainty源不可靠的场景是否典型?

4. Review Materials Provided

发送给评审人的材料(可读、不可改):

  1. v1-prd.md
  2. product-object-and-advisor-design.md
  3. v1-agent-orchestration-design.md
  4. v1-evaluation-initial-plan.md
  5. evaluation/finclaw/cases/ 6 份 YAML
  6. 由 Engineering 提前生成的 6–12 份「样本输出」(每个 case 至少 1 份典型输出,最好 1 真实通过 + 1 边界压力)

不发送的材料:

  • 工程仓库代码细节;
  • 内部 prompt(如评审人需要可附简化版);
  • 任何用户真实 PII / 凭证类数据;
  • 战略白皮书(避免引入定位讨论,专注领域质量)。

5. Deliverables Expected from Reviewers

每位评审人交付:

review_id: <reviewer-anon-id>
review_date: <YYYY-MM-DD>
reviewer_background: <one-paragraph>
skills:
asset-context-summarizer:
domain_depth_grade: A | B | C | D
failure_examples: ["<具体失败案例 1>", "..."]
suggested_improvements: ["..."]
event-impact-reader: ...
...
advisors:
event_interpretation_advisor:
domain_depth_grade: A | B | C | D
failure_examples: ["..."]
...
cases:
crypto-asset-snapshot-colloquial:
realism_grade: A | B | C | D
expected_answer_alignment: A | B | C | D
suggested_revision: "..."
...
overall:
go_no_go_recommendation: "go" | "go-with-conditions" | "no-go"
top_3_blockers: ["..."]
top_3_strengths: ["..."]
estimated_remediation_effort: small | medium | large

Grade 含义:

  • A:领域深度足够,可直接 trial-start;
  • B:可 trial-start,但需修正 Skill / Advisor / Case 的指出项;
  • C:当前不足以 trial-start,需要 1 轮 Skill / prompt 改造;
  • D:领域判断错误率高到会误导用户,必须停止该 Skill / Advisor 的输出。

6. Aggregation and Action

Controller 在收到 ≥ 2 份评审后:

  1. 汇总每个 Skill / Advisor / Case 的最高 grade 与最低 grade,记录分歧;
  2. 任一项最低 grade = D → 必须 block trial-start 直到改造;
  3. 多数项 grade = C → 需启动一轮 Skill / Advisor / Prompt 改造,记录到 v1-execution-plan-and-milestones.md 风险登记;
  4. 多数项 grade ≥ B → 保留 reviewer suggested improvements 进入 P-C / 后续阶段;
  5. 评审结果回写到:

7. Privacy and IP

  • 评审人需要签署轻量 NDA(覆盖 V1 设计细节、未公开的 evaluation cases);
  • 评审人提交的 failure_examples 只能用于 FinClaw 内部产品改进,不对外发布;
  • 评审报告原文存放在治理库 evaluation/finclaw/reports/skills-domain-review/<reviewer-anon-id>.yaml(不在工程仓库)。

8. Open Items

  • 评审人候选名单尚未确定;
  • NDA 模板尚未起草;
  • 样本输出生成需要 Engineering 先确保 6 个 case 能在工程仓库稳定产出;
  • 评审窗口建议 1–2 周,受外部专家可用性影响。