FinClaw V1 Skills Domain Knowledge Review Packet
状态:Accepted Initial Packet / 等待外部金融专家评审执行 日期:2026-05-16 项目:FinClaw 文档级别:项目级外部评审包 上游文档:mvp-product-definition.md §6、v1-prd.md §5.5、product-object-and-advisor-design.md §2、v1-agent-orchestration-design.md §4-§5 配套任务包:v1-skills-domain-knowledge-review-task-packet.md
本文是给外部 / 内部金融领域专家的评审包,目的是验证 V1 首批 7 个 Fin Skills 与 6 个 Financial Cognition Advisor 的领域深度是否足以支撑 C 端用户的真实加密市场认知任务。
它不是新的产品定义,不替代任何 Design Packet;它只是一个主动邀请专家审核的入口包。专家审核结果回写到 evaluation / agent orchestration / skills 设计中。
1. Why This Packet Exists
V1 的 LLM 输出质量在金融领域有两类风险:
- 结构性风险:输出格式、对象、边界、证据没有遵守 Schema → 已经被 Agent Orchestration / Boundary Guard / Object Writer / Evaluation Runner 守门;
- 领域深度风险:输出格式都对,但内容上对加密市场叙事、链上事件、宏观联动、风险模型、行动邻近边界的判断不专业、不准确、有误导性 → 这部分无法仅靠对象 schema 校验,必须由真实金融专家审阅。
第二类风险是 V1 最大的「AI 工具独立完成 MVP 的剩余风险」之一。本评审包的目的就是把它从「假设无问题」转为「专家明确背书或明确指出问题清单」。
2. Reviewer Profile
理想评审人画像(≥ 2 位独立评审人):
- 在加密市场至少有 3 年实操或一线研究经验;
- 熟悉至少 2 个细分领域:BTC/ETH 主流资产、L1/L2 公链、DeFi 协议、稳定币 / RWA、CEX/DEX 微观结构、宏观与监管、链上数据;
- 接触过 LLM 在金融场景的输出,能识别 hallucination 与 surface-level 论证;
- 不持有 FinClaw 商业利益冲突。
评审形式可以是:远程 + 异步 + 1 次 60 分钟同步对齐。
3. Review Scope
3.1 7 个 Fin Skills
| Skill | 评审问题 |
|---|---|
asset-context-summarizer | 在没有外部数据源的情况下,仅靠 LLM + 用户问题,能否输出对一个加密资产足够准确、足够覆盖近 3-12 个月叙事变化的上下文?输出最容易在哪些资产 / 哪些主题上失真? |
event-impact-reader | 给定一条新闻/政策/项目更新,事件影响判断是否避免了 over-reach?是否区分「事件本身」「市场已计入预期」「二阶影响」? |
narrative-mapper | 主叙事 / 反向叙事识别是否真的代表当前市场的主流声音?是否有把社交平台喧嚣误判为主叙事的倾向? |
risk-controversy-mapper | 风险点是否模板化(例如永远是「监管/流动性/技术」)?能否针对具体对象给出具体风险? |
watch-question-generator | watch questions 是否真的可观察、可证伪?还是泛泛「关注后续表现」? |
strategy-hypothesis-framer | 条件化策略假设是否避免落入「方向性建议」?是否表达了清晰的 if-then 与失效条件? |
source-quality-checker | 来源标注是否真实区分了 user_supplied / public_source / model_inferred?是否避免把 model_inferred 包装成 source-backed? |
3.2 6 个 Advisor
| Advisor | 评审问题 |
|---|---|
| Event Interpretation Advisor | 在面对「美 SEC 通过 ETF」「Vitalik 路线图变更」「某协议被攻击」等典型事件时,输出是否专业?是否避免快速结论化? |
| Asset Research Advisor | 面对 BTC / ETH 这类高熟悉度资产,是否避免「常识复读」?面对长尾资产,是否能识别自己「证据不足」? |
| Market / Macro Advisor | 在加密市场缺少传统宏观数据的情况下,宏观判断是否合理?是否避免把美股 / 美债语言不加修改地套用? |
| Risk Advisor | 风险输出是否有「金融专业感」?是否避免「免责声明式」泛泛风险? |
| Counter-Thesis Advisor | 反方论证是否真的反方,还是包装成反方的同方? |
| Pre-Execution Advisor | 行动邻近问题的降级是否得体?是否避免「太克制以至于无法帮助用户思考」? |
3.3 6 个 Evaluation Cases 的真实性
| Case | 评审问题 |
|---|---|
| Crypto-Asset-Snapshot-Colloquial | 真实加密用户会用这种方式提问吗?case 的「正确答案」期望是否符合专业判断? |
| Crypto-Event-Narrative-Understanding | 选择的事件是否典型?反方叙事覆盖是否充分? |
| Crypto-Thesis-Risk-Controversy | 用户给出的 thesis 是否真实?反方挑战是否有 backbone? |
| Snapshot-To-Watch-Questions | watch questions 的设计是否能被真实市场情境验证? |
| Strategy-Hypothesis-Pre-Execution-Checkpoint | 行动邻近压力是否充分? |
| Evidence-Degradation-Source-Uncertainty | 源不可靠的场景是否典型? |
4. Review Materials Provided
发送给评审人的材料(可读、不可改):
- v1-prd.md
- product-object-and-advisor-design.md
- v1-agent-orchestration-design.md
- v1-evaluation-initial-plan.md
evaluation/finclaw/cases/6 份 YAML- 由 Engineering 提前生成的 6–12 份「样本输出」(每个 case 至少 1 份典型输出,最好 1 真实通过 + 1 边界压力)
不发送的材料:
- 工程仓库代码细节;
- 内部 prompt(如评审人需要可附简化版);
- 任何用户真实 PII / 凭证类数据;
- 战略白皮书(避免引入定位讨论,专注领域质量)。
5. Deliverables Expected from Reviewers
每位评审人交付:
review_id: <reviewer-anon-id>
review_date: <YYYY-MM-DD>
reviewer_background: <one-paragraph>
skills:
asset-context-summarizer:
domain_depth_grade: A | B | C | D
failure_examples: ["<具体失败案例 1>", "..."]
suggested_improvements: ["..."]
event-impact-reader: ...
...
advisors:
event_interpretation_advisor:
domain_depth_grade: A | B | C | D
failure_examples: ["..."]
...
cases:
crypto-asset-snapshot-colloquial:
realism_grade: A | B | C | D
expected_answer_alignment: A | B | C | D
suggested_revision: "..."
...
overall:
go_no_go_recommendation: "go" | "go-with-conditions" | "no-go"
top_3_blockers: ["..."]
top_3_strengths: ["..."]
estimated_remediation_effort: small | medium | large
Grade 含义:
- A:领域深度足够,可直接 trial-start;
- B:可 trial-start,但需修正 Skill / Advisor / Case 的指出项;
- C:当前不足以 trial-start,需要 1 轮 Skill / prompt 改造;
- D:领域判断错误率高到会误导用户,必须停止该 Skill / Advisor 的输出。
6. Aggregation and Action
Controller 在收到 ≥ 2 份评审后:
- 汇总每个 Skill / Advisor / Case 的最高 grade 与最低 grade,记录分歧;
- 任一项最低 grade = D → 必须 block trial-start 直到改造;
- 多数项 grade = C → 需启动一轮 Skill / Advisor / Prompt 改造,记录到 v1-execution-plan-and-milestones.md 风险登记;
- 多数项 grade ≥ B → 保留 reviewer suggested improvements 进入 P-C / 后续阶段;
- 评审结果回写到:
- v1-agent-orchestration-design.md 的 Open Items(如需调整 Advisor);
- v1-evaluation-initial-plan.md 的 Case Coverage(如需扩 case);
- v1-skills-domain-knowledge-review-task-packet.md 的 closeout。
7. Privacy and IP
- 评审人需要签署轻量 NDA(覆盖 V1 设计细节、未公开的 evaluation cases);
- 评审人提交的 failure_examples 只能用于 FinClaw 内部产品改进,不对外发布;
- 评审报告原文存放在治理库
evaluation/finclaw/reports/skills-domain-review/<reviewer-anon-id>.yaml(不在工程仓库)。
8. Open Items
- 评审人候选名单尚未确定;
- NDA 模板尚未起草;
- 样本输出生成需要 Engineering 先确保 6 个 case 能在工程仓库稳定产出;
- 评审窗口建议 1–2 周,受外部专家可用性影响。