检测与防范蒸馏攻击
原文:Detecting and preventing distillation attacks
作者:Anthropic
日期:2026 年 2 月 23 日
概述
Anthropic 已发现由 DeepSeek、Moonshot(月之暗面)和 MiniMax 发起的大规模行动,旨在通过”蒸馏”(distillation)攻击提取 Claude 的能力。这些实验室利用约 24,000 个欺诈账户生成了超过 1600 万次对话交互,违反了服务条款和区域访问限制。
什么是蒸馏(Distillation)?
蒸馏是指利用更强模型的输出来训练能力较弱的模型。虽然这是前沿实验室(frontier labs)用于创建自有模型高效版本的合法训练技术,但竞争对手可能滥用这一技术,以远低于正常开发成本的代价获取先进能力。
为什么这很重要
非法蒸馏的模型缺乏必要的安全防护措施,由此带来国家安全风险。这些未受保护的系统可能使威权政府得以部署前沿 AI,用于进攻性网络作战(offensive cyber operations)、虚假信息传播活动(disinformation campaigns)以及大规模监控(mass surveillance)。如果这些模型被开源,风险将呈指数级增长。
攻击行动详情
DeepSeek(约 150,000 次交互):主要针对推理能力(reasoning capabilities)、基于评分标准的打分任务(rubric-based grading tasks),以及规避审查的查询替代方案(censorship-safe query alternatives)。
Moonshot AI / 月之暗面(约 340 万次交互):聚焦于智能体推理(agentic reasoning)、工具使用(tool use)、编程、数据分析、计算机操控智能体(computer-use agents)以及计算机视觉(computer vision)。
MiniMax(约 1300 万次交互):集中于智能体编程(agentic coding)和工具编排(tool orchestration)。值得注意的是,当 Anthropic 发布新模型后,MiniMax 在 24 小时内就调整了攻击策略。
访问方式
外国实验室使用商业代理服务,运行所谓的”九头蛇集群”(hydra cluster)架构——这是一种由欺诈账户组成的庞大网络,将流量分散到各个 API 和云平台上,没有单一故障点(no single points of failure)。
Anthropic 的应对措施
- 检测:构建了分类器(classifiers)和行为指纹识别系统(behavioral fingerprinting systems),用于识别蒸馏模式。
- 情报共享:向行业合作伙伴和有关部门提供技术指标(technical indicators)。
- 访问控制:加强了对教育账户和研究项目的验证流程。
- 反制措施:正在开发安全防护机制,以降低非法蒸馏所获输出的有效性。
Anthropic 强调,解决这一问题需要 AI 行业、云服务提供商和政策制定者之间的协调行动。