关键概念

概念	说明
蒸馏（Distillation）	用强模型的输出训练弱模型，合法用途是创建自有模型的高效版本，非法用途是低成本窃取竞争对手能力
九头蛇集群（Hydra Cluster）	攻击方使用的分布式代理架构，通过大量欺诈账户将流量分散到多个 API 和云平台，无单一故障点
行为指纹识别（Behavioral Fingerprinting）	Anthropic 开发的检测技术，通过分析使用模式识别蒸馏行为

概念

说明

蒸馏（Distillation）

用强模型的输出训练弱模型，合法用途是创建自有模型的高效版本，非法用途是低成本窃取竞争对手能力

九头蛇集群（Hydra Cluster）

攻击方使用的分布式代理架构，通过大量欺诈账户将流量分散到多个 API 和云平台，无单一故障点

行为指纹识别（Behavioral Fingerprinting）

Anthropic 开发的检测技术，通过分析使用模式识别蒸馏行为

三家公司攻击数据对比

维度	DeepSeek	Moonshot AI（月之暗面）	MiniMax
交互规模	~15 万次	~340 万次	~1300 万次
占总量比例	~0.9%	~21.3%	~81.3%
攻击重点	推理能力、评分任务、规避审查方案	智能体推理、工具使用、编程、数据分析、计算机操控、计算机视觉	智能体编程、工具编排
特征	规模最小，聚焦推理与审查规避	覆盖面最广，横跨多个能力维度	规模最大，在 Anthropic 发布新模型后 24 小时内迅速调整策略

维度

DeepSeek

Moonshot AI（月之暗面）

MiniMax

交互规模

~15 万次

~340 万次

~1300 万次

占总量比例

~0.9%

~21.3%

~81.3%

攻击重点

推理能力、评分任务、规避审查方案

智能体推理、工具使用、编程、数据分析、计算机操控、计算机视觉

智能体编程、工具编排

特征

规模最小，聚焦推理与审查规避

覆盖面最广，横跨多个能力维度

规模最大，在 Anthropic 发布新模型后 24 小时内迅速调整策略

关键洞察

规模惊人：1600 万次交互、24,000 个欺诈账户，说明蒸馏攻击已形成系统化、产业化的运作模式

响应极快：MiniMax 在新模型发布后 24 小时内调整策略，表明攻击方具备高度自动化和敏捷响应能力

安全缺失是核心风险：蒸馏模型绕过了原始模型的安全对齐（alignment），可被用于网络攻击、虚假信息、大规模监控等恶意用途

开源放大风险：一旦非法蒸馏模型被开源发布，危害将不可控地扩散

需要协同治理：单靠 AI 公司无法解决，需要行业、云服务商、政策制定者的多方协作

安全启示

层面	启示
AI 公司	需要投入构建主动检测和反制能力，而不仅仅是被动防御
云服务商	应加强账户验证和异常流量监测，切断代理服务的”基础设施”
政策制定者	需要建立跨国合作框架，将 AI 模型蒸馏窃取纳入法律监管
行业整体	共享威胁情报是关键，单一公司的防线容易被绕过

层面

启示

AI 公司

需要投入构建主动检测和反制能力，而不仅仅是被动防御

云服务商

应加强账户验证和异常流量监测，切断代理服务的”基础设施”

政策制定者

需要建立跨国合作框架，将 AI 模型蒸馏窃取纳入法律监管

行业整体

共享威胁情报是关键，单一公司的防线容易被绕过

检测与防范蒸馏攻击

原文：Detecting and preventing distillation attacks 作者：Anthropic 日期：2026 年 2 月 23 日

概述

Anthropic 已发现由 DeepSeek、Moonshot（月之暗面）和 MiniMax 发起的大规模行动，旨在通过”蒸馏”（distillation）攻击提取 Claude 的能力。这些实验室利用约 24,000 个欺诈账户生成了超过 1600 万次对话交互，违反了服务条款和区域访问限制。

什么是蒸馏（Distillation）？

蒸馏是指利用更强模型的输出来训练能力较弱的模型。虽然这是前沿实验室（frontier labs）用于创建自有模型高效版本的合法训练技术，但竞争对手可能滥用这一技术，以远低于正常开发成本的代价获取先进能力。

为什么这很重要

非法蒸馏的模型缺乏必要的安全防护措施，由此带来国家安全风险。这些未受保护的系统可能使威权政府得以部署前沿 AI，用于进攻性网络作战（offensive cyber operations）、虚假信息传播活动（disinformation campaigns）以及大规模监控（mass surveillance）。如果这些模型被开源，风险将呈指数级增长。

攻击行动详情

DeepSeek（约 150,000 次交互）：主要针对推理能力（reasoning capabilities）、基于评分标准的打分任务（rubric-based grading tasks），以及规避审查的查询替代方案（censorship-safe query alternatives）。

Moonshot AI / 月之暗面（约 340 万次交互）：聚焦于智能体推理（agentic reasoning）、工具使用（tool use）、编程、数据分析、计算机操控智能体（computer-use agents）以及计算机视觉（computer vision）。

MiniMax（约 1300 万次交互）：集中于智能体编程（agentic coding）和工具编排（tool orchestration）。值得注意的是，当 Anthropic 发布新模型后，MiniMax 在 24 小时内就调整了攻击策略。

访问方式

外国实验室使用商业代理服务，运行所谓的”九头蛇集群”（hydra cluster）架构——这是一种由欺诈账户组成的庞大网络，将流量分散到各个 API 和云平台上，没有单一故障点（no single points of failure）。

Anthropic 的应对措施

检测：构建了分类器（classifiers）和行为指纹识别系统（behavioral fingerprinting systems），用于识别蒸馏模式。
情报共享：向行业合作伙伴和有关部门提供技术指标（technical indicators）。
访问控制：加强了对教育账户和研究项目的验证流程。
反制措施：正在开发安全防护机制，以降低非法蒸馏所获输出的有效性。

Anthropic 强调，解决这一问题需要 AI 行业、云服务提供商和政策制定者之间的协调行动。

检测与防范蒸馏攻击 - 结构化总结