Anthropic 负责任扩展政策 V3.0 — 结构化总结
原文:Anthropic’s Responsible Scaling Policy: Version 3.0 发布日期:2026 年 2 月 24 日
核心观点
Anthropic 发布 RSP 第三版,在两年实践基础上强化透明度机制,将公司单边行动与行业建议分离,并引入前沿安全路线图和定期风险报告制度,推动 AI 安全从自愿框架走向系统化治理。
关键内容总结
一、RSP 框架基础
| 要素 | 说明 |
|---|---|
| 核心机制 | ”如果-那么”式条件承诺:模型能力超过阈值则触发更严格保障措施 |
| 安全等级 | AI Safety Level (ASL):ASL-2 和 ASL-3 已定义,更高等级留待未来 |
| 首次发布 | 2023 年 9 月 |
| 本次版本 | 第三版(V3.0),发布于 2026 年 2 月 |
二、过去两年的成效与不足
成功之处:
- Anthropic 建立了复杂的输入/输出分类器,2025 年 5 月达到 ASL-3 部署标准
- OpenAI、Google DeepMind 等主要竞争对手数月内采纳类似框架(“竞相提高标准”生效)
- 多国政府立法要求前沿 AI 开发者建立风险评估框架(加州 SB 53、纽约 RAISE 法案、欧盟 AI 法案)
不足之处:
| 问题 | 具体表现 |
|---|---|
| 能力阈值模糊 | 模型能力常处于”模糊地带”,接近但未明确突破阈值,难以做出二元判断 |
| 评估周期滞后 | 湿实验室试验结果尚未得出结论,更强模型就已出现 |
| 政府行动缓慢 | 联邦层面政策重点转向竞争力和经济增长,安全优先级下降 |
| 单边实施困难 | RAND 报告指出 SL5 级别的模型权重安全”目前无法实现”,需国家安全部门协助 |
三、V3.0 三大核心改进
1. 公司计划与行业建议分离
- 单边措施:Anthropic 无论他人如何行动都将执行的保障措施
- 行业建议:代表理想状态的”能力-缓解措施对应图”,面向全行业
2. 前沿安全路线图(Frontier Safety Roadmap)
覆盖四大领域,公开目标并接受透明评估:
| 领域 | 示例目标 |
|---|---|
| 安全(Security) | 启动”登月式研发”项目,实现前所未有的信息安全 |
| 对齐(Alignment) | 系统化确保 Claude 遵守其宪法(constitution) |
| 保障措施(Safeguards) | 开发超越集体漏洞赏金贡献的红队测试方法 |
| 政策(Policy) | 发布”监管阶梯”政策路线图,指导政府 AI 政策 |
3. 风险报告与外部审查
- 每 3-6 个月发布风险报告,最低限度删节
- 报告内容:能力评估、威胁模型、缓解措施、整体风险水平
- 外部专家审查人员在特定条件下可获取未删节报告进行公开审查
关键洞察
-
从”硬承诺”到”透明目标”的务实转变:V3.0 不再假装所有保障措施都能单方面兑现,而是坦诚区分”能做的”和”理想的”,这是一种更加成熟的治理思路。
-
能力阈值机制的局限性暴露:二元式的阈值判断难以适应能力连续增长的现实,模型进化速度快于评估周期,这一根本矛盾尚未完全解决。
-
安全治理的”最后一公里”依赖政府:RAND 报告明确指出最高级别安全标准无法由企业单独实现,AI 安全的终局必然需要国家级力量介入。
-
透明度成为新的竞争维度:定期公开风险报告、引入外部审查,将安全透明度从”可选项”提升为”标配”,可能重塑行业信任竞争格局。
重要数据与事实
| 数据/事实 | 内容 |
|---|---|
| RSP 首版发布时间 | 2023 年 9 月 |
| ASL-3 部署标准达标 | 2025 年 5 月 |
| 跟进企业 | OpenAI、Google DeepMind 等在数月内采纳类似框架 |
| 相关立法 | 加州 SB 53、纽约 RAISE 法案、欧盟 AI 法案行为准则 |
| RAND 报告结论 | SL5 级别模型权重安全”目前无法实现” |
| 风险报告频率 | 每 3-6 个月发布 |
| 安全路线图覆盖领域 | Security、Alignment、Safeguards、Policy 四大领域 |