jixiaxue 知识库
blog / anthropic-blog / responsible-scaling-policy-v3

Anthropic 负责任扩展政策 V3.0 -- 结构化总结

2026-02-25

Anthropic 负责任扩展政策 V3.0 — 结构化总结

原文:Anthropic’s Responsible Scaling Policy: Version 3.0 发布日期:2026 年 2 月 24 日

核心观点

Anthropic 发布 RSP 第三版,在两年实践基础上强化透明度机制,将公司单边行动与行业建议分离,并引入前沿安全路线图和定期风险报告制度,推动 AI 安全从自愿框架走向系统化治理。


关键内容总结

一、RSP 框架基础

要素说明
核心机制”如果-那么”式条件承诺:模型能力超过阈值则触发更严格保障措施
安全等级AI Safety Level (ASL):ASL-2 和 ASL-3 已定义,更高等级留待未来
首次发布2023 年 9 月
本次版本第三版(V3.0),发布于 2026 年 2 月

二、过去两年的成效与不足

成功之处:

不足之处:

问题具体表现
能力阈值模糊模型能力常处于”模糊地带”,接近但未明确突破阈值,难以做出二元判断
评估周期滞后湿实验室试验结果尚未得出结论,更强模型就已出现
政府行动缓慢联邦层面政策重点转向竞争力和经济增长,安全优先级下降
单边实施困难RAND 报告指出 SL5 级别的模型权重安全”目前无法实现”,需国家安全部门协助

三、V3.0 三大核心改进

1. 公司计划与行业建议分离

2. 前沿安全路线图(Frontier Safety Roadmap)

覆盖四大领域,公开目标并接受透明评估:

领域示例目标
安全(Security)启动”登月式研发”项目,实现前所未有的信息安全
对齐(Alignment)系统化确保 Claude 遵守其宪法(constitution)
保障措施(Safeguards)开发超越集体漏洞赏金贡献的红队测试方法
政策(Policy)发布”监管阶梯”政策路线图,指导政府 AI 政策

3. 风险报告与外部审查


关键洞察

  1. 从”硬承诺”到”透明目标”的务实转变:V3.0 不再假装所有保障措施都能单方面兑现,而是坦诚区分”能做的”和”理想的”,这是一种更加成熟的治理思路。

  2. 能力阈值机制的局限性暴露:二元式的阈值判断难以适应能力连续增长的现实,模型进化速度快于评估周期,这一根本矛盾尚未完全解决。

  3. 安全治理的”最后一公里”依赖政府:RAND 报告明确指出最高级别安全标准无法由企业单独实现,AI 安全的终局必然需要国家级力量介入。

  4. 透明度成为新的竞争维度:定期公开风险报告、引入外部审查,将安全透明度从”可选项”提升为”标配”,可能重塑行业信任竞争格局。


重要数据与事实

数据/事实内容
RSP 首版发布时间2023 年 9 月
ASL-3 部署标准达标2025 年 5 月
跟进企业OpenAI、Google DeepMind 等在数月内采纳类似框架
相关立法加州 SB 53、纽约 RAISE 法案、欧盟 AI 法案行为准则
RAND 报告结论SL5 级别模型权重安全”目前无法实现”
风险报告频率每 3-6 个月发布
安全路线图覆盖领域Security、Alignment、Safeguards、Policy 四大领域
展开正文

Anthropic 的负责任扩展政策:第 3.0 版

原文链接:Anthropic’s Responsible Scaling Policy: Version 3.0 发布日期:2026 年 2 月 24 日 来源:Anthropic 官方博客

概述

Anthropic 发布了其负责任扩展政策(Responsible Scaling Policy, RSP)的第三个迭代版本,这是一个旨在缓解 AI 系统灾难性风险的自愿性框架。经过两年多以往版本的实践经验,更新后的政策在巩固成功要素的同时,针对已识别的不足之处进行了改进,并实施了增强的透明度措施。

背景:最初的 RSP 与变革理论

RSP 应对的是一个根本性挑战:解决那些在政策制定时可能尚不存在、但随着技术快速发展可能出现的 AI 风险。当最初的 RSP 于 2023 年 9 月发布时,大语言模型主要作为聊天界面运作。如今的模型已经能够浏览网页、编写和执行代码、操作计算机,并执行自主的多步骤操作。

RSP 基于”条件性的,即如果-那么式的承诺”来运作。如果模型超过了特定的能力阈值——例如在生物科学方面的能力可能有助于制造危险武器——那么就必须引入更严格的保障措施。每个保障措施层级对应一个”AI 安全等级”(AI Safety Level, ASL),其中 ASL-2 和 ASL-3 已有详细定义,而更高等级则有意留待未来制定。

预期的变革机制

  • 内部驱动力:迫使组织将保障措施视为发布的必要条件
  • 竞相提高标准:鼓励竞争对手采纳类似的安全政策
  • 风险共识:利用能力阈值作为协调行业和政府行动的关键时刻
  • 未来协调:使政府合作伙伴关系得以建立,以实施那些难以单方面落实的保障措施

评估:哪些奏效了,哪些没有

成功之处

RSP 成功地激励了更强保障措施的开发。Anthropic 创建了复杂的输入和输出分类器来阻止令人担忧的内容,满足了 2025 年 5 月启动的 ASL-3 部署标准。其他主要 AI 公司——包括 OpenAI 和 Google DeepMind——在数月内采纳了类似的框架。

世界各国政府开始要求前沿 AI 开发者建立灾难性风险评估框架,相关例子包括加利福尼亚州的 SB 53 法案、纽约州的 RAISE 法案,以及欧盟 AI 法案的行为准则。

不足之处

能力阈值方法的效果不如预期。模型能力通常处于一个”模糊地带”,明显接近阈值但又没有明确突破。生物风险评估就是这一挑战的典型例证:虽然模型展示了足够的生物学知识,未能通过简单测试,但仅凭这一点并不能证明存在高风险。大量的湿实验室试验结果仍然模棱两可,尤其是因为在研究得出结论之前就会出现更强大的模型。

各国政府在 AI 安全方面的行动进展缓慢,在联邦层面,政策重点已转向竞争力和经济增长,而非安全考量。

单方面满足更高层级的 RSP 要求似乎越来越困难。RAND 公司关于模型权重安全的一份报告指出,其”SL5”标准——旨在防御最具网络能力的机构的操作——“目前无法实现”,可能需要国家安全部门的协助。

修订后的 RSP:三个关键要素

1. 将公司计划与行业建议分离

更新后的 RSP 区分了 Anthropic 的单边缓解措施和面向全行业的雄心勃勃的建议。公司概述了无论他人如何行动自己都将推进的内容,同时提出了一个代表理想行业整体实施的雄心勃勃的能力-缓解措施对应图。

2. 前沿安全路线图(Frontier Safety Roadmap)

一项新要求规定必须制定并发布前沿安全路线图,详细说明在安全(Security)、对齐(Alignment)、保障措施(Safeguards)和政策(Policy)领域的具体计划。这些不是具有约束力的承诺,而是公开声明的目标,需要接受透明的进展评估。

示例目标包括:

  • 启动”登月式研发”项目,实现前所未有的信息安全水平
  • 开发超越集体漏洞赏金计划贡献的红队测试方法
  • 实施系统化措施,确保 Claude 遵守其宪法(constitution)
  • 建立关键 AI 开发活动的全面记录,并配合 AI 驱动的威胁分析
  • 发布”监管阶梯”政策路线图,以指导政府 AI 政策

3. 风险报告与外部审查

风险报告(Risk Reports)提供详细的安全概况信息,解释能力、威胁模型和现行缓解措施之间的相互关联,同时评估总体风险水平。这些报告每 3-6 个月在线发布,仅进行最低限度的删节,并指出当前措施与面向全行业的雄心勃勃建议之间的差距。

具有 AI 安全专业知识的外部专家审查人员将在特定情况下进行全面的公开审查,他们可以获取未删节或最低限度删节的报告。

结论

RSP 仍然是一份活的文件,旨在随着 AI 模型的进步而演进。这次第三版修订放大了成功要素,承诺在计划和风险考量方面实现更大的透明度,并明确区分了面向更广泛行业的建议和 Anthropic 能够独立完成的工作。该组织打算随着技术的发展继续完善 RSP 和风险评估方法论。