jixiaxue 知识库
blog / anthropic-blog · responsible-scaling-policy-v3

Anthropic 负责任扩展政策 V3.0 -- 结构化总结

2 个章节 · 0 条产出 · 0 条证据
2026-04-16

Anthropic 负责任扩展政策 V3.0 — 结构化总结

原文:Anthropic’s Responsible Scaling Policy: Version 3.0 发布日期:2026 年 2 月 24 日

核心观点

Anthropic 发布 RSP 第三版,在两年实践基础上强化透明度机制,将公司单边行动与行业建议分离,并引入前沿安全路线图和定期风险报告制度,推动 AI 安全从自愿框架走向系统化治理。


关键内容总结

一、RSP 框架基础

要素说明
核心机制”如果-那么”式条件承诺:模型能力超过阈值则触发更严格保障措施
安全等级AI Safety Level (ASL):ASL-2 和 ASL-3 已定义,更高等级留待未来
首次发布2023 年 9 月
本次版本第三版(V3.0),发布于 2026 年 2 月

二、过去两年的成效与不足

成功之处:

  • Anthropic 建立了复杂的输入/输出分类器,2025 年 5 月达到 ASL-3 部署标准
  • OpenAI、Google DeepMind 等主要竞争对手数月内采纳类似框架(“竞相提高标准”生效)
  • 多国政府立法要求前沿 AI 开发者建立风险评估框架(加州 SB 53、纽约 RAISE 法案、欧盟 AI 法案)

不足之处:

问题具体表现
能力阈值模糊模型能力常处于”模糊地带”,接近但未明确突破阈值,难以做出二元判断
评估周期滞后湿实验室试验结果尚未得出结论,更强模型就已出现
政府行动缓慢联邦层面政策重点转向竞争力和经济增长,安全优先级下降
单边实施困难RAND 报告指出 SL5 级别的模型权重安全”目前无法实现”,需国家安全部门协助

三、V3.0 三大核心改进

1. 公司计划与行业建议分离

  • 单边措施:Anthropic 无论他人如何行动都将执行的保障措施
  • 行业建议:代表理想状态的”能力-缓解措施对应图”,面向全行业

2. 前沿安全路线图(Frontier Safety Roadmap)

覆盖四大领域,公开目标并接受透明评估:

领域示例目标
安全(Security)启动”登月式研发”项目,实现前所未有的信息安全
对齐(Alignment)系统化确保 Claude 遵守其宪法(constitution)
保障措施(Safeguards)开发超越集体漏洞赏金贡献的红队测试方法
政策(Policy)发布”监管阶梯”政策路线图,指导政府 AI 政策

3. 风险报告与外部审查

  • 3-6 个月发布风险报告,最低限度删节
  • 报告内容:能力评估、威胁模型、缓解措施、整体风险水平
  • 外部专家审查人员在特定条件下可获取未删节报告进行公开审查

关键洞察

  1. 从”硬承诺”到”透明目标”的务实转变:V3.0 不再假装所有保障措施都能单方面兑现,而是坦诚区分”能做的”和”理想的”,这是一种更加成熟的治理思路。

  2. 能力阈值机制的局限性暴露:二元式的阈值判断难以适应能力连续增长的现实,模型进化速度快于评估周期,这一根本矛盾尚未完全解决。

  3. 安全治理的”最后一公里”依赖政府:RAND 报告明确指出最高级别安全标准无法由企业单独实现,AI 安全的终局必然需要国家级力量介入。

  4. 透明度成为新的竞争维度:定期公开风险报告、引入外部审查,将安全透明度从”可选项”提升为”标配”,可能重塑行业信任竞争格局。


重要数据与事实

数据/事实内容
RSP 首版发布时间2023 年 9 月
ASL-3 部署标准达标2025 年 5 月
跟进企业OpenAI、Google DeepMind 等在数月内采纳类似框架
相关立法加州 SB 53、纽约 RAISE 法案、欧盟 AI 法案行为准则
RAND 报告结论SL5 级别模型权重安全”目前无法实现”
风险报告频率每 3-6 个月发布
安全路线图覆盖领域Security、Alignment、Safeguards、Policy 四大领域

Anthropic 的负责任扩展政策:第 3.0 版

Anthropic 的负责任扩展政策:第 3.0 版

原文链接:Anthropic’s Responsible Scaling Policy: Version 3.0 发布日期:2026 年 2 月 24 日 来源:Anthropic 官方博客

概述

Anthropic 发布了其负责任扩展政策(Responsible Scaling Policy, RSP)的第三个迭代版本,这是一个旨在缓解 AI 系统灾难性风险的自愿性框架。经过两年多以往版本的实践经验,更新后的政策在巩固成功要素的同时,针对已识别的不足之处进行了改进,并实施了增强的透明度措施。

背景:最初的 RSP 与变革理论

RSP 应对的是一个根本性挑战:解决那些在政策制定时可能尚不存在、但随着技术快速发展可能出现的 AI 风险。当最初的 RSP 于 2023 年 9 月发布时,大语言模型主要作为聊天界面运作。如今的模型已经能够浏览网页、编写和执行代码、操作计算机,并执行自主的多步骤操作。

RSP 基于”条件性的,即如果-那么式的承诺”来运作。如果模型超过了特定的能力阈值——例如在生物科学方面的能力可能有助于制造危险武器——那么就必须引入更严格的保障措施。每个保障措施层级对应一个”AI 安全等级”(AI Safety Level, ASL),其中 ASL-2 和 ASL-3 已有详细定义,而更高等级则有意留待未来制定。

预期的变革机制

  • 内部驱动力:迫使组织将保障措施视为发布的必要条件
  • 竞相提高标准:鼓励竞争对手采纳类似的安全政策
  • 风险共识:利用能力阈值作为协调行业和政府行动的关键时刻
  • 未来协调:使政府合作伙伴关系得以建立,以实施那些难以单方面落实的保障措施

评估:哪些奏效了,哪些没有

成功之处

RSP 成功地激励了更强保障措施的开发。Anthropic 创建了复杂的输入和输出分类器来阻止令人担忧的内容,满足了 2025 年 5 月启动的 ASL-3 部署标准。其他主要 AI 公司——包括 OpenAI 和 Google DeepMind——在数月内采纳了类似的框架。

世界各国政府开始要求前沿 AI 开发者建立灾难性风险评估框架,相关例子包括加利福尼亚州的 SB 53 法案、纽约州的 RAISE 法案,以及欧盟 AI 法案的行为准则。

不足之处

能力阈值方法的效果不如预期。模型能力通常处于一个”模糊地带”,明显接近阈值但又没有明确突破。生物风险评估就是这一挑战的典型例证:虽然模型展示了足够的生物学知识,未能通过简单测试,但仅凭这一点并不能证明存在高风险。大量的湿实验室试验结果仍然模棱两可,尤其是因为在研究得出结论之前就会出现更强大的模型。

各国政府在 AI 安全方面的行动进展缓慢,在联邦层面,政策重点已转向竞争力和经济增长,而非安全考量。

单方面满足更高层级的 RSP 要求似乎越来越困难。RAND 公司关于模型权重安全的一份报告指出,其”SL5”标准——旨在防御最具网络能力的机构的操作——“目前无法实现”,可能需要国家安全部门的协助。

修订后的 RSP:三个关键要素

1. 将公司计划与行业建议分离

更新后的 RSP 区分了 Anthropic 的单边缓解措施和面向全行业的雄心勃勃的建议。公司概述了无论他人如何行动自己都将推进的内容,同时提出了一个代表理想行业整体实施的雄心勃勃的能力-缓解措施对应图。

2. 前沿安全路线图(Frontier Safety Roadmap)

一项新要求规定必须制定并发布前沿安全路线图,详细说明在安全(Security)、对齐(Alignment)、保障措施(Safeguards)和政策(Policy)领域的具体计划。这些不是具有约束力的承诺,而是公开声明的目标,需要接受透明的进展评估。

示例目标包括:

  • 启动”登月式研发”项目,实现前所未有的信息安全水平
  • 开发超越集体漏洞赏金计划贡献的红队测试方法
  • 实施系统化措施,确保 Claude 遵守其宪法(constitution)
  • 建立关键 AI 开发活动的全面记录,并配合 AI 驱动的威胁分析
  • 发布”监管阶梯”政策路线图,以指导政府 AI 政策

3. 风险报告与外部审查

风险报告(Risk Reports)提供详细的安全概况信息,解释能力、威胁模型和现行缓解措施之间的相互关联,同时评估总体风险水平。这些报告每 3-6 个月在线发布,仅进行最低限度的删节,并指出当前措施与面向全行业的雄心勃勃建议之间的差距。

具有 AI 安全专业知识的外部专家审查人员将在特定情况下进行全面的公开审查,他们可以获取未删节或最低限度删节的报告。

结论

RSP 仍然是一份活的文件,旨在随着 AI 模型的进步而演进。这次第三版修订放大了成功要素,承诺在计划和风险考量方面实现更大的透明度,并明确区分了面向更广泛行业的建议和 Anthropic 能够独立完成的工作。该组织打算随着技术的发展继续完善 RSP 和风险评估方法论。

infographic

Create a professional infographic following these specifications:

Image Specifications

  • Type: Infographic
  • Layout: bento-grid
  • Style: craft-handmade
  • Aspect Ratio: 16:9 (landscape)
  • Language: Chinese (zh)

Core Principles

  • Follow the layout structure precisely for information architecture
  • Apply style aesthetics consistently throughout
  • Keep information concise, highlight keywords and core concepts
  • Use ample whitespace for visual clarity
  • Maintain clear visual hierarchy

Text Requirements

  • All text must match the specified style treatment
  • Main titles should be prominent and readable
  • Key concepts should be visually emphasized
  • Use Chinese for all text content

Layout Guidelines

Modular grid layout with varied cell sizes, like a bento box.

Structure

  • Grid of rectangular cells, mixed cell sizes (1x1, 2x1, 1x2, 2x2)
  • Hero cell for main point, supporting cells around it

Visual Elements

  • Clear cell boundaries, varied cell backgrounds
  • Icons or illustrations per cell
  • Consistent padding/margins, visual hierarchy through size

Style Guidelines

Hand-drawn and paper craft aesthetic with warm, organic feel.

Color Palette

  • Primary: Warm pastels, soft saturated colors, craft paper tones
  • Background: Light cream (#FFF8F0), textured paper (#F5F0E6)
  • Accents: Bold highlights, construction paper colors

Visual Elements

  • Hand-drawn or cut-paper quality, organic slightly imperfect shapes
  • Simple cartoon elements and icons
  • Strictly hand-drawn—no realistic or photographic elements
  • Hand-drawn or casual font style, keywords emphasized with larger/bolder text

Generate the infographic based on the content below:

主标题:Anthropic 负责任扩展政策 V3.0

Hero Cell (2x2) — 核心变化

  • 大字标题:“RSP V3.0”
  • 副标题:从硬承诺到透明目标的务实转变
  • 手绘图:一份带有盾牌和版本号的政策文档,旁边标注”2023 V1 → 2026 V3”的演进箭头
  • 核心一句话:将公司单边行动与行业建议分离,引入前沿安全路线图与定期风险报告

Cell 1 (2x1) — 过去两年:成效 vs 不足

左右分栏对比:

  • ✅ 成效:ASL-3 达标(2025.5)、OpenAI/DeepMind 跟进、多国立法(加州SB53、纽约RAISE、欧盟AI法案)
  • ❌ 不足:能力阈值”模糊地带”、评估慢于模型迭代、政府行动迟缓、SL5 单边无法实现

Cell 2 (1x2) — 三大核心改进

纵向三层卡片:

  1. 🔀 公司行动 vs 行业建议 — 区分单边措施与理想目标
  2. 🗺️ 前沿安全路线图 — 安全/对齐/保障/政策四领域
  3. 📊 风险报告+外部审查 — 每3-6月发布,外部专家可审查

Cell 3 (1x1) — 安全路线图四领域

手绘四象限图标:

  • 🔒 Security:登月式信息安全研发
  • 🎯 Alignment:确保 Claude 遵守宪法
  • 🛡️ Safeguards:超越漏洞赏金的红队测试
  • 📜 Policy:监管阶梯政策路线图

Cell 4 (1x1) — 关键洞察

手绘灯泡:

  • 安全治理的”最后一公里”依赖政府
  • 透明度成为新的竞争维度

Text labels (in Chinese):

  • 主标题:Anthropic 负责任扩展政策 V3.0
  • 副标题:从硬承诺到透明目标的务实转变
  • 成效:ASL-3 达标、行业跟进、多国立法
  • 不足:阈值模糊、评估滞后、政府行动慢、SL5 单边无法实现
  • 三大改进:公司与行业分离、安全路线图、风险报告与外部审查
  • 四领域:安全、对齐、保障措施、政策
  • 关键洞察:安全最后一公里依赖政府、透明度成为竞争维度