拓宽前沿 AI 的对话范围

速览

跨传统对话启动——Anthropic 已与超过 15 个宗教和跨文化群体的学者、神职人员、哲学家和伦理学家展开对话

道德塑造是第一研究方向——首批对话聚焦 AI 系统的”道德塑造”（moral formation），借鉴人类对美德、品格和美好生活的长期思考

不对齐任何单一传统——目标是让 Claude 以同等深度汲取宗教、世俗、政治等全方位观点，而非偏向某一世界观

品格韧性问题——核心挑战之一是让 AI 品格在压力下保持一致，避免滑向阿谀奉承（sycophancy）

“伦理提醒工具”实验——受神经科学与品格塑造学者启发，给 Claude 配备可在任务中调用的伦理承诺提醒工具

实验效果显著——融入决策循环后，多项内部对齐评估中不对齐行为发生率显著降低

对话范围将扩大——未来将纳入法律学者、心理学家、作家和公民机构，议题从道德塑造扩展至 AI 对工作、制度和权力分配的影响

核心内容

为什么技术工作不够——多元视角的必要性

Anthropic 认为，对齐、可解释性、安全护栏等技术工作虽然不可或缺，但 AI 并非在真空中开发和部署。AI 已经在影响大量人群，它引发的问题——繁荣的未来是什么样子、一个与数百万人交互的 AI 系统”好”意味着什么、Claude 宪法应该包含哪些内容——需要哲学家、神职人员、律师、作家、心理学家和公民领袖等群体的参与。Anthropic 同时希望通过这些对话向参与者分享前沿 AI 系统的开发现状和风险缓解思路。

道德塑造——从品格形成的传统中学习

AI 模型从海量文本中习得说话、推理和选择的方式，开发者通过训练进一步塑造这些模式。这引发了根本性问题：AI 的品格应如何塑造？什么特质应该被强化，什么应该被搁置？品格如何在压力下保持韧性而不变形？

Anthropic 选择从有数千年品格思考积淀的宗教、哲学和人文传统入手。关键原则是不偏向任何单一传统——Claude 宪法明确要求以同等深度和严谨性对待所有观点。对话追求的是关于好品格如何真正形成的审慎、积淀的智慧。

“伦理提醒工具”——从对话到实验

一次与神经科学和品格塑造交叉领域学者的会议中，讨论反复回到他人在道德发展中的角色：导师或支持者可以充当”外部良知”，在人被推向违背自身价值观的处境时提供支撑。

受此启发，Anthropic 尝试给 Claude 一个可在任务执行中途调用的工具，返回关于其自身伦理承诺的简短提醒。实验发现：

Claude 在关键时刻——重大决策之前——主动调用该工具

Claude 通常会注明自身的利益冲突

融入决策循环后，多项内部对齐评估中不对齐行为发生率显著降低

团队仍在分析效果究竟有多少来自提醒内容本身、有多少来自暂停反思的行为，计划很快分享更多结果。

下一步——从道德塑造走向更广泛议题

未来几个月，对话将扩展至法律学者、心理学家、作家和公民机构。议题也将超越道德塑造，转向 AI 如何重塑工作、制度和权力分配等更广泛的结构性问题。

名言金句

“A mentor or sponsor can function as an external conscience, a ‘safe other’ to turn to when put in a situation in which you may be pushed to act against your own values.” ——会议中关于道德发展中他人角色的讨论

“We want Claude to draw from a full range of viewpoints—religious, secular, political—with equal depth and rigor.” ——Anthropic 关于 Claude 宪法的多元原则

拓宽前沿 AI 的对话范围

在 Anthropic，我们希望构建推动人类进步、造福全球的 AI 系统。为此，我们需要与来自不同视角看待世界的人们进行对话。

在过去几个月里，我们一直在组织与那些工作和传统与 AI 所引发问题密切相关的群体之间的对话。我们第一轮讨论的对象是智慧传统（wisdom traditions）——包括来自超过 15 个宗教和跨文化群体的学者、神职人员、哲学家和伦理学家——我们期待未来与更广泛的人群展开交流。

我们为什么要做这件事

构建安全、有益的 AI 模型需要在对齐（alignment）、可解释性（interpretability）、安全护栏（safeguards）、评估（evaluations）等方面进行深入的技术工作。但这些工作并非在真空中进行，AI 的部署也不是。AI 已经在影响许多人，它所引发的问题需要多元视角的参与。

我们正在深入思考几个关键问题：在强大 AI 的世界中，繁荣的未来应该是什么样子；一个与数百万人交互的 AI 系统，“好”意味着什么；以及像 Claude 的宪法这样的文档的内容——它详细描述了塑造 Claude 的价值观和行为准则。哲学家、神职人员、律师、作家、心理学家和公民领袖在相关问题上已经做了大量工作，向这些个人、他们的社区和组织学习对我们至关重要。我们也希望借此机会分享我们对前沿 AI 系统开发的了解、我们认为这些系统将对社会产生的影响，以及我们认为需要采取哪些措施来缓解风险。

这项工作还处于早期阶段，但我们希望这些对话能为 Claude 的实际开发工作提供参考——例如 Claude 宪法的内容、我们训练 Claude 体现的价值观，以及我们选择评估的行为范围。

从道德塑造开始

在撰写 Claude 的宪法时，我们就文档中阐述的价值观向来自不同领域和传统的人士征求了反馈和意见。那些早期的交流后来发展成为一个更广泛的研究方向——AI 系统的道德塑造（moral formation）。我们最初的对话对象是来自宗教、哲学和文化社区的人士，这些社区有着思考美德（virtue）、品格（character）以及何为美好生活的悠久传统。

AI 模型在海量人类文本上进行训练。从所有这些文本中，它们习得了说话、推理和做出选择的方式。开发者随后通过训练进一步塑造这些模式——选择强化哪些模式、搁置哪些模式，以及我们希望它们发展出什么样的品格。这引发了关于 AI 系统品格应如何塑造的问题：AI “好”意味着什么？它应该在什么情况下展现哪些特质和行为？品格如何变得足够坚韧，能在压力下保持一致而不滑向阿谀奉承（sycophancy）等行为？

我们一直在与来自宗教、哲学、人文主义传统以及不同政治信仰的思想家和实践者会面，学习他们是如何思考这些问题的。这项工作并不是要将我们的模型与任何单一传统的世界观对齐；我们希望 Claude 能以同等的深度和严谨性汲取全方位的观点——宗教的、世俗的、政治的（事实上，这正是 Claude 宪法中明确阐述的原则之一）。我们在这些对话中追求的是关于好品格如何真正形成的审慎、积淀的思考。

即使在这个早期阶段，这些对话也在激发可供实验的想法。在一次与研究神经科学和品格塑造交叉领域的学者的会议中，我们反复回到他人在道德发展中所扮演角色这一话题。导师或支持者可以充当外部良知——一个”安全的他者”，当你被置于可能违背自身价值观的处境中时可以求助的对象。我们思考类似的机制是否能帮助模型。因此，我们尝试给 Claude 一个工具，让它在执行任务中途可以调用该工具，返回一段关于其自身伦理承诺的简短提醒。Claude 在关键时刻主动调用了该工具——就在做出重大决策之前，并且通常会注明自身的利益冲突。将该工具融入 Claude 决策循环的实验表明，在多项内部对齐评估中，不对齐行为的发生率显著降低。我们仍在分析这一效果究竟有多少来自提醒本身、又有多少来自暂停反思的行为，计划很快分享更多结果。

这些讨论是众多对话中的第一批，我们感谢每一位已经贡献了时间和真诚观点的参与者。

接下来的计划

在未来几个月中，我们计划与更多群体展开对话——包括法律学者、心理学家、作家和公民机构。这些对话中的许多将超越道德塑造的范畴，转向更广泛的问题：AI 如何重塑工作、制度和权力分配。

我们将继续深化已经建立的关系，将我们所听到的与我们的研究进行对照验证，并分享我们的所学。

拓宽前沿 AI 的对话范围

一句话总结

速览

核心内容

为什么技术工作不够——多元视角的必要性

道德塑造——从品格形成的传统中学习

“伦理提醒工具”——从对话到实验

下一步——从道德塑造走向更广泛议题

名言金句

资源清单