拓宽前沿 AI 的对话范围
来源: Anthropic | 作者: Anthropic | 日期: 2026-05-19 原文链接: https://www.anthropic.com/news/widening-conversation-ai
一句话总结
Anthropic 正在与宗教、哲学、人文等多元传统的思想家展开系统性对话,探索如何从人类积淀的道德智慧中汲取养分来塑造 AI 系统的品格,并已初步实验出”伦理提醒工具”等具体机制来降低模型不对齐行为。
速览
- 跨传统对话启动——Anthropic 已与超过 15 个宗教和跨文化群体的学者、神职人员、哲学家和伦理学家展开对话
- 道德塑造是第一研究方向——首批对话聚焦 AI 系统的”道德塑造”(moral formation),借鉴人类对美德、品格和美好生活的长期思考
- 不对齐任何单一传统——目标是让 Claude 以同等深度汲取宗教、世俗、政治等全方位观点,而非偏向某一世界观
- 品格韧性问题——核心挑战之一是让 AI 品格在压力下保持一致,避免滑向阿谀奉承(sycophancy)
- “伦理提醒工具”实验——受神经科学与品格塑造学者启发,给 Claude 配备可在任务中调用的伦理承诺提醒工具
- 实验效果显著——融入决策循环后,多项内部对齐评估中不对齐行为发生率显著降低
- 对话范围将扩大——未来将纳入法律学者、心理学家、作家和公民机构,议题从道德塑造扩展至 AI 对工作、制度和权力分配的影响
核心内容
为什么技术工作不够——多元视角的必要性
Anthropic 认为,对齐、可解释性、安全护栏等技术工作虽然不可或缺,但 AI 并非在真空中开发和部署。AI 已经在影响大量人群,它引发的问题——繁荣的未来是什么样子、一个与数百万人交互的 AI 系统”好”意味着什么、Claude 宪法应该包含哪些内容——需要哲学家、神职人员、律师、作家、心理学家和公民领袖等群体的参与。Anthropic 同时希望通过这些对话向参与者分享前沿 AI 系统的开发现状和风险缓解思路。
道德塑造——从品格形成的传统中学习
AI 模型从海量文本中习得说话、推理和选择的方式,开发者通过训练进一步塑造这些模式。这引发了根本性问题:AI 的品格应如何塑造?什么特质应该被强化,什么应该被搁置?品格如何在压力下保持韧性而不变形?
Anthropic 选择从有数千年品格思考积淀的宗教、哲学和人文传统入手。关键原则是不偏向任何单一传统——Claude 宪法明确要求以同等深度和严谨性对待所有观点。对话追求的是关于好品格如何真正形成的审慎、积淀的智慧。
“伦理提醒工具”——从对话到实验
一次与神经科学和品格塑造交叉领域学者的会议中,讨论反复回到他人在道德发展中的角色:导师或支持者可以充当”外部良知”,在人被推向违背自身价值观的处境时提供支撑。
受此启发,Anthropic 尝试给 Claude 一个可在任务执行中途调用的工具,返回关于其自身伦理承诺的简短提醒。实验发现:
- Claude 在关键时刻——重大决策之前——主动调用该工具
- Claude 通常会注明自身的利益冲突
- 融入决策循环后,多项内部对齐评估中不对齐行为发生率显著降低
团队仍在分析效果究竟有多少来自提醒内容本身、有多少来自暂停反思的行为,计划很快分享更多结果。
下一步——从道德塑造走向更广泛议题
未来几个月,对话将扩展至法律学者、心理学家、作家和公民机构。议题也将超越道德塑造,转向 AI 如何重塑工作、制度和权力分配等更广泛的结构性问题。
名言金句
“A mentor or sponsor can function as an external conscience, a ‘safe other’ to turn to when put in a situation in which you may be pushed to act against your own values.” ——会议中关于道德发展中他人角色的讨论
“We want Claude to draw from a full range of viewpoints—religious, secular, political—with equal depth and rigor.” ——Anthropic 关于 Claude 宪法的多元原则
资源清单
- Claude 的宪法——描述塑造 Claude 的价值观和行为准则的文档
- Persona Selection Model 研究——关于 AI 品格发展选择的研究