image-20250225223322802

有些事情我们几乎可以立即想到,例如“今天星期几?”。而另一些事情则需要耗费更多的脑力,比如解决一个隐晦的填字游戏或调试一段复杂的代码。我们可以根据手头的任务,选择投入或多或少的认知努力。

现在,Claude 也具备了同样的灵活性。借助全新的 Claude 3.7 Sonnet,用户可以开启或关闭“扩展思考模式”,从而指示模型更深入地思考那些更为棘手的问题。开发人员甚至可以设置“思考预算”,以便精确控制 Claude 在解决特定问题上所花费的时间。“扩展思考模式”并非切换至采用不同策略的独立模型,而是允许同一模型投入更多时间与精力,以得出最终答案。

Claude 全新的扩展思考能力显著提升了其智能水平。与此同时,这也为那些对 AI 模型的工作原理、评估方法以及安全提升策略感兴趣的人士提出了诸多重要问题。在本文中,我们将分享我们所获得的一些见解。

可见的思考过程

除了赋予 Claude 更长的思考时间,进而使其能够解答更具挑战性的问题之外,我们还决定以原始形式呈现其思考过程。这具有以下几点益处:

信任。 能够观察 Claude 的思考方式,可以更容易理解和检查它的答案——并且可能帮助用户获得更优质的输出结果。

对齐。 在我们之前的一些对齐科学研究中,我们曾利用模型内心真实想法与其表面表达之间的矛盾,来识别它是否可能出现诸如欺骗等不良行为。

兴趣。 观看 Claude 思考的过程往往引人入胜。我们一些具有数学和物理背景的研究人员注意到,Claude 的思考过程与他们自己解决难题的方式极其相似:探索多种不同的角度和推理路径,并反复验证答案。

==然而,这种可见的思考过程也存在一些不足==。首先,用户可能会发现,这种公开的思考过程相比 Claude 默认的输出,显得更加客观,缺乏个性化。这是因为我们没有对模型的思考过程进行标准的角色训练。我们希望给予 Claude 最大的自由度,允许它思考任何必要的想法以得出答案——正如人类的思考一样,Claude 有时也会产生一些不准确、具有误导性或不够成熟的想法。许多用户会认为这很有帮助;但也有一些用户可能会对此感到困扰(包括思考过程中缺乏个性的内容)。

另一个问题是所谓的“忠实性”——我们无法确定模型在思考过程中所呈现的内容是否真正反映了其内部的运作机制(例如,思考过程中显示的英语词汇可能无法完全解释模型为何会展现出某种特定行为)。 确保“忠实性”的问题是我们目前积极研究的领域之一。

目前的研究结果表明,模型在做出决策时,往往会基于它们在思考过程中_没有_明确提及的因素。 这意味着我们不能仅仅依靠监控当前模型的思考过程,就对其安全性做出有力的判断。 此外,这还带来了一些安全隐患。 恶意行为者可能会利用这种可见的思考过程,来制定更有效的策略,从而绕过 Claude 的安全机制。 更进一步地推测,如果模型在训练过程中得知其内部思考过程会被公开展示,它们可能会被激励去采用不同的、更难以预测的思考方式,甚至有可能会故意隐藏某些想法。

对于未来更强大、能力更强的 Claude 版本而言,这些潜在的安全问题将尤为突出——因为一旦这些版本出现偏差,将会带来更大的风险。 我们将会仔细权衡在未来版本中公开思考过程的利弊。

目前,Claude 3.7 Sonnet 中所展示的思考过程应被视为一项研究预览。

Claude 思考的新测试

Claude 作为 AI 智能体

Claude 3.7 Sonnet 受益于我们称之为“行动扩展”的能力——一种改进的能力,允许它迭代地调用函数,响应环境变化,并持续完成开放式任务。 这种任务的一个例子是使用计算机:Claude 可以发出虚拟鼠标点击和键盘按键,代表用户解决任务。 与其前身相比,Claude 3.7 Sonnet 可以为计算机使用任务分配更多的轮次——以及更多的时间和计算能力——并且通常能获得更好的结果。 我们可以看到 Claude 3.7 Sonnet 在 OSWorld 上的进步,OSWorld 是一项评估多模态 AI 智能体能力的评估。 Claude 3.7 Sonnet 的起点略好一些,但随着模型不断与虚拟计算机交互,性能差异会随着时间的推移而扩大。

Image 1

Claude 3.7 Sonnet 与其前代模型在 OSWorld 评估中的性能对比,该评估用于测试多模态计算机使用技能。“Pass @ 1”:模型只有一次机会解决特定问题,才能算作通过。

总的来说,Claude 的扩展思考和 AI 智能体训练帮助它在许多标准评估(例如 OSWorld)中表现更好。但它们也为它在其他一些可能更出乎意料的任务中提供了巨大的提升。

玩宝可梦——特别是 Game Boy 经典游戏《宝可梦 红》——就是这样一个任务。我们为 Claude 配备了基本的记忆、屏幕像素输入和函数调用来按下按钮并在屏幕上导航,使其能够在超出其通常上下文限制的情况下持续玩宝可梦,通过数万次互动维持游戏进行。

在下面的图中,我们绘制了 Claude 3.7 Sonnet 的宝可梦游戏进度,以及之前版本的 Claude Sonnet 的游戏进度,之前的版本没有扩展思考的选项。正如你所看到的,之前的版本在游戏早期就卡住了,Claude 3.0 Sonnet 甚至未能离开故事开始的真新镇的房子。但 Claude 3.7 Sonnet 改进的 AI 智能体能力帮助它推进得更远,成功地与三位宝可梦道馆馆主(游戏的 Boss)战斗并赢得了他们的徽章。Claude 3.7 Sonnet 在尝试多种策略和质疑先前的假设方面非常有效,这使得它能够在进展过程中提高自身的能力。 Image 2

Claude 3.7 Sonnet 在玩《精灵宝可梦 红》这款游戏时表现出色,证明它是目前所有 Sonnet 模型中表现最佳的。横坐标 (x 轴) 表示 Claude 在游戏过程中完成的交互次数;纵坐标 (y 轴) 则代表游戏中的重要里程碑,包括收集特定物品、探索特定区域以及击败游戏中的 Boss。

《精灵宝可梦》提供了一种有趣的方式来了解 Claude 3.7 Sonnet 的强大能力,但我们更期待这些能力在游戏之外的现实世界中发挥重要作用。该模型能够保持专注并达成开放性目标,这将有助于开发者构建各种先进的 AI 智能体。

串行和并行测试时计算扩展

当 Claude 3.7 Sonnet 使用其扩展的思考能力时,可以将其描述为受益于“串行测试时计算”。也就是说,它在生成最终输出之前使用多个连续的推理步骤,并随着过程的进行添加更多的计算资源。一般来说,这以可预测的方式提高了其性能:例如,它在数学问题上的准确性随着允许采样的“思考 Token”数量的增加而呈对数增长。 Image 3

Claude 3.7 Sonnet 在 2024 年美国邀请数学考试 (American Invitational Mathematics Examination 2024) 题目上的表现,取决于每个题目允许使用的思考 Token 数量。 请注意,即使我们允许 Claude 使用全部的思考预算,它通常会提前停止。 图中包含了用于总结最终答案的 Token 采样数据。

我们的研究人员也在尝试使用_并行_测试时计算来提高模型的性能。 他们通过采样多个独立的思考过程,并在事先不知道正确答案的情况下选择最佳结果。 一种方法是使用多数或共识投票;即选择出现次数最多的答案作为“最佳”答案。 另一种方法是使用另一个大语言模型(例如 Claude 的第二个副本),要求它检查自己的工作,或者使用学习到的评分函数来选择它认为最好的答案。 类似这样的策略(以及类似的工作)已在几个 其他 AI 模型的评估结果中有所报道。

我们通过在 GPQA 评估 上使用并行测试时计算扩展,取得了显著的改进。GPQA 评估是一个常用的、具有挑战性的生物、化学和物理问题集。在使用相当于 256 个独立样本的计算量、一个学习到的评分模型以及最多 64k Token 的思考预算后,Claude 3.7 Sonnet 在 GPQA 评估中取得了 84.8% 的分数(包括 96.5% 的物理子分数),并且受益于超越多数投票限制的持续扩展。我们在下面报告了评分模型方法和多数投票方法的结果。Image 4

使用并行测试时计算扩展来提高 Claude 3.7 Sonnet 在 GPQA 评估中的性能的实验结果。不同的线代表不同的性能评分方法。“Majority @ N”:从同一提示词的模型生成多个输出,并将多数投票作为最终答案;“scoring model”:一个单独的模型,用于评估被评估模型的性能;“pass @ N”:如果给定数量的尝试中任何一次成功,则模型“通过”测试。像这样的方法使我们能够提高 Claude 答案的质量,通常无需等待它完成思考。Claude 可以同时进行多个不同的扩展思考过程,使其能够考虑更多解决问题的方法,并最终更频繁地得到正确答案。并行测试时计算扩展在我们新部署的模型中不可用,但我们正在继续研究这些未来的方法。

Claude 3.7 Sonnet 的安全机制

AI 安全等级。Anthropic 的负责任的扩展政策承诺,除非我们已实施适当的安全和保障措施,否则我们不会训练或部署模型。我们的 Frontier Red Team 和 Alignment Stress Testing 团队对 Claude 3.7 Sonnet 进行了广泛的测试,以确定它是否需要与我们之前的模型(称为 AI 安全等级 (ASL) 2 标准)相同级别的部署和安全保障,或者采取更强的措施。我们对 Claude 3.7 Sonnet 的全面评估证实,我们当前的 ASL-2 安全标准仍然适用。与此同时,该模型在所有领域都表现出更高的复杂性和增强的能力。在检查与生产化学、生物、放射和核 (CBRN) 武器相关的任务的对照研究中,我们观察到,与未接受模型辅助的参与者相比,接受模型辅助的参与者在性能上有所“提升”。也就是说,参与者能够比仅使用在线可用信息取得更大的进展。但是,所有执行这些任务的尝试都包含关键性失败,完全阻碍了成功。

对模型进行的专家红队测试产生了褒贬不一的反馈。尽管一些专家注意到该模型在某些 CBRN(化学、生物、放射性、核)过程领域的知识有所提高,但他们也发现,对于成功完成端到端任务而言,关键故障的频率仍然过高。我们正在积极加强我们的 ASL-2(人工智能安全等级-2)措施,具体措施包括加速开发和部署有针对性的分类器和监控系统。此外,我们未来模型的能力可能需要我们进入下一阶段:ASL-3(人工智能安全等级-3)保障。我们最近在宪法分类器方面所做的工作,旨在防止越狱攻击,以及其他相关努力,使我们有能力在不久的将来实施 ASL-3 标准的要求。

可见的思考过程。 即使在 ASL-2 级别,Claude 3.7 Sonnet 的可见扩展思考功能也是一项新功能,因此需要新的和适当的安全措施。在极少数情况下,Claude 的思考过程可能包含潜在有害的内容(主题包括儿童安全、网络攻击和危险武器)。在这种情况下,我们将对思考过程进行加密:这不会阻止 Claude 将内容包含在其思考过程中(这对于最终产生完全无害的响应可能仍然很重要),但思考过程的相关部分将对用户不可见。相反,用户将看到消息“此响应的其余思考过程不可用”。我们的目标是尽量减少这种加密的发生,并且仅在潜在危害较高的情况下才进行加密。

计算机使用。 最后,我们加强了 Claude 计算机使用能力的安全性措施(我们上面讨论过:它允许 Claude 查看用户的计算机屏幕并代表他们采取行动)。我们在防御“提示词注入”攻击方面取得了实质性进展。在这种攻击中,恶意第三方会将秘密消息隐藏在 Claude 使用计算机时可能看到的地方,从而可能诱骗它采取用户不希望采取的行动。通过新的训练来抵抗提示词注入,一个新的系统提示词,其中包含忽略这些攻击的指令,以及一个在模型遇到潜在的提示词注入时触发的分类器,我们现在可以防止 88% 的此类攻击4,相比之下,在没有缓解措施的情况下,这一比例为 74%。

以上只是我们对 Claude 3.7 Sonnet 所做的大量安全工作的一些简要总结。如需了解更多信息、分析结果以及安全措施的实际应用示例,请参阅我们的完整系统卡