Claude 关于thinking 模式的思考
有些事情我们几乎可以立即想到,例如“今天星期几?”。而另一些事情则需要耗费更多的脑力,比如解决一个隐晦的填字游戏或调试一段复杂的代码。我们可以根据手头的任务,选择投入或多或少的认知努力。 现在,Claude 也具备了同样的灵活性。借助全新的 Claude 3.7 Sonnet,用户可以开启或关闭“扩展思考模式”,从而指示模型更深入地思考那些更为棘手的问题。开发人员甚至可以设置“思考预算”,以便精确控制 Claude 在解决特定问题上所花费的时间。“扩展思考模式”并非切换至采用不同策略的独立模型,而是允许同一模型投入更多时间与精力,以得出最终答案。 Claude 全新的扩展思考能力显著提升了其智能水平。与此同时,这也为那些对 AI 模型的工作原理、评估方法以及安全提升策略感兴趣的人士提出了诸多重要问题。在本文中,我们将分享我们所获得的一些见解。 可见的思考过程 除了赋予 Claude 更长的思考时间,进而使其能够解答更具挑战性的问题之外,我们还决定以原始形式呈现其思考过程。这具有以下几点益处: 信任。 能够观察 Claude 的思考方式,可以更容易理解和检查它的答案——并且可能帮助用户获得更优质的输出结果。 对齐。 在我们之前的一些对齐科学研究中,我们曾利用模型内心真实想法与其表面表达之间的矛盾,来识别它是否可能出现诸如欺骗等不良行为。 兴趣。 观看 Claude 思考的过程往往引人入胜。我们一些具有数学和物理背景的研究人员注意到,Claude 的思考过程与他们自己解决难题的方式极其相似:探索多种不同的角度和推理路径,并反复验证答案。 ==然而,这种可见的思考过程也存在一些不足==。首先,用户可能会发现,这种公开的思考过程相比 Claude 默认的输出,显得更加客观,缺乏个性化。这是因为我们没有对模型的思考过程进行标准的角色训练。我们希望给予 Claude 最大的自由度,允许它思考任何必要的想法以得出答案——正如人类的思考一样,Claude 有时也会产生一些不准确、具有误导性或不够成熟的想法。许多用户会认为这很有帮助;但也有一些用户可能会对此感到困扰(包括思考过程中缺乏个性的内容)。 另一个问题是所谓的“忠实性”——我们无法确定模型在思考过程中所呈现的内容是否真正反映了其内部的运作机制(例如,思考过程中显示的英语词汇可能无法完全解释模型为何会展现出某种特定行为)。 确保“忠实性”的问题是我们目前积极研究的领域之一。 目前的研究结果表明,模型在做出决策时,往往会基于它们在思考过程中_没有_明确提及的因素。 这意味着我们不能仅仅依靠监控当前模型的思考过程,就对其安全性做出有力的判断。 此外,这还带来了一些安全隐患。 恶意行为者可能会利用这种可见的思考过程,来制定更有效的策略,从而绕过 Claude 的安全机制。 更进一步地推测,如果模型在训练过程中得知其内部思考过程会被公开展示,它们可能会被激励去采用不同的、更难以预测的思考方式,甚至有可能会故意隐藏某些想法。 对于未来更强大、能力更强的 Claude 版本而言,这些潜在的安全问题将尤为突出——因为一旦这些版本出现偏差,将会带来更大的风险。 我们将会仔细权衡在未来版本中公开思考过程的利弊。 目前,Claude 3.7 Sonnet 中所展示的思考过程应被视为一项研究预览。 Claude 思考的新测试 Claude 作为 AI 智能体 Claude 3.7 Sonnet 受益于我们称之为“行动扩展”的能力——一种改进的能力,允许它迭代地调用函数,响应环境变化,并持续完成开放式任务。 这种任务的一个例子是使用计算机:Claude 可以发出虚拟鼠标点击和键盘按键,代表用户解决任务。 与其前身相比,Claude 3.7 Sonnet 可以为计算机使用任务分配更多的轮次——以及更多的时间和计算能力——并且通常能获得更好的结果。 我们可以看到 Claude 3.7 Sonnet 在 OSWorld 上的进步,OSWorld 是一项评估多模态 AI 智能体能力的评估。 Claude 3.7 Sonnet 的起点略好一些,但随着模型不断与虚拟计算机交互,性能差异会随着时间的推移而扩大。 ...