下半场

摘要: 我们正处于 AI 的中场休息时间。

几十年来，人工智能（AI）在很大程度上是关于开发新的训练方法和模型。这确实奏效了：从在国际象棋和围棋比赛中击败世界冠军，到在 SAT 和律师资格考试中超越大多数人类，再到获得 IMO 和 IOI 金牌。在这些载入史册的里程碑背后——深蓝（DeepBlue）、AlphaGo、GPT-4 以及 o 系列——是 AI 方法的根本性创新：搜索、深度强化学习（deep RL）、规模化（scaling）和推理（reasoning）。随着时间的推移，一切都在变得更好。

那么，现在突然有什么不同了呢？

用三个词来说：RL 终于奏效了。更准确地说：RL 终于具备泛化能力了。在经历了几个重大的弯路和一系列里程碑的积累之后，我们终于找到了一个行之有效的秘诀，可以使用语言和推理来解决广泛的 RL 任务。即使在一年前，如果你告诉大多数 AI 研究人员，单一的秘诀就能处理软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们会嘲笑你的“幻觉”。这些任务中的每一项都极其困难，许多研究人员花费整个博士生涯专注于其中的一个狭窄领域。

然而，它确实发生了。

那么接下来会发生什么？ AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代，评估变得比训练更重要。我们不再仅仅问：“我们能训练一个模型来解决 X 问题吗？”，而是问：“我们应该训练 AI 做什么，以及我们如何衡量真正的进展？” 要在这个下半场茁壮成长，我们需要及时转变思维模式和技能组合，也许更接近产品经理所具备的那些。

上半场

要理解上半场，看看它的赢家。你认为迄今为止最具影响力的 AI 论文是哪些？

我试了斯坦福 224N 课程里的测验，答案并不令人意外：Transformer、AlexNet、GPT-3 等。这些论文有什么共同点？它们提出了一些根本性的突破来训练更好的模型。而且，它们通过在某些基准测试上展示出一些（显著的）改进而成功发表了论文。

不过，这里有一个潜在的共性：这些“赢家”都是训练方法或模型，而不是基准测试或任务。即使是公认最具影响力的基准测试 ImageNet，其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如，Transformer 的主要基准测试是 WMT’14，其研讨会报告约有 1300 次引用，而 Transformer 的引用次数超过 16 万次。

这说明了上半场的游戏规则：专注于构建新的模型和方法，评估和基准测试是次要的（尽管对于让论文体系运作起来是必要的）。

为什么？一个重要原因是，在 AI 的上半场，方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络（AlexNet）或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下，为 AI 定义任务通常感觉更直接：我们只是将人类已经在做的任务（如翻译、图像识别或国际象棋）转化为基准测试。这不需要太多的洞察力，甚至不需要太多的工程。

方法也往往比单个任务更通用、适用范围更广，这使得它们尤为宝贵。例如，Transformer 架构最终推动了计算机视觉（CV）、自然语言处理（NLP）、强化学习（RL）以及许多其他领域的进步——远远超出了它首次证明自己的单一数据集（WMT’14 翻译）。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展（hillclimb），因此其影响往往超越单个任务。

这个游戏规则已经运行了几十年，激发了改变世界的想法和突破，这些都体现在各个领域不断提高的基准测试性能上。为什么这个游戏规则会改变呢？因为这些想法和突破的积累，在创造一个解决任务的有效秘诀方面，产生了质的飞跃。

秘诀

这个秘诀是什么？它的成分，毫不奇怪，包括大规模语言预训练、规模（数据和计算方面）以及推理和行动（reasoning and acting）的理念。这些听起来可能像是你在旧金山每天都能听到的流行词，但为什么称它们为秘诀呢？

我们可以通过强化学习（RL）的视角来理解这一点，RL 通常被认为是 AI 的“终局之战”——毕竟，RL 在理论上保证能赢得游戏，而且从经验上看，很难想象任何超人系统（例如 AlphaGo）没有 RL 的参与。

在 RL 中，有三个关键组成部分：算法、环境和先验知识（priors）。很长一段时间里，RL 研究人员主要关注算法（例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……）——即AI 智能体学习方式的智力核心——而将环境和先验知识视为固定的或最简化的。例如，Sutton 和 Barto 的经典教科书全是关于算法的，几乎没有涉及环境或先验知识。

然而，在深度 RL 时代，环境在经验上变得非常重要：一个算法的性能通常高度依赖于其开发和测试的环境。如果你忽略了环境，你可能会构建出一个只在玩具环境中表现出色的“最优”算法。那么，为什么我们不先弄清楚我们真正想要解决的环境，然后再找到最适合它的算法呢？

这正是 OpenAI 最初的计划。它构建了 gym，一个用于各种游戏的标准 RL 环境，然后是 World of Bits 和 Universe 项目，试图将互联网或计算机变成一个游戏。一个好计划，不是吗？一旦我们将所有数字世界都变成一个环境，用智能 RL 算法解决它，我们就拥有了数字通用人工智能（AGI）。

一个好计划，但并非完全奏效。OpenAI 在这条路上取得了巨大进展，使用 RL 解决了 Dota、机器手等问题。但它从未接近解决计算机使用或网页导航问题，而且在一个领域有效的 AI 智能体无法迁移到另一个领域。缺少了某些东西。

直到 GPT-2 或 GPT-3 之后，才发现缺失的部分是先验知识（priors）。你需要强大的语言预训练，将通用的常识和语言知识提炼到模型中，然后可以通过微调（fine-tuning）使其成为网络（WebGPT）或聊天（ChatGPT）AI 智能体（并改变世界）。事实证明，RL 最重要的部分甚至可能不是 RL 算法或环境，而是先验知识，而这些先验知识可以通过与 RL 完全无关的方式获得。

语言预训练为聊天创造了良好的先验知识，但对于控制计算机或玩视频游戏效果却不尽相同。为什么？这些领域与互联网文本的分布相去甚远，在这些领域简单地进行监督微调（SFT） / RL 的泛化能力很差。我在 2019 年就注意到了这个问题，当时 GPT-2 刚问世，我在其基础上进行 SFT / RL 来解决基于文本的游戏——CALM 是世界上第一个基于预训练语言模型构建的AI 智能体。但它需要数百万次的 RL 步骤才能在一个游戏中取得进展（hillclimb），并且无法迁移到新游戏中。尽管这正是 RL 的特点，对 RL 研究人员来说并不奇怪，但我发现这很奇怪，因为我们人类可以轻松地玩一个新游戏，并且在零样本学习（zero-shot）的情况下表现得明显更好。然后我迎来了人生中第一个“尤里卡时刻”——我们之所以能够泛化，是因为我们可以选择做更多的事情，不仅仅是“去 2 号柜子”或“用 1 号钥匙打开 3 号箱子”或“用剑杀死地牢怪物”，我们还可以选择思考诸如“地牢很危险，我需要一把武器来战斗。没有可见的武器，也许我需要在锁着的盒子或箱子里找一个。3 号箱子在 2 号柜子里，让我先去那里解锁它”之类的事情。

思考，或推理，是一种奇怪的行动——它不直接影响外部世界，然而推理的空间是开放式的、组合无限的——你可以思考一个词、一个句子、一整段话，或者 10000 个随机的英文单词，但你周围的世界并不会立即改变。在经典的 RL 理论中，这是一笔糟糕的交易，使得决策变得不可能。想象一下，你需要从两个盒子中选择一个，只有一个盒子里有 100 万美元，另一个是空的。你的预期收益是 50 万美元。现在想象我增加了无限个空盒子。你的预期收益将变为零。但是通过将推理添加到任何 RL 环境的行动空间中，我们利用语言预训练的先验知识进行泛化，并且我们能够为不同的决策提供灵活的测试时计算能力。这真的是一件很神奇的事情，我很抱歉在这里没有完全解释清楚，我可能需要再写一篇博客文章来专门讨论它。欢迎阅读 ReAct 来了解关于AI 智能体推理的原始故事，并感受我当时的思考。目前，我的直观解释是：即使你增加了无限个空盒子，你在各种游戏中一生都在看到它们，选择这些盒子能让你准备得更好，从而在任何给定的游戏中选择那个有钱的盒子。我的抽象解释是：语言通过 AI 智能体中的推理实现泛化。

一旦我们有了正确的 RL 先验知识（语言预训练）和 RL 环境（将语言推理添加为行动），结果发现 RL 算法可能是最微不足道的部分。因此我们有了 o 系列、R1、深度研究、计算机使用AI 智能体，以及更多即将到来的成果。这是多么具有讽刺意味的转折！长期以来，RL 研究人员关心算法远胜于环境，没有人关注先验知识——所有的 RL 实验基本上都是从零开始。但我们花了数十年的弯路才意识到，也许我们的优先级应该完全颠倒过来。

但正如史蒂夫·乔布斯所说：你无法预见未来，只能回顾过去，将点点滴滴联系起来。

下半场

这个秘诀正在彻底改变游戏规则。回顾一下上半场的游戏规则：

我们开发新颖的训练方法或模型，以在基准测试上取得进展（hillclimb）。
我们创建更难的基准测试，并继续这个循环。

这个游戏规则正在被打破，因为：

这个秘诀基本上已经将基准测试的提升（benchmark hillclimbing）标准化和工业化了，不再需要更多的新思想。随着秘诀的规模化和泛化能力的提高，你为特定任务设计的新颖方法可能只能带来 5% 的改进，而下一个 o 系列模型可能会在没有明确针对该任务的情况下带来 30% 的改进。
即使我们创建更难的基准测试，它们很快（而且越来越快地）会被这个秘诀解决。我的同事 Jason Wei 制作了一张漂亮的图表来很好地展示了这一趋势：

那么，下半场还剩下什么可玩的呢？如果不再需要新颖的方法，而更难的基准测试只会越来越快地被解决，我们应该做什么？

我认为我们应该从根本上重新思考评估。这不仅仅意味着创建新的、更难的基准测试，而是要从根本上质疑现有的评估设置并创建新的评估设置，这样我们才能被迫发明超越现有有效秘诀的新方法。这很困难，因为人类有惰性，很少质疑基本假设——你只是想当然地接受它们，而没有意识到它们是假设，而不是定律。

为了解释惰性，假设你发明了历史上最成功的评估方法之一，该方法基于人类考试。这在 2021 年是一个极其大胆的想法，但 3 年后它已经饱和了。你会怎么做？很可能会创建一个难度大得多的考试。或者假设你解决了简单的编码任务。你会怎么做？很可能会找到更难的编码任务来解决，直到达到 IOI 金牌水平。

惰性是自然的，但问题在于：AI 已经在国际象棋和围棋比赛中击败了世界冠军，在 SAT 和律师资格考试中超越了大多数人类，并在 IOI 和 IMO 中达到了金牌水平。但世界并没有因此发生太大变化，至少从经济和 GDP 来看是这样。

我称之为效用问题（utility problem），并认为这是 AI 最重要的问题。

也许我们很快就能解决效用问题，也许不能。无论哪种方式，这个问题的根本原因可能简单得具有欺骗性：我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子：

评估“应该”自动运行，所以通常一个AI 智能体接收任务输入，自主完成任务，然后收到任务奖励。但实际上，一个AI 智能体在整个任务过程中必须与人互动——你不会只给客服发一条超长信息，等 10 分钟，然后期望得到一个详细的回复来解决所有问题。通过质疑这种设置，新的基准测试被发明出来，要么让真人参与其中（例如 Chatbot Arena），要么使用用户模拟（例如 tau-bench）。
评估“应该”以独立同分布（i.i.d.）的方式运行。如果你有一个包含 500 个任务的测试集，你会独立运行每个任务，对任务指标取平均值，得到一个总体指标。但实际上，你是按顺序解决任务，而不是并行解决。一个谷歌的软件工程师（SWE）随着对代码库越来越熟悉，解决 google3 问题的能力会越来越强，但一个 SWE AI 智能体在同一个代码库中解决许多问题却无法获得这种熟悉度。我们显然需要长期记忆方法（而且确实有），但学术界没有合适的基准来证明这种需求，甚至没有足够的勇气去质疑作为机器学习基础的 i.i.d. 假设。

这些假设“一直”都是这样的，在 AI 的上半场，在这些假设下开发基准测试是没问题的，因为当智能水平较低时，提高智能通常会提高效用。但是现在，通用的秘诀保证在这些假设下是有效的。所以，玩转下半场新游戏的方式是：

我们为现实世界的效用开发新颖的评估设置或任务。
我们用现有秘诀解决它们，或者用新颖的组件增强秘诀。继续这个循环。

这个游戏很难，因为它不熟悉。但它令人兴奋。上半场的玩家解决视频游戏和考试问题，而下半场的玩家则通过将智能转化为有用的产品来创建价值数十亿甚至数万亿美元的公司。上半场充满了渐进式的方法和模型，而下半场在某种程度上过滤了它们。通用的秘诀会碾压你的渐进式方法，除非你创建打破该秘诀的新假设。然后你才能进行真正改变游戏规则的研究。

欢迎来到下半场！

下半场#

上半场#

下半场#

下半场

上半场

下半场