OpenAI研究员姚顺雨:欢迎来到AI的下半场

下半场 摘要: 我们正处于 AI 的中场休息时间。 几十年来,人工智能(AI)在很大程度上是关于开发新的训练方法和模型。这确实奏效了:从在国际象棋和围棋比赛中击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得 IMO 和 IOI 金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、AlphaGo、GPT-4 以及 o 系列——是 AI 方法的根本性创新:搜索、深度强化学习(deep RL)、规模化(scaling)和推理(reasoning)。随着时间的推移,一切都在变得更好。 那么,现在突然有什么不同了呢? 用三个词来说:RL 终于奏效了。更准确地说:RL 终于具备泛化能力了。在经历了几个重大的弯路和一系列里程碑的积累之后,我们终于找到了一个行之有效的秘诀,可以使用语言和推理来解决广泛的 RL 任务。即使在一年前,如果你告诉大多数 AI 研究人员,单一的秘诀就能处理软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们会嘲笑你的“幻觉”。这些任务中的每一项都极其困难,许多研究人员花费整个博士生涯专注于其中的一个狭窄领域。 然而,它确实发生了。 那么接下来会发生什么? AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练 AI 做什么,以及我们如何衡量真正的进展?” 要在这个下半场茁壮成长,我们需要及时转变思维模式和技能组合,也许更接近产品经理所具备的那些。 上半场 要理解上半场,看看它的赢家。你认为迄今为止最具影响力的 AI 论文是哪些? 我试了斯坦福 224N 课程里的测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们提出了一些根本性的突破来训练更好的模型。而且,它们通过在某些基准测试上展示出一些(显著的)改进而成功发表了论文。 不过,这里有一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是公认最具影响力的基准测试 ImageNet,其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告约有 1300 次引用,而 Transformer 的引用次数超过 16 万次。 这说明了上半场的游戏规则:专注于构建新的模型和方法,评估和基准测试是次要的(尽管对于让论文体系运作起来是必要的)。 为什么?一个重要原因是,在 AI 的上半场,方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下,为 AI 定义任务通常感觉更直接:我们只是将人类已经在做的任务(如翻译、图像识别或国际象棋)转化为基准测试。这不需要太多的洞察力,甚至不需要太多的工程。 方法也往往比单个任务更通用、适用范围更广,这使得它们尤为宝贵。例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步——远远超出了它首次证明自己的单一数据集(WMT’14 翻译)。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展(hillclimb),因此其影响往往超越单个任务。 这个游戏规则已经运行了几十年,激发了改变世界的想法和突破,这些都体现在各个领域不断提高的基准测试性能上。为什么这个游戏规则会改变呢?因为这些想法和突破的积累,在创造一个解决任务的有效秘诀方面,产生了质的飞跃。 ...

April 18, 2025 · 小茄墩