欢迎进入经验时代
David Silver, Richard S. Sutton
摘要
我们正处于人工智能新时代的临界点,其发展有望达到 前所未有的高度。新一代的智能体 将主要 依靠经验学习,从而获得 超越人类的能力。本文旨在探讨界定这一 新时代的关键特征。
人类数据时代
近年来,人工智能( AI )取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练,再结合人类专家的实例与偏好加以微调。以大语言模型( LLMs )为代表的 AI 系统,已经展现出惊人的通用能力:从写诗、解物理题,到医疗诊断、解读法律文件,单一模型几乎无所不能。
然而,仅仅模仿人类,虽然足以让机器在许多方面达到与人类相当的能力水平,但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域,从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据,即使尚未耗尽,也即将枯竭。单纯依赖监督学习和人类数据的进步速度,放缓趋势已十分明显,预示着我们亟需探索新的路径。更重要的是,诸如新定理、新技术或重大科学发现等真正有价值的突破性见解,往往超出了现有的人类认知边界,自然也无法从已知的人类数据中获得。
经验时代
要取得显著的进一步进展,需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成;任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现,即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点,在这个时期,经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌。
这种转变可能已经开始,即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明,AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性,从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功;例如,DeepSeek的最新工作"强调了强化学习的力量和美丽:我们不是明确地教导模型如何解决问题,而是简单地提供正确的激励,它自主地发展出先进的问题解决策略。"[10]
我们的论点是,一旦经验学习的全部潜力被利用,将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习,还将在几个方面突破以人类为中心的人工智能系统的局限性:
- 智能体将生活在经验流中,而不是短暂的互动片段中。
- 它们的行动和观察将深深植根于环境中,而不仅仅通过人类对话进行互动。
- 它们的奖励将植根于环境体验中,而不是来自人类的预先判断。
- 它们将计划和/或推理经验,而不仅仅是用人类术语进行推理。
我们相信,今天的技术,配合适当选择的算法,已经提供了足够强大的基础来实现这些突破。此外,人工智能社区对这一议程的追求将刺激这些方向的新创新,使人工智能迅速发展为真正超越人类的智能体。
流
一个基于经验的智能体可以在一生中持续学习。在人类数据时代,基于语言的人工智能主要关注短互动情节:例如,用户提出问题,智能体(可能经过几个思考步骤或工具使用行动后)做出响应。通常,很少或没有信息从一个情节传递到下一个情节,阻碍了随着时间推移的适应能力。此外,智能体仅针对当前情节内的结果,比如直接回答用户的问题。相比之下,人类(和其他动物)存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递,他们的行为从过去的经验中适应以自我纠正和改进。此外,目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如,人类可能选择行动以实现长期目标,如改善健康、学习语言或实现科学突破。
强大的智能体应该有自己的经验流,像人类一样,在长时间尺度上发展。这将允许智能体采取行动实现未来目标,并随时间不断适应新的行为模式。例如,一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化建议、鼓励,并根据长期趋势和用户的特定健康目标调整其指导。同样,一个个性化教育智能体可以跟踪用户在学习新语言方面的进步,识别知识差距,适应其学习风格,并在几个月甚至几年内调整其教学方法。此外,一个科学智能体可以追求雄心勃勃的目标,如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预措施。
在每种情况下,智能体采取一系列步骤,以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益,甚至在短期内可能是不利的,但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比,后者对请求提供即时回应,无法测量或优化其行为对环境的未来影响。
行动与观察
在经验时代,AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本,并从用户那里接收文本输入。这与自然智能有着显著不同,在自然智能中,动物通过运动控制和感官与环境互动。虽然动物,特别是人类,会与其他动物交流,但这种交流是通过与其他感觉运动控制相同的接口进行的,而非通过某种特殊渠道。
长期以来,研究者已经认识到大语言模型也可以在数字世界中执行操作,例如通过调用API(参见例如[43])。最初,这些能力主要来自人类使用工具的示例,而非智能体自身的经验。然而,编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上,即AI 智能体实际运行代码并观察结果。最近,一波新型原型智能体已经开始以更加通用的方式与计算机交互,即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式,向更加自主的交互模式转变,使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界,适应变化的环境,并发现人类可能永远不会想到的策略。
这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式,如用户界面,自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动,执行代码并调用API,使其能够自主行动以实现目标。在经验时代,AI 智能体还将通过数字界面与现实世界互动。例如,一个科学智能体可以监控环境传感器,远程操作望远镜,或控制实验室中的机器人手臂,自主进行实验。
奖励
什么情况下具有体验能力的智能体可以从外部事件和信号中学习,而不仅仅是人类偏好?以人为中心的大语言模型通常基于人类预判来优化奖励:专家观察智能体的行动并决定它是否是良好行动,或在多种选择中挑选最佳的智能体行动。例如,专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的,而非通过测量这些行动对环境的实际影响,这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限:智能体无法发现被人类评估者低估的更好策略。
为了发现远超现有人类知识的新想法,必须使用基于现实的奖励:源自环境本身的信号。例如,健康助手可以将用户的健康目标转化为基于多种信号组合的奖励,如他们的静息心率、睡眠时长和活动水平,而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样,以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励,而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合,如抗拉强度或杨氏模量。
基于现实的奖励可能来自作为智能体环境一部分的人类。例如,人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平,从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果,最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。
如果不是来自人类数据,奖励从何而来?一旦智能体通过丰富的行动和观察空间(见上文)与世界连接,将不缺乏提供奖励基础的实际信号。事实上,世界充满了各种量化指标,如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外,还有无数额外的信号来自特定事件的发生,或从原始观察和行动序列中派生的特征。
原则上,可以创建各种不同的智能体,每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为,即使是单一的这种奖励信号,如果能够高效优化,也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。
然而,追求单一奖励信号表面上似乎不符合通用人工智能的要求,后者需要能够可靠地引导向用户期望的任意行为。那么,自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立?我们认为不一定如此,以下我们将勾勒一种可能满足这些需求的方法;当然,其他方法也可能存在。
这个想法是以用户引导的方式,基于现实信号灵活地调整奖励。例如,奖励函数可以由神经网络定义,该网络将智能体与用户和环境的交互作为输入,并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如,用户可能指定一个广泛的目标,如"提高我的健康水平",而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标,奖励函数可以返回用户的西班牙语考试成绩。
此外,用户可以在学习过程中提供反馈,例如他们的满意度,这可用于微调奖励函数。随后,奖励函数可以随着时间调整,以改进其选择或组合信号的方式,并识别和纠正任何不一致。这也可以理解为双层优化过程,将用户反馈作为顶层目标进行优化,并在低层优化来自环境的基于现实的信号。通过这种方式,少量的人类数据可能促进大量的自主学习。
规划与推理
经验时代会改变AI 智能体规划和推理的方式吗?近期,利用能够推理或通过语言"思考"的大语言模型取得了显著进展,这些模型在输出回应前会遵循思维链(chain of thought)[16]。从概念上讲,大语言模型可以作为通用计算机 [30]:它们可以将 token 附加到自己的上下文中,使其能够在输出最终结果前执行任意算法。
在人类数据时代,这些推理方法被明确设计用来模仿人类思维过程。例如,大语言模型被引导生成类人思维链 [16],模仿人类思考的轨迹 [42],或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调,以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。
然而,人类语言很可能不是通用计算机的最佳实现方式。肯定存在更高效的思维机制,这些机制使用非人类语言,例如可能利用符号化、分布式、连续或可微分的计算。自学习系统原则上可以通过从经验中学习如何思考来发现或改进此类方法。例如,AlphaProof学会了以与人类数学家完全不同的方式形式化证明复杂定理 [20]。
此外,通用计算机的原理只涉及智能体的内部计算;它并未将智能体与外部世界的现实联系起来。训练来模仿人类思想或匹配人类专家答案的智能体可能会继承深植于数据中的谬误思维方法,如错误假设或内在偏见。例如,如果一个智能体被训练使用5000年前的人类思想和专家答案进行推理,它可能会用万物有灵论来解释物理问题;1000年前可能会使用神学术语;300年前可能会使用牛顿力学术语;50年前则可能使用量子力学术语。超越每种思维方法都需要与现实世界互动:提出假设,进行实验,观察结果,并相应地更新原则。同样,智能体必须扎根于现实世界数据才能推翻谬误的思维方法。这种扎根提供了一个反馈机制,使智能体能够用现实检验其继承的假设,并发现不受当前主流人类思维模式限制的新原则。没有这种扎根,无论多么复杂的智能体都将成为现有人类知识的回音室。要超越这一点,智能体必须积极参与世界,收集观察数据,并使用这些数据迭代完善其理解,这在很多方面映射了推动人类科学进步的过程。
将思维直接扎根于外部世界的一种可能方式是构建世界模型 [37],该模型可预测智能体行动对世界的后果,包括预测奖励。例如,健康助手可能考虑推荐当地健身房或健康播客。智能体的世界模型可能会预测用户的心率或睡眠模式在此行动后如何变化,以及预测与用户的未来对话。这使智能体能够直接根据自身行动及其对世界的因果效应进行规划 [36, 29]。随着智能体在其体验流中持续与世界互动,其动态模型不断更新以纠正预测中的任何错误。有了世界模型,智能体可以应用可扩展的规划方法来提高其预测性能。
规划和推理方法并非相互排斥:智能体可以在规划过程中应用内部大语言模型计算来选择每个行动,或者模拟和评估这些行动的后果。
为什么是现在?
从经验中学习并不是什么新鲜事。强化学习系统此前已经掌握了大量在模拟器中具有明确奖励信号的复杂任务(例如,大致对应图1中的"模拟时代")。例如,强化学习方法通过自我对弈在各种棋盘游戏中达到或超越了人类水平。
这些游戏包括双陆棋[39]、围棋[31]、国际象棋[32]、扑克[22, 6]和Strategy游戏[26];视频游戏如Atari游戏[21]、星际争霸II[40]、刀塔2[4]和Gran Turismo[41];灵巧操作任务如魔方[1];以及资源管理任务如数据中心冷却[13]。此外,像AlphaZero[33]这样强大的强化学习智能体展示了令人印象深刻且潜在无限的可扩展性——无论是在神经网络规模、交互式经验数量,还是思考时间的延长方面。然而,基于这种范式的智能体并未能跨越从模拟环境(具有单一、精确定义奖励的封闭问题)到现实世界(具有多种看似模糊定义的奖励的开放性问题)的鸿沟。
人类数据时代提供了一个吸引人的解决方案。海量的人类数据语料库包含了适用于极其多样化任务的自然语言示例。在这些数据上训练的智能体获得了广泛的能力,相比模拟时代更为狭窄的成功范围有了显著拓展。因此,基于经验的强化学习方法论在很大程度上被放弃,转而支持更通用的智能体,这导致了向以人为中心的AI的广泛转变。
然而,在这一转变中我们失去了某些东西:智能体自我发现知识的能力。例如,AlphaZero发现了国际象棋和围棋的全新策略,改变了人类玩这些游戏的方式[28, 45]。经验时代将调和这种能力与人类数据时代所达到的任务通用性水平。如上所述,当智能体能够在真实世界经验流中自主行动和观察[11],并且奖励可以灵活地连接到丰富的、基于真实世界的各种信号时,这将成为可能。能够与复杂、真实世界行动空间交互的自主智能体[3, 15, 24]的出现,以及能够在丰富推理空间中解决开放性问题的强大强化学习方法[20, 10],都表明经验时代即将到来。
强化学习方法
强化学习(RL)拥有丰富的历史,深深扎根于自主学习,即智能体通过与环境的直接交互进行自我学习。早期的RL研究产生了一系列强大的概念和算法。例如,时序差分学习[35]使智能体能够估计未来奖励,从而带来了诸如在西洋双陆棋中实现超人类水平表现的突破[39]。由乐观或好奇心驱动的探索技术被开发出来,帮助智能体发现创新的新行为,避免陷入次优路径[2]。像Dyna算法这样的方法使智能体能够构建并从其世界模型中学习,让它们能够规划并推理未来的行动[36, 29]。选项(options)概念和选项间/选项内学习等方法促进了时间抽象,使智能体能够在更长的时间尺度上进行推理,并将复杂任务分解为可管理的子目标[38]。
然而,以人为中心的大语言模型的兴起,将焦点从自主学习转移到了利用人类知识上。像基于人类反馈的强化学习(RLHF)[9, 25]这样的技术以及用于将语言模型与人类推理对齐的方法[44]被证明非常有效,推动了AI能力的快速进步。这些方法虽然强大,但往往绕过了核心的RL概念:RLHF通过引入人类专家替代机器估计的价值,避开了对价值函数的需求;来自人类数据的强先验减少了对探索的依赖;以人为中心的术语进行推理减轻了对世界模型和时间抽象的需要。
然而,可以说这种范式的转变有点"舍本逐末"(把婴儿和洗澡水一起倒掉)。虽然以人为中心的RL使前所未有广泛的行为成为可能,但它也为智能体的表现设定了新的上限:智能体无法超越现有的人类知识。此外,人类数据时代主要关注于为短暂的、缺乏现实基础的人类交互设计的RL方法,这些方法不适用于长时间的、具有现实基础的自主交互。
经验时代为重新审视和改进经典RL概念提供了机会。这个时代将带来新的思考奖励函数的方式,这些函数可以灵活地建立在观察数据的基础上。它将重新审视价值函数以及从尚未完成序列的长数据流中估计它们的方法。它将带来有原则但又实用的真实世界探索方法,发现与人类先验截然不同的新行为。将开发出捕捉具有现实基础的交互复杂性的新型世界模型。新的时间抽象方法将允许智能体在越来越长的时间视野内,根据经验进行推理。通过建立在RL基础之上并使其核心原则适应这个新时代的挑战,我们可以释放自主学习的全部潜力,为真正超人类水平的智能铺平道路。
后果
体验时代的到来,即 AI 智能体从与世界的互动中学习的时代,预示着一个与我们以往所见截然不同的未来。这一新范式虽然提供了巨大的潜力,但也带来了需要仔细考虑的重要风险和挑战,包括但不限于以下几点。
从积极的方面来看,体验式学习将开启前所未有的能力。在日常生活中,个性化助手将利用持续的体验流来适应个人在数月或数年内朝着长期目标发展的健康、教育或专业需求。也许最具变革性的将是科学发现的加速。AI 智能体将自主设计和进行实验,涉及材料科学、医学或硬件设计等领域。通过不断从自己的实验结果中学习,这些智能体可以快速探索知识的新前沿,以前所未有的速度引导开发新材料、药物和技术。
然而,这个新时代也带来了重大且新颖的挑战。虽然人类能力的自动化有望提升生产力,但这些改进也可能导致就业岗位流失。智能体甚至可能展示出以前被认为是人类专有领域的能力,例如长期问题解决、创新和对现实世界后果的深刻理解。
此外,虽然对任何 AI 的潜在滥用存在普遍担忧,但来自能够长期自主与世界互动以实现长期目标的智能体可能会带来更高的风险。默认情况下,这为人类干预和调解智能体的行动提供了更少的机会,因此需要更高的信任和责任标准。远离人类数据和人类思维模式也可能使未来的 AI 系统更难解释。
然而,虽然我们承认体验式学习将增加某些安全风险,并且肯定需要进一步研究以确保安全过渡到体验时代,但我们也应该认识到,它也可能提供一些重要的安全优势。
首先,体验式智能体意识到它所处的环境,并且其行为可以随着时间的推移适应环境的变化。任何预编程系统,包括固定的 AI 系统,可能不了解其环境背景,并且可能不适应其部署的变化世界。例如,关键硬件可能出现故障,疫情可能导致社会快速变化,或者新的科学发现可能引发一系列快速的技术发展。相比之下,一个体验式智能体可以观察并学习规避故障硬件,适应快速的社会变化,或者接受并建立在新的科学和技术之上。也许更重要的是,智能体可以识别其行为何时引发人类的担忧、不满或痛苦,并自适应地修改其行为以避免这些负面后果。
其次,智能体的奖励函数本身可以通过经验进行调整,例如使用前面描述的双层优化(参见奖励)。重要的是,这意味着不对齐的奖励函数通常可以通过试错逐步纠正。例如,奖励函数可以根据人类关注的迹象进行修改,而不是盲目地优化一个信号,比如最大化回形针[5],以防止回形针生产消耗地球上所有资源。这类似于人类为彼此设定目标的方式,然后如果他们观察到人们在操纵系统、忽视长期福祉或造成不希望的负面后果,就调整这些目标;尽管与人类的目标设定一样,没有完美对齐的保证。
最后,依赖物理经验的进步本质上受到在现实世界中执行行动并观察其后果所需时间的限制。例如,即使有 AI 辅助设计,开发新药物仍然需要现实世界的试验,这些试验不可能在一夜之间完成。这可能为潜在的 AI 自我改进速度提供了一个自然的制动器。
结论
经验时代标志着人工智能进化的重要转折点。在当今坚实基础之上,但超越了人类提供数据的局限性,AI 智能体将越来越多地从自身与世界的互动中学习。智能体将通过丰富的观察和行动自主地与环境进行交互。它们将在终身体验的过程中持续适应和成长。它们的目标可以被引导向任何组合的实际基础信号。此外,智能体将利用强大的非人类推理能力,并构建基于智能体行动对环境产生影响的计划。最终,体验数据将在规模和质量上超越人类生成的数据。这种范式转变,伴随着**强化学习(RL)**算法的进步,将在众多领域释放出超越任何人类能力的新潜能。