摘要

监督微调 (SFT) 和强化学习 (RL) 是基础模型广泛采用的后训练技术。然而,它们各自在增强模型泛化能力方面的作用仍不明确。本文研究了 SFT 和 RL 对泛化和记忆的相对影响,重点关注文本和视觉环境。我们引入了 GeneralPoints,一种算术推理卡牌游戏,并考虑了 V-IRL,一个真实世界的导航环境,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见过的变体。我们发现,RL,特别是当使用基于结果的奖励进行训练时,在基于规则的文本和视觉环境中均能展现出泛化能力。相比之下,SFT 倾向于记忆训练数据,并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明,RL 提升了模型潜在的视觉识别能力,从而有助于其在视觉领域增强泛化能力。尽管 RL 具有更强的泛化能力,但我们发现 SFT 对于有效的 RL 训练仍然至关重要:SFT 稳定了模型的输出格式,使得后续的 RL 能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。


引言

虽然 SFT 和 RL 都被广泛用于基础模型训练,但它们对泛化的独特影响仍然不清楚,这使得构建可靠和鲁棒的 AI 智能体系统具有挑战性。分析基础模型的泛化能力的一个关键挑战是将数据记忆[^1]与可迁移原则的获取分离开来。因此,我们研究了 SFT 或 RL 主要是记忆训练数据,还是学习可以适应新任务变体的可泛化原则这一关键问题。为了解决这个问题,我们关注泛化的两个方面:基于文本的规则泛化和视觉泛化。对于文本规则,我们研究模型将学习到的规则(给定文本提示词)应用于这些规则的变体的能力。对于视觉语言模型 (VLM),视觉泛化衡量在给定任务中,视觉输入(如颜色和空间布局)变化时性能的一致性。为了研究基于文本和视觉的泛化,我们研究了两个不同的任务,这两个任务体现了基于规则和视觉的变体。我们的第一个任务是 GeneralPoints,这是一个原创的纸牌游戏任务,类似于 RL4VLM 中的 Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收四张牌(以文本描述或图像形式呈现),并且需要使用每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,我们采用了 V-IRL,这是一个真实的导航任务,侧重于模型的空间推理能力。 ![关于在视觉导航环境 V-IRL 上,强化学习 (RL) 和监督微调 (SFT) 在分布外 (OOD) 泛化方面的比较研究。 OOD 曲线表示在同一任务上,使用不同的文本动作空间时的性能表现。有关任务的详细描述,请参阅第5.1

image-20250209162935362

我们采用类似于 @zhai2024finetuning 的多步强化学习框架,通过在主干模型上进行监督微调 (SFT) 后实例化强化学习 (RL),并使用顺序修订公式。在 GeneralPointsV-IRL 中,我们观察到强化学习 (RL) 学习了可泛化的规则(以文本形式表达),其中分布内的性能提升也转移到了未见过的规则。相比之下,监督微调 (SFT) 似乎记住了训练规则,并且无法泛化(例如,参见1)。除了基于文本规则的泛化之外,我们还进一步研究了视觉领域的泛化,并观察到强化学习 (RL) 也泛化到了视觉分布外 (OOD) 任务,而监督微调 (SFT) 仍然表现不佳。作为视觉分布外 (OOD) 泛化能力的副产品,我们的多轮强化学习 (RL) 方法在 V-IRL 小型基准测试中实现了最先进的性能,提高了 [+33.8%] (44.0%$\rightarrow$77.8%),突显了强化学习 (RL) 的泛化能力。为了理解强化学习 (RL) 如何影响模型的视觉能力,我们对 GeneralPoints 进行了额外的分析,揭示了使用基于结果的奖励函数训练强化学习 (RL) 可以提高视觉识别能力。虽然强化学习 (RL) 表现出比监督微调 (SFT) 更优越的泛化能力,但我们表明监督微调 (SFT) 仍然有助于稳定模型的输出格式,使强化学习 (RL) 能够实现其性能提升。最后但并非最不重要的一点是,我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。

Post-training.

后期训练对于提升模型性能至关重要。此阶段通常采用大规模监督微调(SFT)和/或强化学习(RL)。SFT 通过在特定任务的、通常为指令格式的数据集上训练预训练模型,使其适应下游任务。先前的研究,例如 FLAN,表明在多样化的指令调整数据集上进行微调可以显著提升在未见任务上的零样本学习性能。此外,LIMA 表明,监督微调充当了一个“格式教师”,有效地使模型的响应适应所需的格式,同时利用了预训练大语言模型的能力。相比之下,强化学习主要用于使模型与人类偏好对齐,或训练基础模型来解决特定任务。我们的工作与先前的研究不同,因为我们的目标是比较分析 SFT 和 RL 在大语言模型和视觉语言模型上的泛化和记忆能力,而先前的研究主要集中在仅研究这两种后期训练方法中的一种(或仅研究大语言模型或视觉语言模型),或者仅研究一种后期训练方法。

大语言模型/视觉语言模型中的记忆与泛化

多项研究已经检验了神经网络中记忆和泛化之间的相互作用。在大语言模型中,记忆可以表现为模型记住训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。先前的研究表明,大语言模型在更简单、知识密集的任务上表现出更多的过拟合,而在更复杂、推理密集的任务上表现出更大的泛化能力。例如,最近的研究表明,大语言模型通过在自回归生成之前预先计算推理图,发展出超出其训练数据的推理技能,这为泛化提供了有力的证据。我们的研究采取了一种不同的方法,通过研究不同的后训练范式在基于文本规则和视觉变体的情况下对记忆与泛化的作用。我们在单模态(大语言模型)和多模态(视觉语言模型)设置中进行了比较研究,并证明强化学习(RL)比监督微调(SFT)能带来更好的泛化性能。

扩展推理时计算

最近的研究越来越关注扩展推理时计算,以提高模型性能。早期的研究引导模型生成中间推理步骤,并在给出最终答案之前扩展响应。随后的工作表明,在推理过程中微调验证器可以提高模型准确性,从而有效地利用测试时计算。值得注意的是,最近的研究结果揭示了推理时计算的“缩放定律”,强调了增加计算资源带来的显著性能提升。我们的工作在两个方面基于这些发现。首先,我们将推理时验证的见解整合到一个多轮强化学习(RL)公式中,该公式允许模型识别并纠正其错误。其次,我们研究了推理时验证对强化学习泛化的影响,表明扩展推理时验证(就最大验证步骤数而言)是强化学习泛化的关键。

提升视觉语言模型(VLMs)的视觉能力。

尽管视觉语言模型在解决各种具有挑战性的任务(例如解决高级大学考试题和空间理解任务)方面展现出了卓越的技能,但它们在视觉感知方面也存在局限性。先前为增强视觉语言模型的视觉感知所做的努力包括结合多个视觉编码器、策划高质量的SFT数据,以及通过解冻视觉骨干网络来改进SFT微调训练方法。虽然这些先前的工作主要侧重于在SFT微调阶段进行的实验,但我们的工作表明,强化学习(RL)也可以提高视觉感知。

标准强化学习术语

我们考虑有限视界的决策制定,并采用经典强化学习文献中的标准符号,其中 $\mathcal S$ 表示状态空间,$\mathcal A$ 表示动作空间,$r:\mathcal S\times\mathcal A\rightarrow \mathbb R$ 表示奖励函数,$T$ 表示每个回合的最大步数。目标是学习一个策略 ${\pi:\mathcal S\rightarrow\mathcal A}$,以最大化总回报 ${\max_{\pi\in\Pi}\mathbb E_{\pi}\left[ \sum_{t=0}^Tr_t \right]}$,其中 $r_t$ 表示 $r(s_t,a_t)$。不失一般性,我们使用 $\pi(a|s)\in [0,1]$ 来表示策略 $\pi$ 在状态 $s$ 时选择动作 $a$ 的概率。

将RL术语适配到带有验证器的LLM/VLM

我们采用多轮RL设置进行基础模型训练。令$\mathcal V$表示离散且有限的词汇(Token)空间。输入和输出文本空间分别表示为$\mathcal V^{m}$和$\mathcal V^{n}$,其中$m$和$n$分别是输入序列$\boldsymbol v^\text{in}$和输出序列$\boldsymbol v^\text{out}$的最大Token长度。对于需要视觉输入的模型(VLM),我们将$\mathcal O$定义为所有RGB图像的空间。状态空间,用$\mathcal S$表示,对于VLM定义为$\mathcal S := \mathcal V^{m}\times \mathcal O$,对于LLM定义为$\mathcal S := \mathcal V^{m}$。动作空间$\mathcal A$定义为$\mathcal A := \mathcal V^{n}$。我们使用$\mathsf{VER}:\mathcal V^n \rightarrow \mathbb R \times \mathcal V^k$来表示一个验证器,它评估$\boldsymbol v^\text{out}$的结果,并生成一个基于结果的奖励函数$r$以及文本信息$\boldsymbol v^\text{ver}$。在数学上,在时间$t$,$\mathsf{VER}(\boldsymbol v^\text{out}_t)\mapsto(r_t,\boldsymbol v^\text{ver}_t)$。与@zhai2024finetuning类似,我们将参数为$\theta$的模型视为我们的策略网络$\pi_\theta:\mathcal S\rightarrow \mathcal V^n$,并采用PPO作为更新$\pi_\theta$的骨干RL算法。

Sequential revision.

为了建模状态-动作转换,我们采用了顺序修订的公式。具体来说,在时间步 $t=0$ 时,初始输入 $\boldsymbol v^\text{in}_0$ 由系统提示组成。对于后续时间步 $(t\geq1)$,输入提示 $\boldsymbol v^\text{in}_t$ 包括系统提示,并与所有先前的模型和验证器输出连接,表示为 $[\boldsymbol v^\text{out}_k,\boldsymbol v^\text{ver}_k]_{k=0}^{t-1}$。顺序修订的示例如图2所示,状态-动作转换的示例如图3所示。

image-20250202214526379

评估任务

为了评估不同后训练方法的泛化能力,我们选择了两个任务,这两个任务都提供了规则视觉变化

第一个任务 GeneralPoints 是我们设计的一个新环境,用于评估算术推理能力。

第二个任务 V-IRL 被选择来检验模型在开放世界视觉导航领域的推理能力。

通用点数环境

我们最初的 GeneralPoints 环境,在 Points24 环境之上实例化,旨在评估算术推理的泛化能力。环境的每个状态 $s$ 包含 4 张卡片,以文本形式(在 GP-L 变体中)或以图像形式(在 GP-VL 变体中)描述;有关 GeneralPoints 的视觉示例,请参见图2左侧。目标是使用卡片上的所有 4 个数字,且每个数字仅使用一次,生成一个等于目标数字(默认为 24)的等式。请注意,当 GeneralPoints 的输入以图像形式呈现 (GP-VL) 时,它自然会引入额外的视觉挑战,需要视觉语言模型 (VLM) 在解决等式之前识别所有卡片

规则变体。

为了研究模型是学习算术运算还是仅仅记忆训练后的数据,我们在 GeneralPoints 中引入了规则变体。这些变体包括将符号 J、Q 和 K 分别解释为 、 和 ,或者全部解释为相同的数字 。这些变体确保了对模型在不同设置下泛化算术推理能力的严格评估。每个规则都在输入提示词中以文本形式指定,请参见图3中的 {tasks rules} 部分。为了研究基于规则的泛化,我们使用一种规则对模型进行微调,然后使用不同的规则进行评估。

视觉变体。

GeneralPoints 环境也可以自然地进行定制,以评估跨视觉变体的泛化能力。由于主要的视觉挑战是识别每张卡片的数字,而与卡片的颜色无关,我们将不同颜色的卡片视为该任务的视觉变体。在视觉泛化设置中,我们使用一种颜色的卡片训练模型,然后使用另一种颜色测试 OOD(分布外)性能。

image-20250202214825458

V-IRL 环境

虽然 GeneralPoints 环境旨在评估算术推理能力,但我们进一步利用 V-IRL 环境来研究开放世界导航领域中空间推理能力,该领域使用真实的视觉输入。与 GeneralPoints 类似,我们考虑该环境的两个版本,一个 (V-IRL-L) 由纯语言描述组成,[^2] 另一个 (V-IRL-VL) 包括视觉-语言输入。V-IRL 中的主要视觉挑战在于在采取行动之前从视觉观察中识别不同的地标[^3]。目标是通过遵循包含空间信息的一组指令导航到目标位置

规则变体

为了评估模型是否具备空间知识,或者仅仅是记忆了训练后的数据,我们考虑两种不同的动作空间配置。第一种变体使用绝对方向动作空间,包括{北,东北,东,东南,南,西南,西,西北}。第二种变体采用相对方向动作空间,包含{左,右,稍微左,稍微右}。这种相对配置分别将当前方向向左或向右调整 90 度或 45 度。V-IRL 中导航任务的概述在图4中提供。

视觉变化。

V-IRL 中的主要视觉挑战在于从视觉观察中识别地标(例如,图4中所示的绿色部分)。由于 V-IRL 环境包含来自不同城市的视觉观察,我们可以通过训练模型在一个地点进行导航,然后在不同地点评估其性能来评估 V-IRL 中的视觉泛化能力。

结果

image-20250209163007987

在本节中,我们展示了一些实验,这些实验旨在研究通过强化学习(RL)和监督微调(SFT)进行后训练所带来的泛化能力。我们采用 Llama-3.2-Vision-11B 作为主干模型。遵循 RLHF 和 RL4VLM 的标准流程,我们在运行 RL 之前使用 SFT 初始化模型。我们特别研究以下问题:

SFT 或 RL 如何影响模型对不同规则的泛化能力?

当模型包含视觉组件时,RL/SFT 如何影响其对不同视觉变体的泛化能力?

RL/SFT 如何影响视觉语言模型(VLM)中的视觉识别能力?

SFT 在 RL 训练中扮演什么角色?

验证迭代次数如何影响泛化能力?

规则泛化

我们评估了不同的后训练方法在 GeneralPointsV-IRL 上的性能。这两个任务各自包含纯语言 (-L) 和视觉语言 (-VL) 变体,并且都包含规则的变体。对于每个任务,我们分别针对单个规则,调整 RL 和 SFT 的训练计算量。我们将模型在已训练规则上的表现视为分布内 (ID) 性能,而模型在未见规则上的表现则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 任务中,分布内 (ID) 的情况将所有 J、Q、K 视为 10,而分布外 (OOD) 的情况则将它们分别解释为 11、12 和 13。对于 V-IRL 任务,分布内 (ID) 的情况采用绝对方向坐标系,而分布外 (OOD) 的情况则使用相对方向动作空间。

RL 泛化,SFT 记忆。

如图5所示,强化学习(RL)在所有任务上,包括单模态(LLM)和多模态(VLM),都持续提高超出分布(OOD)的性能。具体而言,图6表明,强化学习(RL)在 GP-L 上实现了 [+3.5%]的增长 (11.5% $\rightarrow$ 15.0%),在 V-IRL-L 上实现了 [+11.0%]的增长 (80.8% $\rightarrow$ 91.8%)。即使在 VLM 中增加了视觉识别的挑战,强化学习(RL)在 GP-VL 上仍然保持了 [+3.0%] (11.2% $\rightarrow$ 14.2%) 的一致性能提升,在 V-IRL-VL 上则为 [+9.3%] (35.7% $\rightarrow$ 45.0%)。相比之下,监督微调(SFT)在所有任务的所有超出分布(OOD)评估中都表现出性能下降:在 GP-L 上 [-8.1%] (11.5% $\rightarrow$ 3.4%),在 V-IRL-L 上 [-79.5%](80.8% $\rightarrow$ 1.3%),在 GP-VL 上 [-5.6%](11.2% $\rightarrow$ 5.6%),在 V-IRL-VL 上 [-33.2%] (35.7% $\rightarrow$ 2.5%)。

视觉分布外任务中的泛化

强化学习(RL)在规则变化中展现出泛化能力,而监督微调(SFT)则呈现相反的趋势。由于视觉语言模型(VLMs)也包含视觉模态,接下来我们将研究视觉变化对分布外(OOD)泛化的影响。对于GeneralPoints,我们使用黑色花色(,)训练视觉语言模型,并在红色花色(,)上测试其分布外性能。对于V-IRL,我们使用在纽约市收集的路线数据训练模型,并在包含世界各地不同城市路线的原始V-IRL 视觉语言导航(VLN)迷你基准上评估模型。请注意,本节中的实验规则保持一致。

RL 在视觉 OOD 任务中展现泛化能力

image-20250202215244693

如图7 所示,我们观察到 RL 仍然在视觉 OOD 任务中展现泛化能力,而 SFT 的表现则持续下降。具体而言,在 GP-VLVIRL-VL 中,RL 的性能提升分别为 [+17.6%] (23.6% $\rightarrow$ 41.2%) 和 [+61.1%] (16.7% $\rightarrow$ 77.8%),而 SFT 的性能则分别下降了 [-9.9%](23.6% $\rightarrow$ 13.7%) 和 [-5.6%](16.7% $\rightarrow$ 11.1%)。作为这项视觉 OOD 研究的额外成果,我们还展示了我们的多轮 RL 方法改进了 V-IRL 小型基准测试中的最先进结果(参见 @yang2024v 的表 5),性能提升了 [+33.8%] (44.0% $\rightarrow$ 77.8%)。值得注意的是,与 V-IRL 中报告的先前最先进方法不同,该方法依赖于两阶段 VLM-LLM 协作技术以及在闭源模型上进行的定制化提示词工程,我们的端到端 RL 方法使得开源模型能够达到更优越的性能。

RL 提升视觉能力

基于上述观察,即使用 RL 训练的视觉语言模型 (VLM) 可以泛化到视觉 OOD 任务,我们考虑一个自然的后续问题:RL 如何影响 VLM 的视觉能力? 为了研究这个问题,我们在 GP-VL 环境中进行了额外的消融研究,以调查 RL 和 SFT 的 OOD 性能,以及模型在识别输入图像中的 4 张卡片方面的视觉识别准确率。 特别是,我们研究了通过 RL/SFT 扩展后训练计算如何影响基于规则的 OOD 的泛化,以及视觉识别准确率和视觉 OOD)。

扩展强化学习(RL)提升视觉语言模型(VLM)训练中的视觉识别准确率。

如图8所示,我们观察到视觉语言模型的视觉识别准确率在很大程度上影响了整体性能,这与@zhong2024law 中的观察结果相似。此外,扩展强化学习的计算量也提高了视觉识别准确率,这是其泛化能力的副产品。而扩展监督微调(SFT)则会降低视觉识别准确率和整体性能。

SFT 在 RL 训练中的作用

尽管如前所述,强化学习 (RL) 在泛化模型的推理和视觉能力方面具有优越性,但实验流程仍然是在 SFT 之后 实例化 RL。在本小节中,我们关注另一个关键问题:SFT 对于 RL 训练是否是必要的?为了回答这个问题,我们进行了额外的实验,直接将端到端的 RL 应用于对基础模型 Llama3.2 进行后训练,在纯语言情况下使用 GeneralPoints

image-20250209163131098 当主干模型不遵循指令时,SFT(监督微调)对于 RL(强化学习)训练是必要的。

2表明,如果没有 SFT,所有端到端的 RL 运行都无法取得改进。更具体地说,我们观察到,如果没有 SFT,基础模型会表现出较差的指令遵循能力。在图9提供了一个详细的失败案例,揭示了基础 Llama-3.2-Vision-11B 模型倾向于生成冗长、离题且非结构化的响应。这个问题使得检索任务相关的信息和用于 RL 训练的奖励变得不可能。请注意,由于主干模型的差异,我们的结果与 @deepseekai2025deepseekr1 的结果并不矛盾,后者认为 SFT 对于下游 RL 训练是不必要的。

验证迭代的作用

验证是我们多步骤训练和评估流程中的另一个关键组成部分(参见图10)。为了验证其必要性并更好地理解其效果,我们使用 GP-L 进行了不同验证迭代次数 $\{1,3,5,10\}$ 的强化学习实验。

image-20250209163148233

扩大验证规模可以提高泛化能力。

图3中,我们观察到,随着验证步骤的增加,强化学习的泛化能力表现更佳。更具体地说,在所有实验的计算预算相同的情况下,我们观察到[+2.15%]{style=“color: darkgreen”}(3步)、[+2.99%]{style=“color: darkgreen”}(5步)和[+5.99%]{style=“color: darkgreen”}(10步)的性能提升。相比之下,在仅有一个验证步骤的情况下,我们仅观察到OOD(超出分布)性能的[+0.48%]的边际提升。

结论、讨论和局限性

在本文中,我们对基础模型后训练技术,特别是强化学习(RL)和监督微调(SFT)的泛化效果进行了全面的分析。通过在 GeneralPointsV-IRL 任务上的大量实验,我们证明了在学习可泛化知识方面,强化学习表现出卓越的性能,而监督微调则倾向于仅仅记忆训练数据,这在规则和视觉变化中均一致存在。这种现象在多模态算术和空间推理能力中持续发生。此外,我们研究了强化学习对视觉识别的影响、监督微调的作用以及验证步骤的作用。在我们的研究过程中,有两个挑战尚未解决。

GP-VL 上 SFT 的失败。

RL 在极端情况下的局限性。