SFT 记忆,RL 泛化
摘要 监督微调 (SFT) 和强化学习 (RL) 是基础模型广泛采用的后训练技术。然而,它们各自在增强模型泛化能力方面的作用仍不明确。本文研究了 SFT 和 RL 对泛化和记忆的相对影响,重点关注文本和视觉环境。我们引入了 GeneralPoints,一种算术推理卡牌游戏,并考虑了 V-IRL,一个真实世界的导航环境,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见过的变体。我们发现,RL,特别是当使用基于结果的奖励进行训练时,在基于规则的文本和视觉环境中均能展现出泛化能力。相比之下,SFT 倾向于记忆训练数据,并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明,RL 提升了模型潜在的视觉识别能力,从而有助于其在视觉领域增强泛化能力。尽管 RL 具有更强的泛化能力,但我们发现 SFT 对于有效的 RL 训练仍然至关重要:SFT 稳定了模型的输出格式,使得后续的 RL 能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。 引言 虽然 SFT 和 RL 都被广泛用于基础模型训练,但它们对泛化的独特影响仍然不清楚,这使得构建可靠和鲁棒的 AI 智能体系统具有挑战性。分析基础模型的泛化能力的一个关键挑战是将数据记忆[^1]与可迁移原则的获取分离开来。因此,我们研究了 SFT 或 RL 主要是记忆训练数据,还是学习可以适应新任务变体的可泛化原则这一关键问题。为了解决这个问题,我们关注泛化的两个方面:基于文本的规则泛化和视觉泛化。对于文本规则,我们研究模型将学习到的规则(给定文本提示词)应用于这些规则的变体的能力。对于视觉语言模型 (VLM),视觉泛化衡量在给定任务中,视觉输入(如颜色和空间布局)变化时性能的一致性。为了研究基于文本和视觉的泛化,我们研究了两个不同的任务,这两个任务体现了基于规则和视觉的变体。我们的第一个任务是 GeneralPoints,这是一个原创的纸牌游戏任务,类似于 RL4VLM 中的 Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收四张牌(以文本描述或图像形式呈现),并且需要使用每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,我们采用了 V-IRL,这是一个真实的导航任务,侧重于模型的空间推理能力。 ![关于在视觉导航环境 V-IRL 上,强化学习 (RL) 和监督微调 (SFT) 在分布外 (OOD) 泛化方面的比较研究。 OOD 曲线表示在同一任务上,使用不同的文本动作空间时的性能表现。有关任务的详细描述,请参阅第5.1 我们采用类似于 @zhai2024finetuning 的多步强化学习框架,通过在主干模型上进行监督微调 (SFT) 后实例化强化学习 (RL),并使用顺序修订公式。在 GeneralPoints 和 V-IRL 中,我们观察到强化学习 (RL) 学习了可泛化的规则(以文本形式表达),其中分布内的性能提升也转移到了未见过的规则。相比之下,监督微调 (SFT) 似乎记住了训练规则,并且无法泛化(例如,参见1)。除了基于文本规则的泛化之外,我们还进一步研究了视觉领域的泛化,并观察到强化学习 (RL) 也泛化到了视觉分布外 (OOD) 任务,而监督微调 (SFT) 仍然表现不佳。作为视觉分布外 (OOD) 泛化能力的副产品,我们的多轮强化学习 (RL) 方法在 V-IRL 小型基准测试中实现了最先进的性能,提高了 [+33.8%] (44.0%$\rightarrow$77.8%),突显了强化学习 (RL) 的泛化能力。为了理解强化学习 (RL) 如何影响模型的视觉能力,我们对 GeneralPoints 进行了额外的分析,揭示了使用基于结果的奖励函数训练强化学习 (RL) 可以提高视觉识别能力。虽然强化学习 (RL) 表现出比监督微调 (SFT) 更优越的泛化能力,但我们表明监督微调 (SFT) 仍然有助于稳定模型的输出格式,使强化学习 (RL) 能够实现其性能提升。最后但并非最不重要的一点是,我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。 ...