RL | 一只小茄墩

Sutton: 苦涩的教训

纵观70年人工智能研究史，我们获得的最重要启示是：那些充分利用计算的通用方法，终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律，或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定（这种情况下利用人类知识成为提升性能的主要途径），但只要将时间跨度拉长到略超典型研究周期，计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进，往往诉诸领域专业知识，但从长远来看，真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖，但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源，研究者也会形成心理层面的路径依赖。更关键的是，依赖人类知识的方法常使系统复杂化，反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知，审视几个典型案例颇具启发价值。在计算机象棋领域，1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时，这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时，这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜，但绝非普适性策略，况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜，最终却不得不面对现实落差。相似的技术演进在计算机围棋领域重现，只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索，但当大规模搜索被有效运用后，这些努力不仅徒劳无功，甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要（该技术也应用于其他棋类乃至象棋领域，尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用）。自对弈学习与广义的机器学习，如同搜索技术一样，能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域，如同象棋领域，研究者最初执着于运用人类智慧（以减少搜索需求），直到后期转向拥抱搜索与学习才实现质的飞跃。在语音识别领域，20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等，也有基于隐马尔可夫模型（HMM）的新型统计方法，后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变，统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起，正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少，通过海量训练集的学习与更强大的算力，构建出性能飞跃的语音识别系统。与棋类博弈领域相似，研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时，这种努力往往适得其反，造成研究者时间资源的巨大浪费。计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则，却实现了更优越的性能。这个教训足够深刻——作为研究领域，我们仍未完全吸取教训，仍在重复同类错误。要认清并有效抵制这种倾向，必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示：将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察：1）AI研究者常试图将知识植入智能体；2）短期看这确实有效并能满足研究者成就感；3）长期将导致发展停滞甚至阻碍进步；4）突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳，因为它战胜了备受青睐的人类中心主义方法。苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法，即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。第二点启示是心智内容的极端复杂性：我们应停止寻求描述心智内容的简单范式（如空间、物体、多智能体或对称性的简单理解）。这些都属于外部世界任意且本质复杂的组成部分，不应被硬编码到系统中，因其复杂性永无止境；我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解，但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体，而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。

Open R1 项目第二周总结与展望

摘要我们现在已经进入了 Open R1 项目的第二周，该项目旨在重建 DeepSeek R1 缺失的部分——特别是训练管道和合成数据。分享 OpenR1-Math-220k 的构建：这是我们首个用于数学推理的大规模数据集！介绍社区在策划用于微调的小型、高质量数据集方面取得的一些令人兴奋的进展，以及关于如何在训练和推理阶段控制推理模型的思维链长度的见解。 OpenR1-Math-220k 数据集 DeepSeek R1 的主要优势之一是它能够通过知识蒸馏将高级推理能力迁移到较小的模型。 DeepSeek 团队通过生成 60 万个推理轨迹并微调一系列 Qwen 和 Llama 模型证明了这一点，表明直接从 R1 进行知识蒸馏可以在无需强化学习的情况下实现具有竞争力的推理性能。值得注意的是，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩，超过了像 QwQ-32B-Preview 这样更大的模型。然而，用于蒸馏的推理轨迹尚未公开，这促使社区独立地重新创建类似的数据集。到目前为止，社区已经发布了多个开放数据集，包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。 🐳 隆重推出 OpenR1-Math-220k，这是一个大规模的数学推理数据集，它利用 512 个 H100 在本地生成，且每个问题都对应多个答案。为了创建 OpenR1-Math-220k，我们与 Numina 展开合作，他们开发了广受欢迎的 NuminaMath-CoT 数据集的全新版本。与现有数据集相比，OpenR1 数据集的新特性：80 万条 R1 推理轨迹：我们使用 DeepSeek R1 为 40 万道问题生成了两个答案。经过筛选的数据集包含 22 万道问题，并带有正确的推理轨迹。本地运行 512 个 H100: 我们没有依赖 API，而是利用 vLLM 和 SGLang 在我们的科学集群上本地运行生成，每天生成 18 万条推理过程。基于 NuminaMath 1.5: 我们专注于数学推理过程，并为 NuminaMath 1.5 中的问题生成答案，NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版本。自动过滤：我们应用 Math Verify 来仅保留至少有一个正确答案的问题。我们还利用 Llama3.3-70B-Instruct 作为一个判断器，以检索更多正确的例子（例如，对于答案格式错误，无法使用基于规则的解析器验证的情况）。我们通过在我们的数据集上微调 Qwen-7B-Math-Instruct 来匹配 DeepSeek-Distill-Qwen-7B 的性能。通过展示可扩展的、高质量的推理数据生成，我们希望这个流程可以扩展到数学以外的领域，例如代码生成。 ...

PPO训练技巧总览

Jian Hu’s Blogpost 以下所有实例均可在Jian Hu开发的OpenRLHF 0 - 引言基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）结合近端策略优化（Proximal Policy Optimization, PPO）[1]是一种用于微调大语言模型（Large Language Models, LLMs）的强大方法。该方法使用可靠且高效的PPO算法，结合人类评估者的反馈来提高模型生成响应的质量。然而，使用PPO训练LLMs存在几个挑战。这些包括维持稳定的训练过程，以及实现比直接偏好优化（Direct Preference Optimization, DPO）[2]更好的性能。因此，我们总结了RLHF与PPO的实用训练技巧，以帮助研究人员更轻松地微调LLMs，确保训练稳定性和高性能。 1 - 使用PPO训练LLM的高级技巧我们介绍三类PPO训练技巧：1) LLM特定技巧，2) PPO特定技巧，以及3)来自最新研究的创新策略。LLM特定和PPO特定的技巧已在各种RL框架[3, 4]中实现并证明有效。然而，最近论文中提出的创新策略在特定任务上的适用性仍有待验证。 1.1 - LLM特定技巧 Token级KL惩罚：计算强化学习（RL）模型和监督微调（SFT）模型的响应分布之间的每个token的KL散度[11]。这种散度在训练过程中作为惩罚项被纳入奖励函数。具体来说，每个token的奖励表示如下： $$ r(s_t, a_t) = \textbf{I}(s_t =[\text{EOS}])r(x,y)-\beta \text{KL}(t) $$$$ \text{KL}(t) = \log({\pi_{\theta_{\text{old}}}(a_t|s_t)^{\text{RL}}}/{\pi^{\text{SFT}}(a_t|s_t)} $$ $$t$$ 是否为最后一个token的标识函数。代码链接：utils.py 广义优势估计（Generalized Advantage Estimation, GAE）：GAE[10]是一种TD(λ)回报估计方法，用于估计PPO中的token级奖励。在实践中，我们通常设置$λ=1$，将GAE方法转换为蒙特卡洛估计方法。代码链接：experience_maker.py 将GAE的λ和折扣因子$γ$都设为1，这可以减少值网络引入的偏差。代码链接：OpenRLHF/openrlhf/cli/train_ppo_ray.py 添加SFT损失：在PPO中加入额外的监督下一个token预测损失，与KL散度一起，可以保持SFT模型的预存能力。代码链接：ppo_trainer.py 1.2 - PPO特定技巧模型初始化：在使用PPO训练LLMs时，必须初始化两个模型：演员模型（actor model）和评论家模型（critic model）[6, 7]。具体来说，使用监督微调（SFT）模型初始化演员模型，使用奖励模型初始化评论家模型可以确保PPO训练的效率。代码链接：examples/train_ppo.py Adam学习率：演员模型的Adam学习率大约是SFT模型使用的十分之一。例如，在OpenRLHF中，SFT模型的Adam学习率为5e-6，而演员模型为5e-7。此外，评论家模型的Adam学习率约为SFT模型的两倍，示例率为9e-6。代码链接：train_ppo_llama.sh ...

Reward Hacking in Reinforcement Learning

摘要当强化学习 (RL) AI 智能体利用奖励函数中的缺陷或歧义来获得高奖励，而没有真正学习或完成预期的任务时，就会发生reward hacking。reward hacking的存在是因为 RL 环境通常是不完善的，并且准确地指定奖励函数从根本上具有挑战性。随着大语言模型推广到广泛的任务，并且 RLHF 成为对齐训练的常用方法，大语言模型的 RL 训练中的reward hacking已成为重要挑战。模型学习修改单元测试以通过编码任务，或者响应包含模仿用户偏好的偏差的实例，可能是 AI 模型在现实世界中更广泛自主应用的主要障碍之一。过去关于这个主题的大部分工作都相当理论化，主要集中在定义或论证奖励篡改的存在。然而，针对实际缓解措施的研究，尤其是在以人类反馈强化学习（RLHF）和大语言模型（LLM）为背景的情况下，仍然非常有限。背景强化学习中的奖励函数奖励函数定义了任务，奖励塑造对强化学习中的学习效率和准确性有显著影响。为强化学习任务设计奖励函数常常让人感觉像一门“黑暗艺术”。许多因素导致了这种复杂性：如何将一个大目标分解成小目标？奖励是稀疏的还是密集的？你如何衡量成功？各种选择可能会导致良好或有问题的学习动态，包括不可学习的任务或可被篡改的奖励函数。关于如何在强化学习中进行奖励塑造的研究由来已久。例如，在 Ng et al. 1999 年的论文中，作者研究了如何在马尔可夫决策过程 (MDP) 中修改奖励函数，以使最优策略保持不变。他们发现线性变换是有效的。 $$ F(s, a, s') = \gamma \Phi(s') - \Phi(s) $$ 这将保证折扣后的 $F$ 的总和，$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$，最终结果为 0。如果 $F$ 是这样一个基于势的塑造函数，那么它是确保 $M$ 和 $M’$ 共享相同最优策略的充分且必要条件。 $$ \begin{aligned} Q_{M^{\prime}}^*(s, a) & =Q_M^*(s, a)-\Phi(s) \\ V_{M^{\prime}}^*(s, a) & =V_M^*(s, a)-\Phi(s) \end{aligned} $$这种形式的奖励塑造允许我们将启发式方法融入到奖励函数中，以加速学习，而不会影响最优策略。 ...

s1: simple test-time scaling

摘要 test-time scaling 利用额外的测试时计算来提高性能。最近，OpenAI 的 o1 模型展示了这种能力，但没有公开分享其方法，这导致了许多复制尝试。我们寻求实现测试时缩放和强大推理性能的最简单方法。首先，我们策划了一个==小型数据集 s1K==，其中包含 1000 个问题，并配有推理过程的轨迹，这些轨迹基于我们通过消融实验验证的三个标准：难度、多样性和质量。其次，我们开发了==预算强制方法来控制测试时计算，具体做法是强制终止模型的思考过程，或者在模型尝试结束时通过多次附加“等待”来延长其思考过程。这可以引导模型仔细检查其答案，通常会修正不正确的推理步骤==。在对 s1K 上的 Qwen2.5-32B-Instruct 大语言模型进行监督微调，并为其配备预算强制后，我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%（MATH 和 AIME24）。此外，使用预算强制缩放 s1-32B 允许在没有测试时干预的情况下将其性能外推：在 AIME24 上从 50% 提高到 57%。引言 DeepSeek R1 成功地复制了 o1 级别的性能，也采用了通过数百万样本和多个训练阶段的强化学习。然而，尽管有大量的 o1 复制尝试，但没有一个公开复制了清晰的测试时缩放行为。因此，我们提出问题：==实现test-time scaling和强大的推理性能的最简单方法是什么？== 我们证明，仅使用1000个样本进行下一个 Token 预测训练，并通过一种简单的测试时技术（我们称之为预算强制）来控制思考时长，可以得到一个强大的推理模型，其性能随着测试时计算量的增加而扩展。具体来说，我们构建了 s1K，它包含1000个精心策划的问题，这些问题与从 Gemini Thinking Experimental 中提取的推理轨迹和答案配对。我们对一个现成的预训练模型在我们的少量数据集上进行了监督微调（SFT），仅需在 16 个 H100 GPU 上训练 26 分钟。训练后，我们使用预算强制来控制模型在测试时花费的计算量： (I) 如果模型生成的思考 Token 超过了期望的限制，我们将通过附加一个思考结束 Token 分隔符来强制结束思考过程。以这种方式结束思考会使模型过渡到生成答案。 (II) 如果我们希望模型在问题上花费更多的测试时计算量，我们会抑制思考结束 Token 分隔符的生成，而是将“等待”附加到模型当前的推理轨迹中，以鼓励更多的探索。有了这个简单的配方——在 1000 个样本上进行 SFT 和测试时预算强制——我们的模型 s1-32B 表现出测试时扩展。此外，s1-32B 是最节省样本的推理模型，并且优于像 OpenAI 的 o1-preview 这样的闭源模型。我们进行了广泛的消融实验，目标是 (a) 我们选择的 1000 个 (1K) 推理样本和 (b) 我们的测试时扩展。对于 (a)，我们发现将难度、多样性和质量度量共同纳入我们的选择算法非常重要。随机选择、选择具有最长推理轨迹的样本或仅选择最大多样性的样本都会导致性能显著下降（在 AIME24 上平均下降约 ->30%）。在我们包含 59K 个示例的完整数据池（s1K 的超集）上进行训练，并不能比我们的 1K 选择提供实质性的提升。这突出了仔细数据选择的重要性，并呼应了先前关于指令微调的发现。对于 (b)，我们为测试时扩展方法定义了期望，以比较不同的方法。预算强制导致最佳的扩展，因为它具有完美的控制性，并且具有清晰的正斜率，从而带来强大的性能。 ...

DeepSeek-R1技术报告详解

几个要点数据层面 a. 大规模人工标注还是太麻烦了，==探索无需人工标注的方法== -> 跳过SFT直接上RL b. a步骤基础上加上一点人工标注作为==冷启动==，会好很多 -> 小小SFT一下，还是不错训练层面 a. RL模型：==Group Relative Policy Optimization== b. 奖励：==准确性奖励+格式化奖励==。试过当红的过程奖励和MTCS，最终都放弃 c. 振奋人心的自我进化时刻和==顿悟==时刻！ c. SFT冷启动一下效果会更好。也就是==pretrain+SFT+RLHF的pipeline依旧是上限最高的== d. 对小模型来说，==从大模型蒸馏依旧是天花板最高的方案== 模型开源 a. DeepSeek-R1-Zero: DeepSeek-V3-Base作为基础模型+RL b. DeepSeek-R1: DeepSeek-V3-Base+SFT冷启动+RL c. 一堆蒸馏的小模型方法概述先前的研究严重依赖大量的监督数据来提升模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过加入少量冷启动数据，性能可以得到进一步提升。在接下来的章节中，我们将介绍：（1）DeepSeek-R1-Zero，它直接将强化学习应用于基础模型，无需任何SFT数据；（2）DeepSeek-R1，它从使用数千个长链式思考（CoT）示例进行微调的检查点开始应用强化学习。（3）将DeepSeek-R1的推理能力提炼到小型密集模型中。 DeepSeek-R1-Zero: 基于基础模型的强化学习收集监督数据非常费劲，希望探索没有任何监督数据情况下的能力，重点关注通过纯粹的强化学习过程进行的自我进化。强化学习算法 Group Relative Policy Optimization 为了节省强化学习的训练成本，我们采用了组相对策略优化（GRPO），它放弃了通常与策略模型大小相同的评论家模型，而是从组得分中估计基线。 $$ \begin{equation} \begin{split} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)]} \\ & \frac{1}{G}\sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right)\right) , \end{split} \label{eq:GRPO-obj} \end{equation} $$$$ \begin{equation} \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right) = \frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)}- \log\frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)} - 1, \end{equation} $$$$ \begin{equation} A_i = \frac{r_i - {\mathrm mean(\{r_1, r_2, \cdots, r_G\})}}{{\mathrm std(\{r_1, r_2, \cdots, r_G\})}}. \end{equation} $$ ...

Group Relative Policy Optimization

从 PPO 到 GRPO 近端策略优化（PPO）是一种 actor-critic 强化学习算法，广泛应用于大语言模型（LLM）的强化学习微调阶段。具体而言，它通过最大化以下替代目标来优化大语言模型：其中，$\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 分别是当前策略模型和旧策略模型，$q$ 和 $o$ 分别是从问题数据集和旧策略 $\pi_{\theta_{old}}$ 中采样的问题和输出。$\varepsilon$ 是 PPO 中引入的用于稳定训练的裁剪相关超参数。$A_t$ 是优势值，它通过应用广义优势估计（GAE）计算得出，基于奖励 $\{r_{\ge t}\}$ 和一个学习到的价值函数 $V_{\psi}$。因此，在 PPO 中，需要与策略模型一同训练一个价值函数。为了减轻对奖励模型的过度优化，标准做法是在每个 token 的奖励中添加来自参考模型的每个 token 的 KL 散度惩罚，即：其中 $r_\varphi$ 是奖励模型，$ \pi_{ref} $ 是参考模型，通常是初始的 SFT 模型，而 $ \beta $ 是 KL 惩罚的系数。由于 PPO 中使用的价值函数通常是与策略模型大小相当的另一个模型，因此会带来大量的内存和计算负担。此外，在强化学习（RL）训练期间，价值函数被视为计算优势以减少方差的基线。然而，在大语言模型（LLM）的背景下，通常只有最后一个 Token 会被奖励模型赋予奖励分数，这可能会使在每个 Token 上都准确的价值函数的训练变得复杂。为了解决这个问题，我们提出了组相对策略优化（GRPO），它无需像 PPO 那样进行额外的价值函数近似，而是使用针对同一问题生成的多个采样输出的平均奖励作为基线。更具体地说，对于每个问题 $q$，GRPO 从旧策略 $ \pi_{\theta_{old}} $ 中采样一组输出 $ \{o_1, o_2, \cdots, o_G\} $，然后通过最大化以下目标来优化策略模型： ...

SFT 记忆，RL 泛化

摘要监督微调 (SFT) 和强化学习 (RL) 是基础模型广泛采用的后训练技术。然而，它们各自在增强模型泛化能力方面的作用仍不明确。本文研究了 SFT 和 RL 对泛化和记忆的相对影响，重点关注文本和视觉环境。我们引入了 GeneralPoints，一种算术推理卡牌游戏，并考虑了 V-IRL，一个真实世界的导航环境，以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见过的变体。我们发现，RL，特别是当使用基于结果的奖励进行训练时，在基于规则的文本和视觉环境中均能展现出泛化能力。相比之下，SFT 倾向于记忆训练数据，并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明，RL 提升了模型潜在的视觉识别能力，从而有助于其在视觉领域增强泛化能力。尽管 RL 具有更强的泛化能力，但我们发现 SFT 对于有效的 RL 训练仍然至关重要：SFT 稳定了模型的输出格式，使得后续的 RL 能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。引言虽然 SFT 和 RL 都被广泛用于基础模型训练，但它们对泛化的独特影响仍然不清楚，这使得构建可靠和鲁棒的 AI 智能体系统具有挑战性。分析基础模型的泛化能力的一个关键挑战是将数据记忆[^1]与可迁移原则的获取分离开来。因此，我们研究了 SFT 或 RL 主要是记忆训练数据，还是学习可以适应新任务变体的可泛化原则这一关键问题。为了解决这个问题，我们关注泛化的两个方面：基于文本的规则泛化和视觉泛化。对于文本规则，我们研究模型将学习到的规则（给定文本提示词）应用于这些规则的变体的能力。对于视觉语言模型 (VLM)，视觉泛化衡量在给定任务中，视觉输入（如颜色和空间布局）变化时性能的一致性。为了研究基于文本和视觉的泛化，我们研究了两个不同的任务，这两个任务体现了基于规则和视觉的变体。我们的第一个任务是 GeneralPoints，这是一个原创的纸牌游戏任务，类似于 RL4VLM 中的 Points24 任务，旨在评估模型的算术推理能力。在 GeneralPoints 中，模型接收四张牌（以文本描述或图像形式呈现），并且需要使用每张牌的数值恰好一次来计算目标数字（默认为 24）。其次，我们采用了 V-IRL，这是一个真实的导航任务，侧重于模型的空间推理能力。 ![关于在视觉导航环境 V-IRL 上，强化学习 (RL) 和监督微调 (SFT) 在分布外 (OOD) 泛化方面的比较研究。 OOD 曲线表示在同一任务上，使用不同的文本动作空间时的性能表现。有关任务的详细描述，请参阅第5.1 我们采用类似于 @zhai2024finetuning 的多步强化学习框架，通过在主干模型上进行监督微调 (SFT) 后实例化强化学习 (RL)，并使用顺序修订公式。在 GeneralPoints 和 V-IRL 中，我们观察到强化学习 (RL) 学习了可泛化的规则（以文本形式表达），其中分布内的性能提升也转移到了未见过的规则。相比之下，监督微调 (SFT) 似乎记住了训练规则，并且无法泛化（例如，参见1）。除了基于文本规则的泛化之外，我们还进一步研究了视觉领域的泛化，并观察到强化学习 (RL) 也泛化到了视觉分布外 (OOD) 任务，而监督微调 (SFT) 仍然表现不佳。作为视觉分布外 (OOD) 泛化能力的副产品，我们的多轮强化学习 (RL) 方法在 V-IRL 小型基准测试中实现了最先进的性能，提高了 [+33.8%] (44.0%$\rightarrow$77.8%)，突显了强化学习 (RL) 的泛化能力。为了理解强化学习 (RL) 如何影响模型的视觉能力，我们对 GeneralPoints 进行了额外的分析，揭示了使用基于结果的奖励函数训练强化学习 (RL) 可以提高视觉识别能力。虽然强化学习 (RL) 表现出比监督微调 (SFT) 更优越的泛化能力，但我们表明监督微调 (SFT) 仍然有助于稳定模型的输出格式，使强化学习 (RL) 能够实现其性能提升。最后但并非最不重要的一点是，我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。 ...