一只小茄墩

DeepSeek-R1技术报告详解

几个要点数据层面 a. 大规模人工标注还是太麻烦了，==探索无需人工标注的方法== -> 跳过SFT直接上RL b. a步骤基础上加上一点人工标注作为==冷启动==，会好很多 -> 小小SFT一下，还是不错训练层面 a. RL模型：==Group Relative Policy Optimization== b. 奖励：==准确性奖励+格式化奖励==。试过当红的过程奖励和MTCS，最终都放弃 c. 振奋人心的自我进化时刻和==顿悟==时刻！ c. SFT冷启动一下效果会更好。也就是==pretrain+SFT+RLHF的pipeline依旧是上限最高的== d. 对小模型来说，==从大模型蒸馏依旧是天花板最高的方案== 模型开源 a. DeepSeek-R1-Zero: DeepSeek-V3-Base作为基础模型+RL b. DeepSeek-R1: DeepSeek-V3-Base+SFT冷启动+RL c. 一堆蒸馏的小模型方法概述先前的研究严重依赖大量的监督数据来提升模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过加入少量冷启动数据，性能可以得到进一步提升。在接下来的章节中，我们将介绍：（1）DeepSeek-R1-Zero，它直接将强化学习应用于基础模型，无需任何SFT数据；（2）DeepSeek-R1，它从使用数千个长链式思考（CoT）示例进行微调的检查点开始应用强化学习。（3）将DeepSeek-R1的推理能力提炼到小型密集模型中。 DeepSeek-R1-Zero: 基于基础模型的强化学习收集监督数据非常费劲，希望探索没有任何监督数据情况下的能力，重点关注通过纯粹的强化学习过程进行的自我进化。强化学习算法 Group Relative Policy Optimization 为了节省强化学习的训练成本，我们采用了组相对策略优化（GRPO），它放弃了通常与策略模型大小相同的评论家模型，而是从组得分中估计基线。 $$ \begin{equation} \begin{split} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)]} \\ & \frac{1}{G}\sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right)\right) , \end{split} \label{eq:GRPO-obj} \end{equation} $$$$ \begin{equation} \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right) = \frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)}- \log\frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)} - 1, \end{equation} $$$$ \begin{equation} A_i = \frac{r_i - {\mathrm mean(\{r_1, r_2, \cdots, r_G\})}}{{\mathrm std(\{r_1, r_2, \cdots, r_G\})}}. \end{equation} $$ ...

Group Relative Policy Optimization

从 PPO 到 GRPO 近端策略优化（PPO）是一种 actor-critic 强化学习算法，广泛应用于大语言模型（LLM）的强化学习微调阶段。具体而言，它通过最大化以下替代目标来优化大语言模型：其中，$\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 分别是当前策略模型和旧策略模型，$q$ 和 $o$ 分别是从问题数据集和旧策略 $\pi_{\theta_{old}}$ 中采样的问题和输出。$\varepsilon$ 是 PPO 中引入的用于稳定训练的裁剪相关超参数。$A_t$ 是优势值，它通过应用广义优势估计（GAE）计算得出，基于奖励 $\{r_{\ge t}\}$ 和一个学习到的价值函数 $V_{\psi}$。因此，在 PPO 中，需要与策略模型一同训练一个价值函数。为了减轻对奖励模型的过度优化，标准做法是在每个 token 的奖励中添加来自参考模型的每个 token 的 KL 散度惩罚，即：其中 $r_\varphi$ 是奖励模型，$ \pi_{ref} $ 是参考模型，通常是初始的 SFT 模型，而 $ \beta $ 是 KL 惩罚的系数。由于 PPO 中使用的价值函数通常是与策略模型大小相当的另一个模型，因此会带来大量的内存和计算负担。此外，在强化学习（RL）训练期间，价值函数被视为计算优势以减少方差的基线。然而，在大语言模型（LLM）的背景下，通常只有最后一个 Token 会被奖励模型赋予奖励分数，这可能会使在每个 Token 上都准确的价值函数的训练变得复杂。为了解决这个问题，我们提出了组相对策略优化（GRPO），它无需像 PPO 那样进行额外的价值函数近似，而是使用针对同一问题生成的多个采样输出的平均奖励作为基线。更具体地说，对于每个问题 $q$，GRPO 从旧策略 $ \pi_{\theta_{old}} $ 中采样一组输出 $ \{o_1, o_2, \cdots, o_G\} $，然后通过最大化以下目标来优化策略模型： ...

SFT 记忆，RL 泛化

摘要监督微调 (SFT) 和强化学习 (RL) 是基础模型广泛采用的后训练技术。然而，它们各自在增强模型泛化能力方面的作用仍不明确。本文研究了 SFT 和 RL 对泛化和记忆的相对影响，重点关注文本和视觉环境。我们引入了 GeneralPoints，一种算术推理卡牌游戏，并考虑了 V-IRL，一个真实世界的导航环境，以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见过的变体。我们发现，RL，特别是当使用基于结果的奖励进行训练时，在基于规则的文本和视觉环境中均能展现出泛化能力。相比之下，SFT 倾向于记忆训练数据，并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明，RL 提升了模型潜在的视觉识别能力，从而有助于其在视觉领域增强泛化能力。尽管 RL 具有更强的泛化能力，但我们发现 SFT 对于有效的 RL 训练仍然至关重要：SFT 稳定了模型的输出格式，使得后续的 RL 能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。引言虽然 SFT 和 RL 都被广泛用于基础模型训练，但它们对泛化的独特影响仍然不清楚，这使得构建可靠和鲁棒的 AI 智能体系统具有挑战性。分析基础模型的泛化能力的一个关键挑战是将数据记忆[^1]与可迁移原则的获取分离开来。因此，我们研究了 SFT 或 RL 主要是记忆训练数据，还是学习可以适应新任务变体的可泛化原则这一关键问题。为了解决这个问题，我们关注泛化的两个方面：基于文本的规则泛化和视觉泛化。对于文本规则，我们研究模型将学习到的规则（给定文本提示词）应用于这些规则的变体的能力。对于视觉语言模型 (VLM)，视觉泛化衡量在给定任务中，视觉输入（如颜色和空间布局）变化时性能的一致性。为了研究基于文本和视觉的泛化，我们研究了两个不同的任务，这两个任务体现了基于规则和视觉的变体。我们的第一个任务是 GeneralPoints，这是一个原创的纸牌游戏任务，类似于 RL4VLM 中的 Points24 任务，旨在评估模型的算术推理能力。在 GeneralPoints 中，模型接收四张牌（以文本描述或图像形式呈现），并且需要使用每张牌的数值恰好一次来计算目标数字（默认为 24）。其次，我们采用了 V-IRL，这是一个真实的导航任务，侧重于模型的空间推理能力。 ![关于在视觉导航环境 V-IRL 上，强化学习 (RL) 和监督微调 (SFT) 在分布外 (OOD) 泛化方面的比较研究。 OOD 曲线表示在同一任务上，使用不同的文本动作空间时的性能表现。有关任务的详细描述，请参阅第5.1 我们采用类似于 @zhai2024finetuning 的多步强化学习框架，通过在主干模型上进行监督微调 (SFT) 后实例化强化学习 (RL)，并使用顺序修订公式。在 GeneralPoints 和 V-IRL 中，我们观察到强化学习 (RL) 学习了可泛化的规则（以文本形式表达），其中分布内的性能提升也转移到了未见过的规则。相比之下，监督微调 (SFT) 似乎记住了训练规则，并且无法泛化（例如，参见1）。除了基于文本规则的泛化之外，我们还进一步研究了视觉领域的泛化，并观察到强化学习 (RL) 也泛化到了视觉分布外 (OOD) 任务，而监督微调 (SFT) 仍然表现不佳。作为视觉分布外 (OOD) 泛化能力的副产品，我们的多轮强化学习 (RL) 方法在 V-IRL 小型基准测试中实现了最先进的性能，提高了 [+33.8%] (44.0%$\rightarrow$77.8%)，突显了强化学习 (RL) 的泛化能力。为了理解强化学习 (RL) 如何影响模型的视觉能力，我们对 GeneralPoints 进行了额外的分析，揭示了使用基于结果的奖励函数训练强化学习 (RL) 可以提高视觉识别能力。虽然强化学习 (RL) 表现出比监督微调 (SFT) 更优越的泛化能力，但我们表明监督微调 (SFT) 仍然有助于稳定模型的输出格式，使强化学习 (RL) 能够实现其性能提升。最后但并非最不重要的一点是，我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。 ...