摘要

人工智能的最新进展，例如 OpenAI 的新型 o 模型、谷歌的 Gemini Thinking 模型和 Deepseek R1，正在将大语言模型 (LLM) 转化为大型推理模型 (LRM)。与大语言模型不同，大型推理模型在推理过程中执行思考或推理，需要额外的时间和计算来产生更高质量的输出。这项工作旨在发现训练大型推理模型背后的算法框架。基于自洽性、过程奖励建模、AlphaZero 的方法表明，==推理是一种引导搜索的形式==。基于这一原则，我们提出以下问题：==在大型语言模型的背景下，实现搜索的最简单和最具可扩展性的方法是什么？==

为了回答这些问题，我们提出了一个名为“通过自我博弈进行强化学习”（RLSP）的后训练框架。RLSP 涉及三个步骤：（1）使用人类或合成的推理过程演示进行监督微调；（2）使用探索奖励信号来鼓励多样化和高效的推理行为；（3）使用结果验证器进行强化学习训练，以确保正确性，同时防止奖励黑客行为。我们的主要创新是在 PPO 训练期间解耦探索和正确性信号，仔细平衡它们以提高性能和效率。

我们对数学领域的 RLSP 框架进行了实证研究，结果表明，使用 RLSP 框架训练的模型表现出改进的推理能力。在 Llama-3.1-8B-Instruct 模型上，RLSP 框架可以将 MATH-500 测试集中的性能提高 23%；在 AIME 2024 数学问题上，Qwen2.5-32B-Instruct 由于 RLSP 技术提高了 10%。然而，这项工作更重要的发现是，使用 RLSP 技术训练的模型，即使使用最简单的探索奖励（鼓励模型采取更多中间步骤），也表现出几种涌现行为，例如回溯、探索想法和验证。这些发现表明，当适当扩展时，RLSP 框架可能足以使大语言模型 (LLM) 涌现出复杂的推理能力。

最后，我们提出了一个理论，解释为什么 RLSP 搜索策略比文献中先前考虑的方法更适合大语言模型，这受到最近一项引人注目的结果的启发，该结果表明 CoT 可证明地 提高了大语言模型的计算能力，从而提高了推理能力，并且这些能力随着 CoT 中的步骤数量而增长。参考文献：

介绍

随着 OpenAI 的 o 系列模型、Google 的 Gemini Thinking 模型以及 Deepseek R1 的发布，大语言模型 (LLM) 正在迅速演变为思考机器，现在被称为大型推理模型 (LRM)。==LLM 和 LRM 之间的关键技术区别在于 LRM 在推理过程中进行思考的能力==，我们将其定义为在（推理）过程中花费更多时间和计算资源，以期为给定的输入产生更高质量的输出，这对于所有能够进行推理的人工和生物系统来说，都是一个合理的思考过程定义。

这项工作的主要目标是发现大语言模型 (LLM) 背景下推理或思考背后的计算过程。过去已经有几次尝试理解这个过程，范围从诸如自我一致性、(自动)过程奖励建模 (PRM) 以及为大语言模型 (LLM) 调整 AlphaZero 风格的搜索等技术。所有这些技术都有一个共同的原则：==推理或思考是某种形式的搜索==。我们以将思考定义为一种引导式搜索的原则为基础，并提出以下问题：

训练大语言模型 (LLM) 的最简单和最具可扩展性的框架是什么，能够导致思考或搜索行为的出现？

RLSP 框架

为了回答这些问题，我们提出了一个名为“通过自我博弈进行强化学习”（RLSP）[^1]的后训练框架。我们的框架是 RLHF 和来自宪法 AI 反馈的 RL 框架的自然扩展和概括，它由三个简单的步骤组成：

步骤 1： 如果存在高质量的思考过程演示，无论是通过人工标注还是通过树搜索程序构建的合成轨迹，都对演示数据集进行 SFT（监督式微调）。
步骤 2： 使用一个探索奖励，该奖励独立于解决方案的正确性，以隐式地鼓励多样化的搜索行为，例如回溯、考虑替代可能性、验证等。
步骤 3： 使用 PPO（近端策略优化）作为训练算法进行 RL（强化学习），使用一个结果验证器，该验证器给出解决方案正确性的明确二元信号。在这项工作中，我们专注于在训练期间可以（并且更容易）进行结果验证的领域。我们的关键见解是，强化学习（RL）训练中的任何奖励机制设计都应该鼓励模型合成创建新的CoT（思维链）数据，以便在PPO（近端策略优化）训练期间从中学习；也就是说，它激励模型通过自我对弈生成新的CoT推理轨迹。一个简单的实现方法是将鼓励搜索行为的探索奖励信号与解决方案的正确性解耦，并激励它。在PPO训练期间，我们会仔细权衡结果验证器的分数和探索奖励模型的分数，以获得最佳性能。通过设计，奖励信号的这两个组成部分都可以缓解诸如奖励黑客和过度拟合训练数据等问题。更重要的是，这两个信号都为模型提供了最小但必不可少的反馈，使其能够通过消耗更多的计算和数据来更好地学习。我们提出了一个论点来支持这些直觉，以及我们如何在一些引人注目的最新成果的指导下得出RLSP框架。

实证性能分析：RLSP 搜索能够提升大语言模型的推理能力。

我们通过实验评估了使用 RLSP 框架训练的模型在数学领域的推理能力提升。
在 Llama 模型上，RLSP 框架可以将 MATH 数据集上的性能提升 23%；在 AIME 2024 数学问题上，如图 1所示，Qwen2.5-32B-Instruct 由于 RLSP 技术提高了 10%。

此外，在相同的 Token 预算下，Llama-3.1-8B-Instruct 在 MATH-500 上的自洽性 (SC) 准确率为 61.8%，而通过 RLSP 训练的相同模型达到了 73.4%。我们的实证研究结果表明，与 CoT 和 SC 相比，启用引导式搜索行为可以显著提高大语言模型的推理能力。

涌现属性和行为分析

我们工作中最有趣的贡献在于理解通过 RLSP 训练的模型所涌现的属性，以及我们进行的各种消融研究，以阐明 SFT（监督微调）、带有或不带有探索奖励的 RL（强化学习），以及基础模型和预训练数据的影响所起的作用。我们表明，即使没有 SFT，但配备了最小的探索奖励，例如激励更长的生成过程，明确输出推理轨迹的所有中间步骤，所有编码和数学领域的模型都学习了几种有趣的搜索行为。它们表现出各种涌现属性，例如探索替代可能性、交叉验证、回溯和自我纠正，这些都是众所周知的元搜索策略。参见图2包含更多仅使用生成长度奖励的模型的涌现行为示例。另一方面，如果没有探索奖励，而是基于验证器的二元奖励进行纯粹的 PPO 训练，那么搜索行为仅在 Qwen2.5-7B-Instruct 模型中的数学领域出现（而对于同一基础模型，在编码领域则未出现）。这些结果表明，毫不奇怪，通过纯粹的 RL 训练的模型所涌现的特性可能会因预训练数据和基础模型的选择而差异很大。相比之下，RLSP 使得跨多个模型系列、大小和领域的涌现搜索行为成为可能。 因此，为了大规模训练前沿模型，RLSP 提供了一个更平滑、更高效的框架，使大语言模型 (LLM) 能够具备复杂的搜索行为，从而提高推理能力。

备注 1

关于我们用词的选择。我们使用短语“思考行为”来表示大语言模型有能力花费更多时间和计算资源，以期针对给定的输入产生更高质量的输出，并将其与搜索行为或推理互换使用。这是基于我们的假设，即搜索能够促进思考，进而应该能够带来更好的推理。然而，从技术上讲，搜索/思考行为是推理的必要条件，但不是充分条件。

备注 2

如果模型在没有使用任何特殊提示技巧的常规 CoT（思维链）中没有表现出该行为，我们就称该行为为涌现行为。但是，应该注意的是，我们在本文中称之为涌现行为的行为，例如回溯或自我纠正，实际上隐含地存在于预训练数据中，尽管其频率低于标准的逐步推理。关于为什么标准 CoT 或纯强化学习可能并不总是表现出回溯或自我纠正等行为的一些数学论证，请参见 1.2中的讨论。最后，我们还注意到，涌现行为虽然原则上应该能够带来更好的推理效果，但可能并不总是导致正确的解决方案。我们推测这可能是由于我们在实验中使用的小模型尺寸、数据量和计算资源所导致的。

备注 3

我们注意到在过去 2-3 周内发表的其他几项工作，包括 Deepseek r1 报告，它们的研究结果与我们的工作相关。这是一项并行进行的工作（已提交至 ICML），因此我们不与这些最新发表的论文进行比较。然而，我们相信我们的工作更具理论基础，并且包含许多新的发现。

RLSP 理论

我们提出了一个理论，用以解释我们如何得出 RLSP 搜索策略，以及该策略如何能够带来持续的自我改进。RLSP 背后的指导原则是，任何强化学习 (RL) 训练技术都应激励模型以合成方式创建新颖的思维链 (CoT) 推理轨迹，这些轨迹在训练数据中尚未出现，并从中进行学习。我们的直觉来自于最近一项优雅的数学成果，该成果表明，CoT 可以被证明能够增强 Transformer 的计算能力。广义上讲，该论点认为，思维链轨迹的长度会影响其推理能力，并且在标准计算复杂性假设下，更多的中间步骤会导致更强的计算能力。回想一下，对于由 $\theta$ 参数化的大语言模型 (LLM)，CoT 是 $\arg \max P_\theta(\text{answer, rationale}~|~\text{problem})$ 的一种经验实现。假设我们有这样的一个前提，随着推理问题难度的增加，获得解决问题所需的正确理由或直觉会变得更加困难。特别是，预训练数据中常见的想法（这是标准 CoT 发现的）无法得出正确的解决方案。那么，很自然地训练模型在理由空间中搜索，从而最大化 $P_\theta(\text{正确的理由，理由轨迹}~|~\text{问题})$，这可以解释为在理由轨迹空间中的 CoT。然而，这种轨迹可能不存在于训练数据中。在这里，考虑人类无法解决的非常困难的问题设置是有益的。借鉴相关研究，我们仍然可以设计奖励信号，鼓励模型随着问题难度的增加而使用更多的中间步骤，并探索不同的理由来解决问题。这是我们在 RLSP 中设计探索奖励信号的动机。在 RL 训练期间，大多数推理轨迹都无法得出正确的答案；然而，模型会因探索而获得少量奖励。但是，当它最终通过长推理轨迹找到正确的答案时，它会获得全部奖励。因此，RLSP 中的探索和响应长度奖励信号鼓励模型生成所有中间步骤 (CoT) 以得出解决方案，从而在 PPO 期间综合创建 CoT 轨迹以供学习。简而言之，RLSP 使模型能够通过自博弈生成新的 CoT 数据。 鉴于我们已知 CoT 能够提升大语言模型的推理能力，原则上，只要有足够多样的新问题需要解决，RLSP 就可以不断提高推理能力！

这些讨论也应该让读者直观地理解，为什么在推理轨迹演示上进行监督微调 (SFT) 只能在强化学习 (RL) 训练期间帮助模型，并且实际上可以被视为由人类或其他技术（例如树搜索）的某种搜索过程创建的。因此，在推理轨迹上的 SFT 和 RL 应该被视为协同工作，以在大型语言模型 (LLM) 中灌输搜索行为。然而，在极限情况下，具有探索和结果奖励信号的 RL 训练使模型能够通过创建合成的思维链 (CoT) 轨迹来不断自我改进。最后，我们注意到使用 RLSP 训练的模型的许多涌现行为为该理论提供了一些验证。例如，在图3 中，模型在验证所有这些都导致相同答案之前，搜索多个理由（并且在每个理由中都进行思维链）。

RLSP框架的细节

在本节中，我们将详细描述我们用于训练最佳推理模型的完整RLSP框架。下一节我们进行了消融研究，以了解RLSP的各个步骤如何改变模型的思考行为，并展示了为何这三个步骤可能是增强大语言模型搜索行为的最佳途径。然而，如果在强化学习阶段进行适当的奖励工程，监督微调（SFT）步骤可能是可选的。 RLSP是一种用于大语言模型的后训练框架，其精神与RLHF类似。RLHF鼓励模型遵循指令并学习人类偏好，而RLSP则鼓励模型在响应中进行推理。我们在图5中给出了模型训练的元层次结构，该结构展示了这些框架如何促进语言模型中不同能力的提升，以及未来的框架可能实现哪些新兴能力。我们的框架包含以下步骤。

基础模型的 SFT

在 RLSP 框架的第一步中，我们使用交叉熵损失执行监督微调。高质量的 SFT 数据集应包含思考过程的演示，该过程融合了典型的推理原则，例如回溯、放弃推理链、自我验证等。我们注意到，SFT 数据集不需要在所有可能的推理轨迹方面都是详尽的；简而言之，这一步可以被认为是学习教科书中的章节或参加关于特定主题的讲座，然后再要求学生解决家庭作业问题。事实上，这一步甚至不是必需的，但有助于（RL）训练模型，使其表现出更好的搜索行为，我们将在后面的章节中看到。

SFT 数据集可以通过多种方法构建：1) 人工演示。2) MCTS 或其他树搜索技术的深度优先搜索 (DFS) 遍历 3) 通过 AI 智能体工作流或使用已经训练好的思考模型来合成数据。虽然通过这些步骤中的每一步产生的数据质量可能会有所不同，但通过适当的整理，人们可以希望产生高质量的演示数据。对这些技术的相对有效性进行广泛研究超出了本文的范围，我们将其作为一个开放问题。在我们的实验中，我们使用公开可用的推理轨迹 QwQ-LongCoT 的过滤版本创建了一个 SFT 数据集。

奖励函数

$$ \begin{aligned} \mathcal{R}(q,o) = \alpha \cdot {1}\left[\mathrm{Ver}(q,o) =\mathrm{True}\right] + (1-\alpha) \cdot \mathcal{R}_{\mathrm{ex}}(q,o). \end{aligned} $$

与以往大多数基于过程奖励建模 (PRM) 的方法不同，我们工作的核心在于提供一种独立于输出正确性的奖励信号，从而鼓励推理过程呈现出理想的属性。这与强化学习 (RL) 中的辅助奖励概念相关，建议读者参考相关文献。与 PRM 不同，探索奖励并非直接衡量策略模型在达成结果方面的进展，而是衡量推理轨迹的元属性，这些元属性能够提高成功概率。因此，我们奖励的是推理过程本身，而非基于过程的奖励建模 (PRM)。此外，在强化学习训练的初期，当结果验证器的奖励信号非常稀疏时，探索奖励能够作为一种密集的信号，引导模型生成更长、更优的推理轨迹。

为了防止探索奖励信号的奖励黑客行为，我们仔细平衡了结果验证器的正确性信号和探索奖励。在实践中，$\alpha$ 是一个需要调整并随时间衰减的超参数，但为了简单起见，我们在实验中将其设置为 0.8；也就是说，大部分奖励信号纯粹来自结果验证器，这使得学习过程更具挑战性，但能够实现更好的泛化。在我们的实验中，我们不训练探索奖励模型；相反，我们尝试了两种简单的方法来分配这种探索奖励：

基于响应的长度。 也就是说，$\mathcal{R}_{\mathrm{ex}}(q,o)=-\frac{C}{|o|}$，其中 $|o|$ 是响应中的 Token 数量，而 $C>0$ 是某个常数。因此，更长的响应，即明确输出所有为得出解决方案而采取的中间步骤的响应，会获得更高的奖励。这是基于这样一种直觉：对于难题，推理工作量与模型响应的长度相关，这已被的工作精确化。在讨论 PPO 训练期间，我们将看到明确添加此奖励的另一个动机。同样重要的是，这是一个简单且客观的奖励，易于实施。正如我们之前看到的，即使使用这种简单的探索奖励，模型在 PPO 训练后也会表现出几种涌现行为。然而，在许多情况下，这种探索奖励信号是不够的，因为模型学会通过重复响应来破解奖励信号，因此需要更细致的奖励信号。
通过使用大语言模型作为裁判，基于独立的大语言模型判断的创造力、推理努力和其他优点来对 $(q,o)$ 进行评分（同时忽略回答的正确性）。在我们的论文中，我们使用 GPT-4o 模型作为裁判，我们注意到，我们使用 GPT-4o 模型作为裁判，因为我们的基础模型相对较小；但是，如果基础模型是一个前沿模型，那么策略模型和裁判模型可以是同一个模型。可以使用宪法式 AI 方法，使用强化学习来训练探索奖励模型，该模型可以更容易地适应新的推理领域。在这里，可以为特定领域制定一个关于什么构成新颖或创造性推理过程的宪法，并引导模型朝着这些期望的行为发展。我们将其作为一个有趣的未来研究方向。

使用 PPO 进行 RL 训练

$$ L^{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min\left(\rho_t(\theta) \hat{A}_t, \text{clip}(\rho_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t\right) \right] $$$$r_t = \mathcal{R}(q, o)\cdot {1}(o_t=\mathrm{EOS}) - \beta \log\left(\frac{\pi_{\theta_{\mathrm{old}}}(o_t|q,o_{由于每一步的 KL 散度都是非负的，因此 KL 惩罚项会导致较长的回复获得较低的奖励，这可能会阻止模型学习生成较长的推理回复。探索奖励通过奖励较长的回复来弥补这一点。 在我们的实验中，添加基于长度的简单探索奖励始终会导致更长的回复，并在模型中产生详细的 CoT 和更好的推理行为。但是如果没有探索奖励，它在某些设置下有效，而在其他设置下则无效。

纯粹的强化学习能否引导思考行为？

从 RLSP 框架中产生的一个直接问题是：SFT 和探索奖励信号是必要的吗？或者大语言模型能否通过纯粹的 PPO 训练，直接学习基于验证器的二元输出来进行搜索？回想一下，公式3在理论层面上对此问题有所阐述。为了通过实验回答这些问题，我们对 Llama 和 Qwen 模型进行以下实验。在这些实验中，我们使用响应长度作为衡量搜索行为的客观指标。在本节中，我们不关注准确性。

Llama 模型

我们从 Llama-3.1-8B-Instruct 作为基础模型开始，不对其进行 SFT。我们进行以下操作：a) 在 MATH 的训练数据集上进行 PPO 训练，不使用任何形式的探索奖励；即在公式 Eq. 2 中，$\alpha = 1$。b) 在 MATH 的训练数据集上进行 PPO 训练，创造力奖励与长度成正比：$R_{cr}(q,o) \propto-\frac{1}{|o|}$。我们的发现见图6.

我们的结果表明，在 Llama-3.1-8B-Instruct 模型上，仅使用结果奖励的纯强化学习并不会导致搜索行为。这也反映在模型生成的解决方案中，这些解决方案没有显示出涌现的搜索行为，请参见图3。另一方面，即使我们给出与响应长度成比例的微弱探索奖励信号，该模型也表现出几种有趣的搜索行为；请参见图1，2，3 我们想要强调的是，在这种情况下，响应长度的增加是预期的，但令人惊讶的是出现了新的搜索行为，例如回溯和验证，而模型在标准 CoT (Chain-of-Thought) 中似乎并没有执行这些行为。

Qwen 模型

我们还使用 Qwen2.5-7B-Instruct 模型在数学领域进行了类似的实验。结果显示在图7中。

有趣的是，我们观察到 Qwen2.5-7B-Instruct 模型在使用纯粹的强化学习 (RL) 训练（仅使用结果奖励）时，确实表现出响应长度的增加。因此，基础模型和用于训练它们的预训练数据可能对涌现行为产生重大影响。接下来，我们想知道这种行为是否仅限于数学领域，或者 Qwen2.5-7B-Instruct 模型是否也会在其他推理领域（例如编码）中表现出这种行为。我们在编码领域的实验结果显示在图8中。

我们注意到，与数学领域不同，在编码领域，Qwen2.5-7B-Instruct 模型在使用纯粹的强化学习训练（仅使用结果奖励）时，并不会产生搜索行为。 另一方面，正如预期的那样，将响应长度纳入奖励机制会导致搜索行为的增加。因此，这些消融研究表明，某种形式的显式奖励，以鼓励思考过程，可能是在大语言模型中启用搜索行为的更有效和更具扩展性的方法。

RLSP 的实证评估

在确定即使使用简单的探索奖励信号进行 RL 训练也能导致涌现的搜索行为之后，在本节中，我们将评估完整的 RLSP 训练对数学领域内模型性能的影响。本节的主要目标是确定搜索行为能够提高解决问题的能力。我们的实验侧重于两种不同模型类型，它们具有不同的大小：一个 8B 参数模型和一个更大的 32B 参数模型。每个模型都在与其大小相对应的定制数据集上进行训练和评估，从而能够全面分析 RLSP 在不同模型规模上的有效性。结果将在两个小节中介绍，每个小节专门针对特定的模型和数据集配置。

我们注意到，我们的目标不是比较模型在这些基准测试上的当前最佳（SOTA）性能，而是 RLSP 带来的相对改进。因此，在我们所有的实验中，我们比较了使用各种策略训练的相同模型的性能。我们没有优化提示词以及可能影响模型性能的各种其他因素，无论是在基础模型中还是在 RLSP 训练中。我们所有的实验都是在一个拥有 6 个节点（48 个 H100 GPU）的集群上进行的，尽管我们的大多数实验都使用了 24 个 H100 GPU。尽管仅以数千个训练样本和迭代的小规模进行，但我们的实证评估提供了强有力的证据，表明 RLSP 在规模扩大时可以产生显着收益。

设置

对于本实验，我们使用 Llama-3.1-8B-Instruct 作为我们的基础模型。虽然使用探索奖励信号的纯强化学习鼓励思考行为，但由于模型规模适中且能力有限，整体性能仍然不够理想。因此，我们对一个数学特定数据集进行了额外的 SFT（监督式微调），该数据集包含来自 QwQ-32B-preview 模型的长链式思考 (CoT) 推理轨迹。为了确保评估的完整性，我们对数据集进行了去污处理，以消除与各种测试数据集的任何重叠。在强化学习阶段，SFT 模型在 MATH 数据集的训练集上使用 PPO 进行训练，仅利用（问题，答案）对。SFT 模型已经正确解决的训练集中的问题将被排除。

对于 RLSP 训练，我们使用带有 GPT-4o 模型的结构化提示词来生成探索奖励分数。对于评估，我们测量模型在 MATH 数据集的 500 个测试分割（也称为 MATH-500）上的准确率。

评估结果

我们现在分析这些发现并强调关键观察结果。首先，SFT 训练在基础模型的性能方面产生了显著提升。这一结果强调了高质量监督演示在增强模型推理能力方面的重要性，特别是对于小型模型。此外，使用我们的探索奖励进行的 PPO 训练使性能进一步提高了 3%。虽然这种提升不如通过 SFT 实现的那么明显，但这是预期的，因为 SFT 已经做出了重大改进，从而限制了通过 RL 在数据集 MATH-500 上获得额外收益的空间。即长的 CoT SFT 数据集本身可以被认为是通过搜索程序构建的，因为它包括对理由的轨迹。因此，我们得出结论，即使对于小型模型，包含搜索行为的长 CoT 轨迹也可以提高推理能力。

设置

在这个设置中，我们使用 Qwen2.5-32B-Instruct 作为基础模型。鉴于其更大的规模和增强的功能，我们省略了监督微调 (SFT) 阶段，并专注于通过 RLSP 框架内的强化学习 (RL) 训练直接提高性能。

在强化学习 (RL) 阶段，基础模型使用 PPO 在 1983 年至 2003 年的 AIME 918 道问题上进行训练。我们过渡到 AIME 数据集，因为该模型在 MATH 数据集上已经表现出色，接近饱和。因此，我们专注于更具挑战性的设置，以进一步评估和提高其能力。

对于评估，我们评估模型在 2024 年的 AIME 问题以及 MATH 数据集的 500 个测试集 (MATH-500) 上的准确性。

评估结果

我们强调，即使使用非常小规模的具有挑战性的数学问题作为训练数据，我们的 RL 训练方法也能产生显著的性能提升。同样值得注意的是，虽然在 AIME 2024 上取得了显著的性能提升，但我们甚至在 MATH-500 上也观察到了额外的收益，而基础模型已经展示了卓越的性能。

RLSP 与自洽性的 Token 效率

RLSP 框架背后的一个关键直觉是激励模型在推理过程中学习和应用搜索行为。我们通过以下问题来评估 RLSP 训练模型的 Token 效率：对于相似的计算预算，经过 RLSP 训练的模型与使用标准 CoT（思维链）和多数投票的模型相比，能够达到什么样的准确率？我们将在下面讨论结果。表3展示了不同模型在 MATH-500 和 AIME 2024 数据集上的自洽性表现，它们利用了平均 8192 个 Token 的预算。具体来说，Llama-3.1-8B-Instruct 在 MATH-500 数据集中平均为每个测试问题生成 16 个样本，而 Qwen2.5-32B-Instruct 在 AIME 2024 数据集中平均为每个测试问题生成 8 个样本。Llama-3.1-8B-Instruct 在 MATH-500 上的自洽性准确率为 61.8%，而 Qwen2.5-32B-Instruct 在 AIME24 上的自洽性准确率为 20%。我们注意到，这些结果低于我们的最佳表现，最佳表现分别达到了 73.4%和 23.3%。因此，我们的研究表明，与多数投票或其他独立抽样策略相比，RLSP 框架能够实现更好的搜索和推理能力。

摘要#

介绍#

RLSP 框架#

实证性能分析：RLSP 搜索能够提升大语言模型的推理能力。#

涌现属性和行为分析#

备注 1#

备注 2#

备注 3#

RLSP 理论#

RLSP框架的细节#

基础模型的 SFT#

奖励函数#

使用 PPO 进行 RL 训练#

纯粹的强化学习能否引导思考行为？#

Llama 模型#

Qwen 模型#

RLSP 的实证评估#

设置#

评估结果#

设置#

评估结果#

RLSP 与自洽性的 Token 效率#

摘要

介绍

RLSP 框架

实证性能分析：RLSP 搜索能够提升大语言模型的推理能力。

涌现属性和行为分析

备注 1

备注 2

备注 3

RLSP 理论

RLSP框架的细节

基础模型的 SFT

奖励函数

使用 PPO 进行 RL 训练

纯粹的强化学习能否引导思考行为？

Llama 模型

Qwen 模型

RLSP 的实证评估

设置

评估结果

设置

评估结果

RLSP 与自洽性的 Token 效率