《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》

摘要

我们介绍 Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展示了在 STEM 和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。例如,在非推理任务上,它在胜率方面超过 DeepSeek R1 8%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型 (MoE),规模相对较小,具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME 和 Codeforces,这两个基准测试都将公开发布以支持未来的研究。

image-20250411084348010

1 引言

在这项工作中,我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。

数学推理: 在数学竞赛方面,Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分,与 o3-mini-high 的表现持平,并显著优于 o1 和 DeepSeek R1,展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。

竞赛编程: 对于竞赛编程的评估,我们采用 Codeforces 作为我们的基准。与一些依赖 Elo 分数的先前工作不同(Elo 分数包含估计成分,且无法直接比较),我们采用基于最近 12 场 Codeforces 比赛的具体评估协议。具体来说,我们报告 pass@1 和 pass@@ 指标,其中 pass@k 表示模型是否在 k 次尝试内解决问题,即从 e 次生成的提交中选择最佳结果。我们选择报告 pass@@,因为它能提供更稳定的结果,并且更贴近实际用户的提交模式。Seed-Thinking-v1.5 在这两个指标上均优于 DeepSeek R1,尽管与 o3 相比仍存在性能差距。该评估集将在未来的版本中公开发布。

科学: Seed-Thinking-v1.5 在 GPQA 基准测试中获得了 77.3 分,接近 o3 级别的性能。重要的是,这一性能提升主要归因于通过数学训练改进了泛化能力,而非增加了特定领域的科学数据。

非推理任务: 对于非推理任务,Seed-Thinking-v1.5 使用一个旨在模拟真实世界用户需求的测试集进行评估。通过在多样化场景下与 DeepSeek R1 进行的人工评估,Seed-Thinking-v1.5 展示了显著的进步:其用户正面反馈整体提升了 80.6%,这突显了它在处理复杂用户场景方面能力的增强。

开发高质量推理模型有三个关键点:训练数据、RL 算法和 RL 基础设施。我们已在这些方面投入了大量精力,并将对其进行详细讨论。

数据 对于 SFT 训练,与传统的后训练数据不同,推理模型依赖于思维链(chain-of-thought)数据,这种数据明确地勾勒出分步推理过程。我们的初步实验表明,过多的非 CoT SFT 数据会显著降低模型的探索能力。对于 RL 训练,我们整合了四类数据:STEM 问题、代码相关任务、逻辑推理以及诸如创意写作和对话之类的非推理数据。在这些数据中,逻辑推理数据对 ARC-AGI 基准测试的性能提升贡献显著。数学数据展现出强大的泛化能力,并能在各种任务中带来广泛的性能提升。

RL 算法 推理模型的 RL 训练高度不稳定且经常崩溃,特别是对于未经 SFT 的模型。有时,两次运行之间的得分差异可高达 10 分。RL 系统的稳定训练对于推理模型的成功至关重要。为解决这些长期存在的问题,我们开创了 VAPO [5] 和 DAPO [6]——这分别是为基于价值和无价值 RL 范式量身定制的两个不同框架。VAPO 目前是基于价值方法中的最先进 (SOTA) 解决方案,而 DAPO 则为无价值方法确立了新的 SOTA 结果。通过针对 RL 训练中的核心不稳定问题,这两种方法均提供了鲁棒且一致的训练轨迹,从而有效地实现了推理模型的可靠优化。

强化学习基础设施 基于大语言模型(LLM)的强化学习系统的复杂性要求强大的基础设施来确保可扩展性、可复现性和计算效率。为了处理异构工作负载,我们解耦了流式 rollout 架构,该架构通过优先样本池异步处理部分轨迹生成,实现了比同步框架快 3 倍的迭代周期。该系统还支持混合精度训练和自动故障恢复,这对于在大型强化学习运行期间保持稳定性至关重要。

2 数据

2.1 RL 训练数据

我们的 RL 训练数据包含两个主要部分:具有确定答案的可验证问题和没有确定答案的不可验证问题。模型的推理能力主要来自第一部分,并且可以泛化到第二部分。

2.1.1 可验证问题

可验证问题主要包括配有答案的 STEM 问题、配备单元测试的编码问题以及适合自动验证的逻辑推理。

STEM 学科数据

我们的数据集包含数十万个高质量、竞赛级别的 STEM 学科问题,涵盖数学、物理和化学,其中数学占绝大多数(超过 80%)。这些问题来源于开源数据集、公共存储库(国内和国际)以及专有集合的混合。

对于数据清理,我们首先剔除陈述不完整、符号不一致或要求不明确的问题。对于剩余的问题,我们使用我们的模型(Doubao-Pro 1.5)生成多个回答。模型获得 woN 分数(N 个中最差)为 1 的问题被认为过于简单而被移除。最后,一些问题可能有不准确的参考答案。我们使用最先进的推理模型为每个问题生成多个候选回答。如果模型的答案与参考答案不一致,但模型的输出显示出高度的内部一致性,或者只涉及非常少量的推理 Token,我们认为参考答案不正确。然后,人类专家对这些问题进行手动验证,以确保参考答案是正确的。我们还应用数据增强,使数据更适合学习和评估。具体来说,我们将多项选择题转换为填空题或简答题格式,以消除猜测的可能性,并更好地评估推理能力。我们还修改了某些数学问题,以确保答案尽可能为整数。

经过数据清理和增强后,我们最终获得了 10 万个 STEM 学科问题的训练集。在训练过程中,我们使用基于模型的 Seed-Verifier 来评估回答的正确性,这在 3.1 节中介绍。

代码数据

对于编码问题,我们优先选用高质量且富有挑战性的算法任务来源,主要源自备受推崇的竞技编程比赛。

我们筛选数据以确保每个问题都包含全面的规范说明:清晰的问题描述、一组单元测试以及一个检查脚本。单元测试用于验证解决方案的功能正确性,而检查脚本则强制施加额外的约束,例如输出格式和边缘情况的处理。我们还进行难度筛选,确保问题具有适当的复杂程度以及对现实世界算法推理的适用性。

对于评估,最准确的方式是将生成的代码提交至官方平台。然而,在强化学习期间,实时提交并不可行。因此,我们开发了一套离线评估集,用于进行高效的本地验证。我们的观察表明,离线评估结果与官方指标之间存在强相关性。所有训练和评估问题均集成到内部自研的代码沙盒环境中,以便能够直接执行和评估模型生成的代码。我们确保沙盒环境的稳定性和高吞吐量,从而在强化学习训练过程中提供持续且准确的反馈。

逻辑谜题数据

对于逻辑推理数据,我们收集了 22 个常被研究的任务,例如 24 点、迷宫、数独等。对于每个任务,我们构建了一个数据生成器和一个答案验证器。数据生成器可以自动产生大量的训练和评估数据。此外,对于许多任务,我们可以配置所生成问题的难度。在训练过程中,我们根据模型在特定任务上的表现,逐步调整训练数据的难度。答案验证器严格评估生成结果的正确性,并且可以无缝集成到 RL 管道中作为奖励函数。我们生成了大约 1 万个逻辑谜题用于 RL 训练。

2.1.2 不可验证问题

不可验证问题主要涵盖需要基于人类偏好进行质量评估的非推理任务,涉及创意写作、翻译、知识问答、角色扮演等。这些提示词源自 Doubao-1.5 Pro 的强化学习(RL)训练数据。该数据集在不同领域具有足够的覆盖范围。

我们丢弃了样本方差低和难度低的数据。具体来说,我们使用 SFT 模型为每个提示词生成多个候选答案,然后使用奖励模型对其进行评分。得分方差低的提示词因其采样多样性有限且改进潜力极小而被移除。在 Doubao 1.5 Pro 强化学习训练过程中,奖励得分提升超过特定阈值的提示词也被移除。这是因为此类数据可能过于简单,或已在数据集中充分存在。离线实验表明,过度优化此类样本会导致模型探索空间的过早崩溃并降低性能。

对于这些不可验证的数据,我们采用成对奖励方法进行评分和强化学习训练。通过比较两个样本的相对质量,该方法有助于模型更好地理解用户偏好,从而提升生成结果的质量和多样性。关于奖励模型的详细信息将在 3.2 节介绍。

2.2 高级数学基准

当前的推理模型通常使用 AIME 作为评估数学推理能力的首选基准。然而,由于每年仅发布 30 道题,其有限的规模可能导致评估结果出现高方差,这给有效区分最先进的推理模型带来了挑战。为了更好地评估模型在数学推理方面的能力,我们构建了一个新的基准数据集:BeyondAIME。具体而言,我们与数学专家合作,借鉴既定的竞赛形式来开发原创题目。我们通过结构性修改和情景重构,系统地改编现有的竞赛试题,确保不出现直接重复。此外,我们确保答案绝非平凡值(例如题目描述中明确提及的数字),以降低模型未经恰当推理便猜中正确答案的几率。

通过这一严格的筛选与整理过程,我们最终汇编成一套包含 100 道题目的测试集,每道题的难度级别等于或高于 AIME 中最难题目的难度。与 AIME 类似,所有答案保证为整数(且不受特定数值范围的限制),这简化并稳定了评估过程。

3 奖励建模

作为强化学习(RL)中的一个关键组成部分,奖励建模定义了策略(policy)试图实现的目标或目的。因此,一个精心设计的奖励机制对于提供精确且可靠的奖励信号至关重要。

image-20250411084739734

3.1 可验证问题的奖励建模

基于恰当的原则和思维轨迹,我们利用大语言模型来判断各种场景下广泛的可验证问题。这种方法产生了一种更通用的解决方案,超越了基于规则的奖励系统的局限性。我们设计了两种渐进式的奖励建模解决方案:Seed-Verifier 和 Seed-Thinking-Verifier:

  • Seed-Verifier 基于一套由人类精心制定的原则。它利用大语言模型强大的基础能力来评估一个包含问题、参考答案和模型生成答案的三元组。如果参考答案和模型生成的答案在本质上等价,它返回“是”;否则,返回“否”。这里的等价并非字面上的完全匹配,而是一种基于计算规则和数学原则的更深层次评估,用以证明两个答案是否传达了相同的数学意义。这种方法确保奖励信号能准确反映模型的回答在本质上是否正确,即使推理过程有所不同。
  • Seed-Thinking-Verifier 的灵感来源于人类的判断过程,即通过细致思考和深入分析得出结论性判断。为实现这一点,我们训练了一个能为其评估提供详细推理路径的验证器。具体来说,我们将其视为一个可验证任务,并与其他数学推理任务一同进行优化。该验证器能够剖析参考答案与模型生成答案之间的异同,提供精确且细致入微的判断结果。

Seed-Thinking-Verifier 显著缓解了与 Seed-Verifier 相关的三个主要问题:

  • 奖励投机 (Reward Hacking): 缺乏思考过程的模型可能会利用漏洞在未真正理解问题的情况下获得奖励。Seed-Thinking-Verifier 中的详细推理过程使得此类投机行为更加困难。
  • 预测中的不确定性: 在参考答案和模型生成的答案本质上等价,但格式可能不同的情况下(例如 \(2^{19}\) 与 524288),Seed-Verifier 有时可能返回“是”,有时则返回“否”。Seed-Thinking-Verifier 通过彻底分析答案背后的推理过程来提供一致的结果。
  • 处理边界情况的失败: Seed-Verifier 在有效处理某些特定情况时存在困难。Seed-Thinking-Verifier 提供详细推理的能力使其能够更好地应对这些复杂场景。

表 1 展示了上述两种验证器的性能。关于案例研究的更多细节,详见附录 A。结果表明,Seed-Verifier 在有效处理某些特定案例方面存在困难,而 Seed-Thinking-Verifier 则展现出提供准确判断的卓越能力。尽管后者的思考过程确实消耗大量 GPU 资源,但我们认为,其生成的精确且鲁棒的奖励结果对于赋予策略强大的推理能力至关重要。

3.2 不可验证问题的奖励建模

对于不可验证的问题,我们训练一个奖励模型用于 RL 训练。奖励模型的训练数据与豆包 1.5 Pro [7] 中使用的人类偏好数据一致,主要涵盖创意写作和摘要等类别。

为了提升奖励模型的有效性,我们采用了文献 [9] 中提到的配对生成式奖励模型(pairwise generative reward model)。该模型通过评估两个回复的优劣,并使用判定为“是”或“否”的概率作为最终的奖励分数。这种方法使得模型在评分时能够直接比较不同回复之间的差异,从而避免了对不相关细节的过度关注。实验结果表明,这种建模方法提高了 RL 训练的稳定性,尤其是在同时包含不可验证和可验证问题的混合训练场景中,它最小化了两种不同类型奖励建模范式之间的冲突。这种改进可能归因于配对生成式奖励模型相较于传统奖励模型,在缓解异常分数生成方面具有内在优势,因此避免了其分数分布与验证器(verifier)分数分布之间出现显著差异。

4 方法

4.1 监督式微调

我们的训练过程从监督式微调 (SFT) 开始。SFT 阶段为后续的强化学习阶段奠定了坚实的基础。与从基础模型启动 RL 相比,SFT 模型产生的输出可读性更高,出现幻觉的情况更少,并且有害性也降低了。我们整理了一份包含 40 万个训练实例的 SFT 数据,其中包括 30 万个可验证问题和 10 万个不可验证问题。可验证的提示词是从 RL 训练集中随机抽样的。不可验证的数据来源于用于 Doubao-Pro 1.5 [7] 的 SFT 数据,涵盖创意写作、基于知识的问答、安全性和函数调用等领域。 为了生成具有长 CoT 的高质量响应,我们采用了一个集成了模型合成、人工标注和拒绝采样的迭代工作流。最初,人类专家应用提示词工程技术或与内部模型进行交互式对话,以生成具有各种推理模式的响应。在积累了数十个高质量的冷启动样本后,我们可以训练一个具有长 CoT 的推理模型,作为能力更强的助手。然后,我们使用 Seed-Verifier 对这个推理模型执行拒绝采样。虽然这个工作流主要应用于数学数据,但我们观察到它可以很好地泛化到其他领域,例如编码、逻辑谜题甚至创意写作。因此,对于其他领域,我们也进行冷启动过程,然后进行拒绝采样,以产生详细的推理轨迹。

在训练期间,每个实例都被截断为 32,000 个 Token。我们使用上述数据对基础模型进行两轮次的微调。我们使用余弦衰减学习率调度,峰值学习率为 $2 \times 10^{-5}$,并逐渐衰减至 $2 \times 10^{-6}$。

4.2 强化学习

我们开发了一个统一的强化学习框架,该框架能够无缝融合来自广泛领域的数据。这种整合包含了三类数据:

  • 可验证数据:从验证器获取反馈。这类数据使得可以直接根据已知标准验证模型的输出。
  • 通用数据:由奖励模型评分。奖励模型根据模型的响应与人类偏好的契合程度进行评分。
  • 特定类别数据:结合了来自验证器和奖励模型的分数。这种混合数据类型结合了验证评估和奖励评估两者的优势。

在长 CoT RLHF 的背景下,我们遇到了若干挑战,例如价值模型偏差和奖励信号稀疏性。为应对这些问题,我们借鉴了先前工作 [5, 6, 10] 中的关键技术:

  • 价值预训练:我们从一个固定策略(如 πstart)中采样响应,并使用蒙特卡洛回报来更新价值模型。此过程确保了初始化的价值模型与我们的策略 πstart 完全对齐。实践证明,维持这种对齐对于保持模型的 CoT 模式至关重要,从而使模型能够生成连贯且逻辑性强的 CoT。
  • 解耦 GAE:通过采用不同的广义优势估计 (GAE) 参数(例如 $λ_{value} = 1.0$ 和 $λ_{policy} = 0.95$),我们允许价值模型以无偏的方式进行更新。同时,策略可以独立地平衡其自身的偏差与方差。这种解耦使得模型的训练更加高效和稳定。
  • 长度自适应 GAE:我们设定 $λ_{policy} = 1 − \frac{1}{ αl}$,其中 $α$ 是一个超参数,$l$ 是响应的长度。这种方法确保了时序差分 (TD) 误差在短序列和长序列上的分布更为均匀。因此,模型在训练期间能更有效地处理不同长度的序列。
  • Clip-Higher:在近端策略优化 (PPO) 算法中,我们将上、下裁剪边界按如下方式解耦: image-20250411085027243 通过增大 εhigh 的值,我们为低概率 Token 的增加创造了更多空间。这鼓励模型探索更广泛的可能响应,从而增强其发现新颖且有效解决方案的能力。
  • Token 级别损失:我们将策略损失定义在所有 Token 上,而不是整个响应上。这种方法解决了 Token 级别对最终损失贡献不均衡的问题,确保每个 Token 对训练过程的影响都被恰当地计入。
  • 正样本 LM 损失: 此损失函数旨在提升强化学习(RL)训练过程中正样本的利用效率。我们为正样本添加了一个带有系数 $μ$ 的语言模型损失:
$$ L(\theta) = L_{PPO}(\theta) + \mu * L_{NLL}(\theta) \tag{2} $$
  • 这个额外的损失项有助于模型更好地从正样本中学习,从而提高其整体性能。

当合并来自不同领域的数据并整合不同的评分机制时,我们面临着不同数据领域之间相互干扰的挑战。这种干扰可能源于难度水平的差异、奖励操纵(reward-hacking)的风险以及其他潜在因素。这些问题使得在模型的所有能力上实现统一且同步的提升变得极其困难。为了应对这种情况,我们引入了在线数据分布自适应。该方法将强化学习期间的静态提示词分布转换为一个更能适应模型训练需求的自适应分布。通过这样做,我们最大限度地减少了数据干扰的负面影响,并确保了不同能力之间更均衡的改进。其结果是,模型可以在更广泛的任务中更一致地提升其性能。

5 基础设施

5.1 框架

训练框架是使用 HybridFlow [11] 编程抽象构建的。整个训练工作负载运行在一个 Ray [12] 集群之上。数据加载器和 RL 算法在一个单进程 Ray Actor(单一控制器)中实现。模型训练和响应生成(rollout)在一个 Ray Worker Group 中实现。Ray Worker Group 公开了一组 API(例如,generate_response/train_batch 等),这些 API 通过 Worker Group 内部的 SPMD(单程序多数据)运行繁重的训练/生成工作负载。单一控制器调用 Ray Worker Group 公开的各种 API 来构建训练流程。HybridFlow 编程抽象使得能够快速进行 RL 算法思想的原型设计,而无需为复杂的分布式系统烦恼。

Seed-Thinking-v1.5 是通过混合引擎架构 [13] 训练的,其中所有模型都共置一处。这可以防止在训练和生成之间切换时 GPU 出现空闲时间。在长 CoT 生成期间,我们观察到由不同提示词之间响应长度的巨大差异引起的严重掉队(straggler)现象。这导致生成期间大量的 GPU 空闲时间。为了缓解长尾响应生成的掉队问题,我们提出了 SRS(流式 Rollout 系统)——一个资源感知的调度框架,它战略性地部署独立的流式计算单元,将系统约束从内存限制(memory-bound)转变为计算限制(compute-bound)。

5.2 Streaming Rollout System

SRS 架构引入了streaming rollout,将模型演进与运行时执行解耦,能够通过参数 α 动态调整同策略(on-policy)与异策略(off-policy)样本的比例:

  • 定义完成率(α ∈ [0, 1])为使用最新模型版本、通过同策略生成的样本所占的比例。
  • 将剩余的未完成部分(1 - α)分配给来自版本化模型快照的异策略 rollout,这些 rollout 通过在独立资源上对部分生成内容进行异步续写的方式无缝集成。

此外,我们还在环境交互阶段实现了动态精度调度,通过带有误差补偿范围缩放的训练后量化来部署 FP8 策略网络。为了解决 MoE 系统中的 Token 不平衡问题,我们实现了一个三层并行架构,该架构结合了用于层级计算的 TP(张量并行)、带有动态专家分配的 EP(专家并行)以及用于上下文分块的 SP(序列并行)。我们的核函数自动调优器会根据实时负载监控动态选择最优的 CUDA 核函数配置。

5.3 训练系统

为了大规模高效地训练 Seed-Thinking-v1.5 模型,我们设计了一个混合分布式训练框架,该框架集成了先进的并行策略、动态工作负载均衡和内存优化。下面我们详细介绍驱动该系统效率和可扩展性的核心技术创新。

  • 并行机制。 我们将 TP(张量并行)/EP(专家并行)/CP(上下文并行)与完全分片数据并行(FSDP)相结合来训练 Seed-Thinking-v1.5。具体来说,我们将 TP/CP 应用于注意力层,将 EP 应用于 MoE 层。
  • 序列长度均衡。 有效序列长度在 DP 秩之间可能不平衡,导致计算工作负载不均衡和训练效率低下。为了应对这一挑战,我们利用 KARP [14] 算法,该算法重新排列一个小批量(mini-batch)内的输入序列,使它们在微批次(micro-batches)之间保持平衡。
  • 内存优化。 我们采用逐层重计算 [15]、激活卸载和优化器卸载来支持训练更大的微批次,以掩盖 FSDP 引起的通信开销。
  • 自动并行。 为了实现最佳系统性能,我们开发了一个自动调优系统,称为 AutoTuner。具体来说,AutoTuner 采用基于配置文件的方案 [16] 对内存使用进行建模。然后,它估计各种配置的性能和内存使用情况,以获得最优配置。
  • 检查点。 我们采用 ByteCheckpoint [17] 来支持以最小的开销从不同的分布式配置恢复检查点。这使得用户能够弹性地训练任务,以提高集群效率。

评测基准

image-20250411085258862

6.1 自动评估结果

表 2 展示了涵盖数学、编程、科学和通用知识领域等各种任务的评估结果。对于数学基准测试任务,结果计算为 32 个模型响应的平均值,而 GPQA 任务结果则计算为 8 个响应的平均值。对于 Codeforces,我们同时报告了 avg@@ 和 pass@@,因为 pass@@ 更符合人类的提交习惯。所有其他任务的结果均计算为 1 个响应的平均值。

在数学推理方面,Seed-Thinking-v1.5 在 AIME 2024 基准测试中取得了顶级性能,得分 86.7,与 OpenAI 的 o3-mini 模型表现持平。然而,在更新的 AIME 2025 和更高级的 BeyondAIME 挑战中,Seed-Thinking-v1.5 仍不及 o3 级别的表现。对于 GPQA 任务,Seed-Thinking-v1.5 达到了 77.3% 的准确率,接近 o3-mini-high 的表现。在诸如 Codeforces 的代码生成场景中,Seed-Thinking-v1.5 的表现几乎匹敌 Gemini 2.5 Pro,但仍不及 o3-mini-high。值得注意的是,Seed-Thinking-v1.5 在 SimpleQA 上的结果不甚理想。需要强调的是,这个基准测试主要作为一个以记忆为导向的指标,其上的表现更多地与预训练模型的规模相关,而非真实的推理能力。

6.2 人工评估结果

为了评估模型在主观任务上的表现——鉴于自动化指标不足以捕捉细微的人类偏好——我们在一系列多样化的非推理场景中进行了人工评估。我们的评估旨在衡量质量的关键维度,例如连贯性、相关性、创造性以及对以人为本偏好的符合程度,由领域专家评估小组根据预定义的评分标准,对模型输出与 Deepseek R1 进行比较评分。我们使用一个 5 分制的序数等级,范围从 0(非常差)到 4(优秀),并在包含多轮的会话提示上评估两个模型。每个完整的会话… 标注了二元的胜/负结果,以捕捉整体用户体验,并且每轮分配一个 0-4 的单一分数。 Seed-Thinking-v1.5 在评估的会话中取得了 8.0% 的总体胜率,表明其在契合以人为本的偏好方面具有优越性。此外,这种胜率在各种场景中都是一致的,从创意写作到人文学科知识阐述。图 2 显示了每轮级别的分数分布。

image-20250411085322825

6.3 预训练模型的效果

拒绝采样。 拒绝采样(Rejection sampling)已被认为是提高模型性能的一种有价值的技术[2]。我们进行了一项消融研究,以检验使用拒绝微调(RFT)模型初始化强化学习(RL)是否会影响结果。我们的结果表明,使用 RFT 初始化的预训练模型在训练期间饱和得更快,但最终性能低于未使用 RFT 训练的模型,如表 3 所示。

不同模型大小下算法排名的一致性。 我们观察到,强化学习(RL)算法在不同大小和架构的模型中表现出一致的排名行为。如表 4 所示,Seed-150B-MoE 模型在架构(MoE vs. 密集)和大小上都与 Qwen-32B 不同,但表现出一致的排名。值得注意的是,这种一致性表明 Qwen-32B 可以有效地作为研究强化学习算法的代理模型。

image-20250411085338724

7 相关工作

测试时扩展 [4, 18–20],例如 OpenAI 的 o1 [1] 和 DeepSeek 的 R1 [2],已经在大语言模型(LLMs)[21, 22] 中催化了一场深刻的范式转变。通过实现扩展的 CoT 推理 [23] 并引发出复杂的推理能力,这些方法使得大语言模型能够在复杂的数学和编码任务中表现出色,包括那些来自 AIME 和 Codeforces 等竞赛的任务。这场转变的核心是大规模强化学习,它促进了复杂推理行为——例如自我验证和迭代改进——的涌现。然而,支撑可扩展强化学习训练的关键方法论和算法在很大程度上仍然模糊不清,常常在现有推理模型 [1, 2, 21–23] 的技术文档中被省略。

8 结论

在本文中,我们介绍了一个达到 SOTA 水平的模型 Seed-Thinking-v1.5,并从数据、强化学习(RL)算法和强化学习(RL)基础设施这三个方面,详细说明了其实现卓越性能的方法。 我们推出的 Seed-Thinking-v1.5 是一款卓越的推理模型,在推理任务和非推理任务上均表现出色。该模型利用先进的强化学习(RL)技术,稳定且可靠地提升了思维能力,在 AIME24 测试中取得了 86.7% 的准确率,在 AIME25 测试中取得了 74.0% 的准确率,在 Codeforces 竞赛中取得了 55.0% 的成绩。展望未来,我们计划研究更高效的强化学习(RL)方案,并利用思维模式探索更具挑战性的任务,以进一步拓展模型智能的边界。此外,开发与验证器精度相当的通用奖励模型,也将是一个极具吸引力的研究方向。