字节Seed:Seed-Thinking-v1.5,超过R1
《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》 摘要 我们介绍 Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展示了在 STEM 和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。例如,在非推理任务上,它在胜率方面超过 DeepSeek R1 8%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型 (MoE),规模相对较小,具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME 和 Codeforces,这两个基准测试都将公开发布以支持未来的研究。 1 引言 在这项工作中,我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。 数学推理: 在数学竞赛方面,Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分,与 o3-mini-high 的表现持平,并显著优于 o1 和 DeepSeek R1,展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...