Seed | 一只小茄墩

《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》摘要我们介绍 Seed-Thinking-v1.5，它能够在响应前通过思考进行推理，从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分，在 Codeforces 上达到 55.0 分，在 GPQA 上达到 77.3 分，展示了在 STEM 和编码方面出色的推理能力。除了推理任务，该方法在不同领域也表现出显著的泛化能力。例如，在非推理任务上，它在胜率方面超过 DeepSeek R1 8%，表明其更广泛的适用性。与其他最先进的推理模型相比，Seed-Thinking-v1.5 是一个专家混合模型 (MoE)，规模相对较小，具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分，我们开发了两个内部基准测试：BeyondAIME 和 Codeforces，这两个基准测试都将公开发布以支持未来的研究。 1 引言在这项工作中，我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。数学推理: 在数学竞赛方面，Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分，与 o3-mini-high 的表现持平，并显著优于 o1 和 DeepSeek R1，展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度，我们构建了一个更具挑战性的评估集，名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计，旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1，但与 o3 和 Gemini pro 2.5 相比，仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...