蒸馏 | 一只小茄墩

摘要大语言模型 (LLM) 在复杂的推理任务中表现出色，将它们的推理能力提炼到较小的模型中也展现了潜力。然而，我们发现了一个有趣的现象，称之为“小模型可学习性差距”：参数量较小的模型（$\leq$3B 参数）并不能始终从长链式思考 (CoT) 推理或从更大模型的蒸馏中获益。相反，当在更短、更简单的推理链上进行微调时，这些小模型表现更好，因为这些推理链更符合它们固有的学习能力。为了解决这个问题，我们提出了混合蒸馏 (Mix Distillation)，这是一种简单而有效的策略，通过结合长短 CoT 示例，或者结合来自较大和较小模型的推理，来平衡推理的复杂性。实验表明，与单独使用任何一种数据进行训练相比，混合蒸馏显著提高了小模型的推理性能。这些发现突显了直接从强大模型进行蒸馏的局限性，并强调了调整推理复杂性对于有效传递推理能力的重要性。介绍大语言模型（LLM）的高计算成本阻碍了它们在资源受限设备上的部署，因此，开发以更低成本提供类似能力的小型模型变得迫切。一种广泛采用的策略是知识蒸馏，即利用强大的教师模型生成的思维链（CoT）序列来微调较弱的学生模型。人们自然会认为，从更强大的模型中蒸馏思维链序列能够持续提升小型模型复杂的推理能力。然而，我们发现了一个有趣的现象，我们称之为“小型模型可学习性差距”（如图1所示）：小型模型并不能始终从强大的教师模型提供的复杂推理序列中获益，例如，较长的思维链推理或从大型模型进行的知识蒸馏。在我们的实验中，我们观察到，当小型模型接触到冗长且复杂的推理过程时，由于自身能力的限制，它们难以理解并内化多步骤的逻辑。相反，当小型模型在更短、更简单的推理链上进行微调时，它们表现更好，因为这些推理链与它们固有的学习能力更加匹配。这表明，小型模型难以处理过于复杂的推理过程，或者适应由更强大的教师模型引入的分布偏移，最终限制了它们有效泛化的能力。为了解决上述挑战，我们提出了混合蒸馏（Mix Distillation），这是一种简单而有效的方法，它通过混合不同类型的推理轨迹来平衡推理的复杂性。具体来说，我们的方法包括两种配置：（1）混合-长（Mix-Long）——长思维链（CoT）示例和短思维链示例的组合，确保小型模型能够接触到详细和简洁的推理步骤。（2）混合-大（Mix-Large)——来自较大模型和较小模型的响应的混合，允许小型模型从更适合其能力的推理链中学习。我们的实验表明，与标准蒸馏相比，混合蒸馏能够持续提高小型模型的推理性能。例如，与直接在长思维链数据上训练相比，Qwen2.5-3B-Instruct使用Mix-Long在MATH和AMC上提高了8个点以上。与在大型教师思维链数据上训练相比，Qwen2.5-3B-Instruct使用Mix-Large在MATH、AIME和AMC上获得了超过7个点的提升。这些发现突出了直接进行强模型蒸馏的一个根本局限性，并强调了调整推理复杂性对于有效知识转移的重要性。通过仔细设计蒸馏策略，我们为克服小型模型学习的约束提供了新的见解，使其在推理密集型任务中更加有效。符号设 $x = (x_1, x_2, \dots, x_n)$ 表示一个输入序列（例如，一个提示词），$y = (y_1, y_2, \dots, y_m)$ 是相应的输出序列。我们考虑一个由 $\theta$ 参数化的大语言模型 (LLM)，它预测下一个 Token，遵循条件分布 $\pi_\theta \bigl(y_t|x, y_{1:t-1}\bigr)$。我们用 $\text{CoT}(y) \subseteq y$ 表示生成输出中编码思维链的 Token 子集，通常用作推理轨迹或解释性序列。在本文中，我们使用术语短 CoT 来描述得出解决方案的简洁的思维链，并使用长 CoT 来描述不仅更长而且展现出更复杂反思性思考的更长的思维链。此外，我们使用术语大型教师 CoT 来指代由更大的教师模型生成的推理轨迹，并使用术语小型教师 CoT 来指代由较小的教师模型产生的推理步骤。监督式微调 (SFT) 监督式微调 (SFT) 被广泛采用，以增强大语言模型在数据集 $\mathcal{D} = \{(x^i, y^i)\}_{i=1}^N$ 上的推理能力，其中 $y^i$ 可以是短 CoT、长 CoT、强模型 CoT 或弱模型 CoT 序列。SFT 过程通过最小化指令数据集 $\mathcal{D}$ 上的负对数似然损失来更新语言模型的参数 $\theta$。 ...