image-20250220232709261

摘要


大语言模型 (LLM) 在复杂的推理任务中表现出色,将它们的推理能力提炼到较小的模型中也展现了潜力。然而,我们发现了一个有趣的现象,称之为“小模型可学习性差距”:参数量较小的模型($\leq$3B 参数)并不能始终从长链式思考 (CoT) 推理或从更大模型的蒸馏中获益。相反,当在更短、更简单的推理链上进行微调时,这些小模型表现更好,因为这些推理链更符合它们固有的学习能力。为了解决这个问题,我们提出了混合蒸馏 (Mix Distillation),这是一种简单而有效的策略,通过结合长短 CoT 示例,或者结合来自较大和较小模型的推理,来平衡推理的复杂性。实验表明,与单独使用任何一种数据进行训练相比,混合蒸馏显著提高了小模型的推理性能。这些发现突显了直接从强大模型进行蒸馏的局限性,并强调了调整推理复杂性对于有效传递推理能力的重要性。


介绍

image-20250220233911709

大语言模型(LLM)的高计算成本阻碍了它们在资源受限设备上的部署,因此,开发以更低成本提供类似能力的小型模型变得迫切。一种广泛采用的策略是知识蒸馏,即利用强大的教师模型生成的思维链(CoT)序列来微调较弱的学生模型。人们自然会认为,从更强大的模型中蒸馏思维链序列能够持续提升小型模型复杂的推理能力。然而,我们发现了一个有趣的现象,我们称之为“小型模型可学习性差距”(如图1所示):小型模型并不能始终从强大的教师模型提供的复杂推理序列中获益,例如,较长的思维链推理或从大型模型进行的知识蒸馏。在我们的实验中,我们观察到,当小型模型接触到冗长且复杂的推理过程时,由于自身能力的限制,它们难以理解并内化多步骤的逻辑。相反,当小型模型在更短、更简单的推理链上进行微调时,它们表现更好,因为这些推理链与它们固有的学习能力更加匹配。这表明,小型模型难以处理过于复杂的推理过程,或者适应由更强大的教师模型引入的分布偏移,最终限制了它们有效泛化的能力。

为了解决上述挑战,我们提出了混合蒸馏(Mix Distillation),这是一种简单而有效的方法,它通过混合不同类型的推理轨迹来平衡推理的复杂性。具体来说,我们的方法包括两种配置:

(1)混合-长(Mix-Long)——长思维链(CoT)示例和短思维链示例的组合,确保小型模型能够接触到详细和简洁的推理步骤。

(2)混合-大(Mix-Large)——来自较大模型和较小模型的响应的混合,允许小型模型从更适合其能力的推理链中学习。我们的实验表明,与标准蒸馏相比,混合蒸馏能够持续提高小型模型的推理性能。例如,与直接在长思维链数据上训练相比,Qwen2.5-3B-Instruct使用Mix-Long在MATH和AMC上提高了8个点以上。与在大型教师思维链数据上训练相比,Qwen2.5-3B-Instruct使用Mix-Large在MATH、AIME和AMC上获得了超过7个点的提升。

这些发现突出了直接进行强模型蒸馏的一个根本局限性,并强调了调整推理复杂性对于有效知识转移的重要性。通过仔细设计蒸馏策略,我们为克服小型模型学习的约束提供了新的见解,使其在推理密集型任务中更加有效。

符号

设 $x = (x_1, x_2, \dots, x_n)$ 表示一个输入序列(例如,一个提示词),$y = (y_1, y_2, \dots, y_m)$ 是相应的输出序列。我们考虑一个由 $\theta$ 参数化的大语言模型 (LLM),它预测下一个 Token,遵循条件分布 $\pi_\theta \bigl(y_t|x, y_{1:t-1}\bigr)$。我们用 $\text{CoT}(y) \subseteq y$ 表示生成输出中编码思维链的 Token 子集,通常用作推理轨迹或解释性序列。

在本文中,我们使用术语短 CoT 来描述得出解决方案的简洁的思维链,并使用长 CoT 来描述不仅更长而且展现出更复杂反思性思考的更长的思维链。此外,我们使用术语大型教师 CoT 来指代由更大的教师模型生成的推理轨迹,并使用术语小型教师 CoT 来指代由较小的教师模型产生的推理步骤。

监督式微调 (SFT)

监督式微调 (SFT) 被广泛采用,以增强大语言模型在数据集 $\mathcal{D} = \{(x^i, y^i)\}_{i=1}^N$ 上的推理能力,其中 $y^i$ 可以是短 CoT、长 CoT、强模型 CoT 或弱模型 CoT 序列。SFT 过程通过最小化指令数据集 $\mathcal{D}$ 上的负对数似然损失来更新语言模型的参数 $\theta$。

小型模型可学习性差距

在本节中,我们使用不同的CoT数据对学生模型进行微调。然后,根据微调模型的性能,揭示小型模型的可学习性差距。

数据集

我们使用 MATH 的 7,500 个提示词集。该数据集包含七个数学主题,例如高等微积分、几何和线性代数。

学生模型

我们的研究考虑了来自 Qwen 和 Llama 模型系列的十个不同大小的学生模型。这些模型包括 Qwen2.5-0.5BQwen2.5-1.5BQwen2.5-3BQwen2.5-7BQwen2.5-14BQwen2.5-32B 的 Instruct 版本,以及 Llama3.2-1BLlama3.2-3BLlama3.1-8BLlama3.3-70B 的 Instruct 版本。

教师模型

为了比较长 CoT 和短 CoT,我们使用 QwQ-32B-Preview 生成长 CoT 序列,并使用 Qwen2.5-32B-Instruct 作为短 CoT 的响应生成器。在每个模型系列中,我们指定较大规模的模型作为大模型教师,较小规模的模型作为小模型教师。这包括 Qwen2.5-72B-Instruct vs Qwen2.5-3B-InstructLlama3.1-70B-Instruct vs Llama3.1-8B-InstructGemma2-27B-it vs Gemma2-9B-it

image-20250220233935155

评估基准

我们在一系列常用的基准上评估微调后的学生模型的推理能力,这些基准包括 MATH、GSM8K、AMC 2023、AIME 2024 和 OlympiadBench 的英语数学子集。这些基准涵盖了从初等数学到高级竞赛题目的广泛挑战级别。我们将学生模型的性能定义为在五个基准测试上的平均得分。除非另有说明,所有微调后的模型都在零样本学习设置下使用贪婪解码进行评估。我们将最大生成 Token 数量设置为 16k。

我们定义以下性能得分:

  • $P_{Long}$:在长链思维 (CoT) 数据上微调的学生模型的性能得分。
  • $P_{Short}$:在短链思维 (CoT) 数据上微调的学生模型的性能得分。
  • $P_{Large}$:在来自较大教师模型的链思维 (CoT) 数据上微调的学生模型的性能得分。
  • $P_{Small}$:在来自较小教师模型的链思维 (CoT) 数据上微调的学生模型的性能得分。

训练设置

教师模型通过拒绝采样生成响应。默认情况下,教师模型采用贪婪解码。通过将数学问题指令与教师模型生成的相应解决方案相结合,我们构建问题-解决方案对,以微调学生模型。我们使用 LLaMA-Factory 框架 训练模型。对于小于 14B 规模的学生模型,我们使用全参数 SFT,并实施余弦学习率计划,最大学习率为 $10^{-5}$,以微调学生模型两个 epoch。对于大于 14B 的学生模型,我们采用 LoRA 微调,学习率为 $10^{-4}$,进行两个 epoch。

长 CoT 差距

本节评估了在长 CoT 数据和短 CoT 数据上进行微调的学生模型的推理能力。我们使用 长 CoT 差距 $\Delta_{Long}$ 来量化长 CoT 数据和短 CoT 数据之间的性能差异,定义如下:

$$ \Delta_{Long} = P_{Long} - P_{Short}. $$

结论 1:长 CoT 差距: 较小的学生模型往往从短 CoT 中获益更多,而较大的学生模型从长 CoT 中获得更大的优势。

我们观察到,长 CoT 对于较大的模型更有效,始终如一地在大多数数学基准测试中带来性能提升。例如,学生模型 Qwen2.5-32B-Instruct 在所有数学指标上的平均提升了约 15 个百分点。

然而,对于较小的模型而言,较长的思维链 (CoT) 数据效果不佳,与较短的 CoT 相比,所产生的提升效果明显较弱。在 MATH 和 AMC 基准测试中,学生模型 Qwen2.5-1.5B-Instruct 使用较长的 CoT 数据进行微调后,性能下降超过 10 个百分点。这表明较小的模型可能无法有效地学习和利用较长的 CoT 范式。

大型教师CoT差距

$$ \Delta_{Large} = P_{Large} - P_{Small}. $$

我们观察到,较大的学生模型可以有效地从大型教师模型的CoT(思维链)中学习。例如,Qwen2.5-7B-InstructQwen2.5-32B-Instruct 学生模型平均提高了 5 个点以上,其中 Qwen2.5-32B-Instruct 在 AIMC 基准测试中实现了超过 15 个点的增长。然而,较小的模型无法有效地从大型教师模型(如 Qwen2.5-72B-Instruct)中学习。相反,像 Qwen2.5-3B-Instruct 这样的小型教师模型可能更适合作为小型学生模型的教师模型。例如,Qwen2.5-0.5B-Instruct 的性能在 AMC 基准测试中下降了 10 多个点。请注意,之前的研究 也表明,更强大的模型不一定是更强大的教师,强调了响应生成器和教师侧的因素。我们的工作不同之处在于,我们主要将这种现象归因于学生模型的大小。

小型学生模型倾向于从小型教师模型中学习得更好,而大型学生模型则更多地受益于大型教师模型。 image-20250220232458890

领域知识影响可学习性差距。

我们观察到,尽管数学专家模型尺寸较小,但与通用模型相比,它们在长思维链 (CoT) 和大型教师思维链 (CoT) 数据方面都表现出更小的可学习性差距。 具体来说,我们比较了学生模型Qwen2.5-Math-1.5B-InstructQwen2.5-1.5B-Instruct之间的可学习性差距。 我们的研究结果表明,小型数学专家模型的长思维链 (CoT) 差距明显小于通用小型模型。 此外,使用大型教师思维链 (CoT) 进行微调时,Qwen2.5-Math-1.5B的性能提升超过了Qwen2.5-1.5B,这表明数学专家模型从大型教师思维链 (CoT) 中获益更多。 我们推测,导致小型模型可学习性差距的关键因素是小型学生模型有限的领域内知识。 我们将此观察结果总结在以下要点中。

小型模型有限的领域知识可能会阻碍它们从强大的推理教师那里学习。

image-20250220233955374

基础模型表现出更显著的可学习性差距。

我们观察到,基础模型通常比 Instruct 模型表现出更显著的可学习性差距。这表明,对于小型基础模型而言,从较长的 CoT 数据或大型教师 CoT 中进行有效学习更具挑战性。

要点 4:基础模型 vs Instruct 模型。 小型基础模型相比 Instruct 模型,会体验到更显著的可学习性差距。

image-20250220234006327

说话风格的转变

我们采用的方法来评估每个Token在长CoT和大型教师CoT数据上微调前后的排名变化。这使我们能够比较由微调过程引起的Token分布变化。然后,我们将表现出最大排名变化的Token注释为变化最大的Token。我们的分析表明,这些Token主要与表达和风格元素相关,例如“wait”、“But”和“Let”。

混合蒸馏:弥合小模型的可学习性差距

本节介绍我们的混合蒸馏方法,旨在弥合小模型的可学习性差距。

混合蒸馏

我们提出混合蒸馏来解决在小型模型中观察到的可学习性差距。 这种方法将易于学习的数据与更具挑战性的数据混合在一起,从而利用两者的优势。

我们的见解是,小型模型往往在与其固有分布紧密匹配的数据(例如,短 CoT 或小型教师 CoT)上表现更好,而在表现出更大分布偏移的数据上则表现不佳。 混合的长 CoT 和大型教师 CoT 数据的 Token 分布可能更接近小型模型的固有分布,从而使它们能够更有效地从具有挑战性的数据集中学习。

我们提出 Mix-Long,它将长 CoT 和短 CoT 数据组合在一起,长 CoT 的权重为 $\alpha$,短 CoT 的权重为 $1-\alpha$。 类似地,我们提出了 Mix-Large,它将大型教师 CoT 与权重 $\alpha$ 和小型教师 CoT 与权重 $1-\alpha$ 组合在一起。

实验结果

我们使用 Qwen2.5-3B-Instruct 作为学生模型,并使用 MATH (7.5k) 数据集作为训练集。 我们使用不同的教师模型进行蒸馏,并将生成的响应作为基线。 这些教师模型包括 QwQ-32B (长 CoT), Qwen2.5-32B (短 CoT), Qwen2.5-72B (大型教师 CoT), Qwen2.5-3B (小型教师 CoT)。 我们还添加了 Deepseek-R1-32B 作为教师模型,生成另一组长 CoT 数据作为基线。 在 Mix-Long 和 Mix-Large 的配置中,我们都设置 $\alpha=0.2$。 实验结果表明,在大多数评估指标上,Mix-Long 和 Mix-Large 的表现都优于基线模型。 结果表明,相比于在单一数据集上训练,小型学生模型可以通过混合蒸馏 (Mix Distillation) 获得更好的性能。 例如,与直接在长 CoT 数据上训练相比,Qwen2.5-3B-Instruct 模型在使用 Mix-Long 方法后,在 MATH 和 AMC 数据集上的性能提升超过 8 个百分点。 此外,与使用大型教师 CoT 数据进行训练相比,Qwen2.5-3B-Instruct 模型通过 Mix-Large 方法在 MATH、AIME 和 AMC 数据集上的性能提升也超过了 7 个百分点。 这表明小型学生模型更容易从通过混合蒸馏生成的数据集中学习。

AIbox 通过混合长 CoT 数据(即大型教师 CoT)和短 CoT 数据(即小型教师 CoT),小型学生模型可以获得比单独训练任何一种数据更好的性能。

image-20250220234023361

image-20250220234037593

显示了采用不同的长思维链 (CoT) 数据或大型教师模型生成的思维链 (CoT) 数据的混合权重 $\alpha$ 时的平均性能。我们选择 Qwen2.5-3B-Instruct 作为学生模型,并发现权重 $\alpha$ 为 0.2 时,Mix-Long 和 Mix-Large 在五个基准测试中均实现了最高的平均性能。

有趣的是,我们发现混合长思维链 (CoT) 和短思维链数据后,小型学生模型的输出融合了长思维链的特征,例如分支过程,同时保持了较短的 Token 长度,避免了过于复杂的思考。我们观察到,在长思维链数据上微调的小型学生模型会被重复的思考淹没,无法停止,而使用短思维链数据微调的模型会产生不正确的答案。相比之下,我们提出的 Mix-Long 方法,它结合了分支元素(例如,使用“或者”),能够给出正确的答案。此外,长思维链、短思维链和 Mix-Long 生成的响应的平均 Token 长度分别为 3384.7、575.7 和 1248.9。我们认为,混合长思维链和短思维链数据是实现平衡的思维链长度的实用方法,从而增强小型学生模型的推理能力。

思维链 (Chain-of-Thought)

早期关于 CoT 的研究主要集中在短 CoT 上,即模型生成简洁的推理路径以得出解决方案。 近期,研究人员转向长 CoT 提示,鼓励生成更长、更详细的推理链。 模型系统地探索多个路径(分支),并在特定路径被证实错误时回溯到之前的节点(回溯)。 尽管已有研究探索了诸如知识蒸馏和强化学习等方法,试图将长 CoT 能力整合到大语言模型 (LLM) 中,但这些研究主要集中在大型模型上。 相比之下,我们的工作着重于训练小型模型时所面临的挑战。

合成推理数据

尽管人工设计的推理数据集已被用于增强大语言模型 (LLM) 的推理能力,但它们的开发既耗时又费力。最近的进展通过直接从大语言模型生成指令或响应,或者直接从网络提取数据,从而简化了这一过程,从而产生更详细和多样化的思维链条推理路径。最近的研究调查了各种响应生成器的影响,表明在指令遵循和推理领域,来自更强大的教师模型的响应不一定能为学生模型产生最有效的学习效果。然而,这些调查并未认识到学生模型的大小是影响这一现象的关键因素,也没有像本文那样进行更多的归因和缓解分析。

结论与未来工作

在本文中,我们表明,长的CoT数据和大型模型响应对于小型学生模型并非始终有益的。我们发现,当使用短CoT和小型模型CoT进行微调时,小型模型可能表现更好。我们将这一挑战称为小型模型可学习性差距。其背后的原因可能是,小型学生模型擅长于与其固有分布紧密匹配的数据,但在面对显著的分布偏移时则表现不佳。为了弥合这一差距,我们引入了混合式蒸馏,包括Mix-Long,它以一定比例组合了长CoT和短CoT数据,以及Mix-Large,它集成了大型和小型教师CoT。实验结果表明,Mix-Long和Mix-Large在大多数评估指标上都优于基线,这意味着混合蒸馏优于在单一数据分布上进行训练。本文为优化后训练策略以增强小型语言模型的推理能力提供了实践见解。我们将探索几个有希望的方向作为未来的工作。首先,我们将通过优化组合各种数据源并提出更细粒度的混合算法来改进混合式蒸馏,以提高推理能力。其次,我们建议研究强大的推理教师如何生成更适合调整小型学生模型的数据,从而促进更有效的知识转移。第三,我们将对小型模型可学习性差距进行进一步的理论和模型可解释性研究。最后,我们将研究哪些监督微调 (SFT) 方法为后续的强化学习 (RL) 过程产生最佳的初始策略,最终提高整体模型性能。