COD | 一只小茄墩

摘要大语言模型 (LLM) 在解决复杂的推理任务方面表现出了卓越的性能，这得益于诸如思维链 (CoT) 提示等机制，该机制强调冗长、逐步的推理过程。然而，人类通常采用一种更为高效的策略：起草简洁的中间想法，仅捕捉必要的关键信息。在这项工作中，我们提出了一种新颖的范式——Chain of Draft (CoD)，它受到人类认知过程的启发，旨在让大语言模型在解决任务时生成最小化但信息丰富的中间推理输出。通过减少冗余信息并专注于关键见解，CoD 在准确性方面能够与 CoT 相媲美甚至超越 CoT，同时仅消耗 7.6% 的 Token，从而显著降低了各种推理任务的成本和延迟。介绍 OpenAI o1 和 DeepSeek R1 等推理模型的最新进展，已推动大语言模型 (LLM) 借助思维链 (CoT) 等技术，在复杂任务上达到前所未有的性能。这种范式鼓励模型将问题分解为逐步探索的过程，模仿人类的结构化推理方式。尽管这种方法非常有效，但它在推理阶段需要消耗大量的计算资源，导致输出冗长且延迟较高。这种冗长性与人类解决问题的方式形成了鲜明对比：我们通常依赖简洁的草稿或速记笔记来捕捉关键见解，避免不必要的详细阐述。受此差异的启发，我们提出了一种名为 Chain of Draft (CoD) 的新型提示词策略。该策略通过优先考虑效率和极简主义，使模型推理过程更贴近人类的思维模式。与冗长的中间步骤不同，Chain of Draft 鼓励大语言模型在每个步骤中生成简洁且信息密集的输出。这种方法可以在不牺牲准确性的前提下，降低延迟和计算成本，从而使大语言模型更适用于对效率有较高要求的实际应用。草稿链背后的直觉源于人类外化思考的方式。在解决复杂任务时——无论是解决数学问题、撰写文章还是编写代码——我们通常只记录下有助于我们取得进展的关键信息。通过模仿这种行为，大语言模型可以专注于推进解决方案，避免冗长的推理过程带来的额外开销。为了评估草稿链的有效性，我们对各种需要多步骤推理的基准测试进行了实验，包括算术推理、常识推理和符号推理。实验结果表明，与标准的思维链方法相比，这种极简方法在保持甚至提高准确性的同时，显著降低了 Token 消耗量和延迟。本文的贡献主要体现在以下三个方面：我们提出了一种受人类认知过程启发的简洁推理提示策略，即草稿链。我们通过实验验证了草稿链可以在不牺牲准确性的前提下，显著降低延迟和成本。我们探讨了草稿链对大语言模型的设计、部署和实际应用的影响。相关工作最近，涌现出各种推理语言模型，包括 OpenAI 的 o1、阿里巴巴的 QwQ 和 DeepSeek 的 R1，它们在解决复杂任务方面表现出显著的改进。这些模型利用结构化推理方法来增强鲁棒性和问题解决能力。“思维链”（Chain-of-Thought，CoT）推理的概念为大语言模型（LLM）中的推理建立了一种基础方法。在此基础上，出现了更复杂的拓扑结构，如树和图，使大语言模型能够解决日益复杂的问题。其他增强功能包括自洽性 CoT，它结合了验证和反思机制来增强推理可靠性；以及 ReAct，它将工具使用集成到推理过程中，允许大语言模型访问外部资源和知识。这些创新共同扩展了大语言模型在各种应用中的推理能力。虽然结构化推理能够显著提升大语言模型解决复杂问题的能力，但同时也大幅增加了得出最终答案前的 Token 消耗。这使得结构化推理难以应用于对成本和延迟都较为敏感的场景。此外，模型常常缺乏对任务复杂度的感知，即使面对简单任务也容易过度思考，造成不必要的资源浪费。诸如流式传输等技术，旨在通过逐步提供部分输出来降低感知延迟，而非等待生成完整的输出序列。然而，这种方法无法完全缓解整体延迟或计算成本，并且通常不适用于思维链推理，因为中间步骤往往不适合直接呈现给最终用户。 @skeleton_of_thought 提出了 Skeleton-of-Thought (SoT)，这是一种首先引导大语言模型 (LLM) 生成答案的骨架轮廓，然后并行解码以减少延迟的方法。虽然 SoT 有助于降低延迟，但它并没有降低计算成本，并且仅限于可以有效并行化的问题。 @draft_n_verify 采取了不同的方法，它首先通过选择性地跳过中间层，以较低的质量但更高的速度生成草稿 Token，然后在单个前向传递中验证草稿。我们的方法 CoD 可以与这些方法结合使用，以进一步减少延迟。 ...