👋 欢迎

首发于小红书,欢迎关注

小红书,知乎,公众号:一只小茄墩
🧧 鼓励

“交错推理”减少首token耗时

《Interleaved Reasoning for Large Language Models via Reinforcement Learning》 这篇论文的核心思想是解决大型语言模型在进行长链式思考(CoT)时响应速度慢(即“首个token时间”TTFT过长)和容易中途出错的问题。研究者提出了一种名为“交错推理”(Interleaved Reasoning)的全新训练模式,通过强化学习(RL)来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间(TTFT)平均减少超过80%,还能将解题的正确率(Pass@1)提升高达19.3%。最关键的是,这种方法不依赖任何外部工具,并且在仅用问答和逻辑推理数据集训练后,模型能在数学(MATH)、物理(GPQA)等它从未见过的复杂推理任务上表现出色,展现了强大的泛化能力。 “先思考后回答”(think-answer)模式存在两个主要弊端。首先,模型需要生成一长串完整的思考过程后才能给出第一个字的答案,这在对话式应用中会造成明显的延迟,影响用户体验。其次,由于奖励信号只在最终答案产生后才出现,如果模型在思考的早期步骤就犯了错,这个错误会一直延续下去,导致最终结果不准确,造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发,我们通常会给出阶段性的反馈来表示理解。因此,他们提出“交错推理”,让模型把复杂问题分解成小步骤,每完成一步就给出一个小结(sub-answer),这样不仅能立即给用户反馈,还能利用这些中间答案作为更密集的监督信号来指导后续的推理,从而让训练更有效。 目前,利用强化学习提升模型推理能力主要依赖两种奖励模型:结果奖励模型(ORM)只看最终答案对错,过程奖励模型(PRM)则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈,但往往需要大量人工标注或训练一个额外的复杂模型,实施起来很困难。本文提出的方法巧妙地结合了两者的优点:它像PRM一样关注中间步骤,但实现上却像ORM一样简单,仅使用基于规则的奖励来给正确的中间答案“记功”,而无需一个专门的奖励模型。这与其他工作要么依赖外部工具(如搜索引擎),要么只关注缩短推理长度不同,本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。 为交错推理训练大语言模型 如何训练模型学会“交错推理”。其关键步骤如下:首先,他们定义了一种新的交互模式,通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答,形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次,他们将这个过程构建为一个强化学习问题,其目标函数为: 即在最大化奖励的同时,通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计,特别是“条件性中间准确率奖励”。研究发现,如果一开始就对不成熟的中间步骤给予奖励,模型可能会为了局部正确而牺牲最终的全局正确性。因此,他们设计了一个巧妙的条件机制:只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时,才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为: 其中中间奖励$r_{intermcdiate}$是有条件触发的。 这种“扶优扶强”的策略确保了模型首先学会走对路,然后再学习如何把路走得更漂亮、更高效。 主要实验 实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型,并在两类数据集上进行了测试:一类是用于训练的“域内”数据集(如逻辑题K&K和多跳问答Musique),另一类是模型从未见过的“域外”数据集(如GPQA、MMLU和MATH)来检验其泛化能力。他们将自己的方法(Interleave + IR,即带中间奖励的交错推理)与多种基线方法(如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习)进行对比。结果非常显著:与“先思考后回答”的基线相比,他们的方法在所有数据集上都实现了超过80%的TTFT(首个token时间)降低,这意味着用户能快大约五倍得到有用的信息。同时,Pass@1准确率也得到了显著提升,尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性,还实实在在地增强了其推理的准确性。

June 14, 2025 · 小茄墩

Qwen团队:LLM的推理过程的“关键少数”原则

《Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning》Qwen团队和清华LeapLab团队出品 👍 这篇论文的核心观点是,在通过强化学习(RL)提升大语言模型(LLM)的推理能力时,并非所有词元(token)都同等重要。研究者发现,在模型的推理过程中,只有一小部分“高熵”的少数词元(大约20%)扮演着关键的“岔路口”角色,引导着推理的方向,而大部分“低熵”词元只是在已确定的路径上进行填充 。基于此,他们提出了一种创新的训练方法:在强化学习中,只针对这20%的“岔路口词元”(forking tokens)进行策略更新。实验结果惊人地发现,这种方法不仅没有降低性能,反而在Qwen3-32B等大模型上取得了远超于使用全部词元进行训练的效果(例如在AIME'25测试上提升了11.04分)。相反,如果只训练那80%的低熵词元,模型性能会急剧下降。这揭示了强化学习之所以能有效提升推理能力,其根本原因在于优化了那些决定推理方向的高熵关键少数词元。 目前在带可验证奖励的强化学习(RLVR)训练时存在一个认知盲区。现有方法通常对生成的所有词元一视同仁地进行训练,没有区分它们在推理过程中扮演的不同功能角色,这可能限制了模型性能的进一步提升。为此,本研究提出了一个全新的视角:通过分析“词元熵”的模式来理解RLVR的内部机制。作者预告了他们的核心发现:推理过程中的词元可以被分为两类,一类是少数高熵的“岔路口词元”(forking tokens),它们负责引导推理走向不同路径;另一类是多数低熵的“跟随者词元”,负责沿着路径填充内容。论文的主要贡献就是验证了只对前者进行强化学习训练,可以在更大型的模型上取得远超传统方法的性能,这揭示了高熵少数词元在推理能力提升中的决定性作用。 预备知识 “词元熵”的计算,其公式为 $H_{t}:=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}$ 。需要明确的是,这里的熵衡量的是在生成某个词元时,模型对于词汇表中所有可能词元的概率分布的不确定性,而不是针对某个被采样出的特定词元。简单来说,熵越高,代表模型在这一步的选择越不确定,面临的可能路径越多。其次,文章介绍了作为实验基础的RLVR算法,特别是DAPO算法。DAPO是一种先进的、无需价值网络的强化学习算法,它通过比较一批生成回复的最终奖励好坏来估算优势,并结合了“clip-higher”等机制来稳定和优化训练过程,是目前效果最好的RLVR算法之一。 分析思维链推理中的词元熵 研究者让Qwen3-8B模型解答数学问题,并收集了超过一百万个词元的熵数据进行分析。第一个模式是,词元熵的分布极不均匀:超过一半的词元熵值极低(接近于0),而只有20%的词元拥有较高的熵值。第二个模式是,高熵词元和低熵词元在功能上泾渭分明。通过分析具体词语发现,高熵词元通常是那些引导逻辑、引入假设或做出转折的词,如“然而(however)”、“假设(suppose)”、“因此(thus)”等,它们如同推理路径上的“岔路口” 。而低熵词元则多为单词后缀或固定的数学符号,负责完成句子结构,具有很高的确定性。为了验证“岔路口词元”的重要性,研究者还做了一个巧妙的实验:在生成回答时,只提高岔路口词元的解码温度(即增加随机性),结果模型性能显著提升;反之则性能下降,这定量地证实了在这些关键决策点上保持较高的不确定性是有益的。 RLVR保留并强化基础模型的熵模式 在RLVR训练过程中,有两个核心发现。 第一,RLVR在很大程度上保留了原始基础模型的熵模式 。通过对比训练过程中不同阶段模型的高熵词元位置,发现即便是训练完成后的模型,其高熵词元的位置与初始模型相比仍有超过86%的重叠度。这说明,哪些位置应该是不确定的“岔路口”,在模型预训练后就基本定型了,强化学习并未大规模改变它。 第二,RLVR的训练效果主要体现在对高熵词元的熵值进行调整 。数据显示,初始熵越高的词元,在RLVR训练后其熵值的变化也越大;而那些低熵词元的熵值在整个训练过程中则基本保持稳定,波动很小。这表明,强化学习的优化过程,是聚焦于那些关键的“岔路口”,去调整在这些点上的选择倾向,而不是去改变整个推理路径的结构。 高熵少数词元驱动有效的RLVR 研究者修改了DAPO强化学习算法的目标函数,加入了一个指示函数$\mathbb{I}[H_{t}^{i}\ge\tau_{\rho}^{B}]$ 。这个函数的作用相当于一个“开关”,它只允许每批数据中熵值排名前$\rho$(实验中主要设为20%)的词元参与策略梯度的计算和模型更新,而忽略掉其余80%的低熵词元 。 实验结果非常有力:在Qwen3-14B和Qwen3-32B这样的大模型上,这种“只训练20%关键少数”的方法,其性能显著超过了使用100%全部词元进行训练的传统方法 。反之,如果只用那80%的低熵词元来训练,模型性能会严重下降。作者认为,这背后的原因是高熵词元对于强化学习中的“探索”至关重要,而只保留约20%的最高熵词元,恰好在探索和训练稳定性之间取得了最佳平衡。并且,这种性能增益随着模型规模的增大而越发明显,显示出良好的扩展趋势。 讨论 第一,它为“为什么强化学习(RL)能泛化而监督微调(SFT)易于记忆”这一问题提供了新解释。作者推测,RL之所以泛化能力强,可能是因为它在训练中保持甚至增加了“岔路口词元”的熵,从而保留了推理路径的灵活性;而SFT倾向于将模型输出推向确定性的答案,降低了这些词元的熵,导致推理路径变得僵化。 第二,它解释了为何LLM的推理过程与传统RL任务不同。传统RL任务的动作熵可以很均匀,而LLM因为经过海量文本预训练,大部分语言都遵循固定模式(低熵),只有少数地方需要做真正的决策(高熵),这种独特的熵分布是由其语言模型的本质决定的。 第三,它指出了在LLM中直接使用“熵奖励”来鼓励探索可能并非最佳选择。因为这会错误地增加那些本应确定的低熵词元的不确定性,破坏语言的流畅性。相比之下,DAPO算法中的“clip-higher”机制则更优越,因为它能间接地、更精准地作用于高熵词元,在需要探索的地方进行探索。 刚好近期看到了一个类似的大模型比赛,阿里天池上的AFAC大赛:赛题三《金融领域中的长思维链压缩》,关注“长思维链”处理问题,任务目标——“构建高效的推理链压缩方法”、“保留关键推理逻辑,剔除冗余内容”。有三个大模型方向的赛题,感兴趣的同学可以一试,7.19前截止。奖励也不错,百万奖金+校招直通!

June 14, 2025 · 小茄墩

Sam Altman:悄然降临的奇点

《The Gentle Singularity》 我们已经跨过了“事件视界” (event horizon),技术腾飞的进程已经开启。人类距离建成数字超级智能仅一步之遥,而至少从目前来看,它的发展远比想象中平淡无奇。 街上还没有穿梭的机器人,我们大多数人也并未整日与 AI 对话。疾病依然夺走生命,太空旅行依然遥不可及,宇宙的诸多奥秘仍待我们探索。 然而,我们最近创造出的系统已在诸多方面超越人类,并能显著提升使用者的产出。这项事业中最艰难的部分——那些催生出 GPT-4 和 o3 等系统的科学洞见——已经攻克。这些来之不易的成果将引领我们走向更远的未来。 AI 将从多方面贡献世界,但其中最巨大的收益,将来自于它推动科学加速进步和生产力提升所带来的生活品质飞跃。未来可以比现在美好得多。科学是推动全面进步的根本动力,一想到我们将拥有的无限可能,就足以令人心潮澎湃。 从更宏大的意义上说,ChatGPT 的能力已经超越了历史上任何一位人类。每天,数以亿计的用户依靠它处理日益重要的任务。一个微小的功能更新可能带来巨大的正面效应,同样,一个微小的偏差在数亿用户的规模下,也可能造成极其深远的负面影响。 2025 年,能够胜任真正认知工作的“智能体” (agents) 已经问世,软件编程的方式将被永久改变。到 2026 年,我们或许会迎来能够洞察新知的系统。而到了 2027 年,能够在物理世界中执行任务的机器人或许也将成为现实。 未来,将有更多人能够创作软件与艺术。但世界对这两者的需求远未饱和,只要善用新工具,领域专家的表现仍将远超新手。总体而言,一个显著的变化是,到 2030 年,个体的能力将远超 2020 年的水平,而很多人都将找到从中获益的方式。 在那些最核心的层面,2030 年代的生活或许并不会发生颠覆性的改变。人们依然会热爱家庭、挥洒创意、享受游戏、在湖中畅游。 但在其他同样至关重要的方面,2030 年代将与过往任何时代都截然不同。我们尚不清楚智能的上限能超越人类多少,但答案即将揭晓。 进入 2030 年代,智能与能源——也就是思想以及将思想化为现实的能力——将变得唾手可得。长久以来,这两者是限制人类发展的根本瓶颈。一旦拥有了充裕的智能与能源(并辅以良好的治理),理论上,我们便能拥有一切。 我们已身处一个拥有惊人数字智能的时代,在最初的震撼过后,大多数人已习以为常。我们心态的转变非常迅速:从惊叹 AI 能写出一段优美的文字,到期待它能创作一部完整的小说;从惊叹它能辅助进行挽救生命的医疗诊断,到期盼它能研发出治愈疾病的良方;从惊叹它能编写一个小型程序,到希望它能创立一家全新的公司。这就是奇点演进的方式:昔日的奇迹变为寻常,再变为最基本的要求 (table stakes)。 我们已经从科学家口中得知,AI 使他们的研究效率提升了两到三倍。先进 AI 的意义非凡,但最重要的一点或许在于,我们可以利用它来加速 AI 自身的研究。我们或许能发现全新的计算基底、更优的算法,以及更多未知可能。如果能用一年甚至一个月的时间,完成过去需要十年才能完成的研究,那么进步的速度显然将不可同日而语。 从此刻起,我们已有的工具将帮助我们获得更深的科学洞见,并创造出更卓越的 AI 系统。这当然不等同于 AI 系统完全自主地更新代码,但这无疑是“递归式自我完善” (recursive self-improvement) 的雏形。 其他的自我强化循环也已开始运转。AI 创造的经济价值,已经启动了为更强大 AI 系统建设基础设施的飞轮效应。而能够制造其他机器人的机器人(某种意义上,也包括能建造其他数据中心的数据中心)也已不再遥远。 试想一下,如果我们必须以传统方式造出首批一百万台人形机器人,但此后,它们便能接管从采矿、冶炼、货运到工厂运营的整条供应链,从而制造出更多的机器人,进而建造更多的芯片工厂和数据中心,那么发展的速度无疑将发生质变。 随着数据中心生产的自动化,智能的成本最终应会向电力的成本靠拢。(人们常对 ChatGPT 的能耗感到好奇:平均每次查询耗电约 0.34 瓦时,相当于烤箱运行一秒多,或一个高能效灯泡亮几分钟。耗水约 0.000085 加仑,约为一茶匙的十五分之一。) 科技进步的步伐将不断加速,而人类几乎能适应任何变化。这个过程必然伴随着阵痛,例如整个工种类别的消失。但另一方面,世界财富的增长速度将如此之快,使我们能够认真考虑过去无法想象的新政策。我们或许不会一蹴而就地建立新的社会契约,但数十年后回望,这些渐进的改变将汇聚成一场巨大的变革。 ...

June 12, 2025 · 小茄墩

对近期LLM-RL研究主张的质疑

《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》 近期大量宣称通过强化学习(RL)改进大语言模型(LLM)“推理能力”的论文,特别是那些声称使用随机或无外部奖励就能取得进步的论文,引发了广泛关注。然而,作者团队分析了7篇热门LLM RL论文后发现,这些研究中RL方法带来的实际改进并不明确。核心问题在于,这些论文报告的预RL模型(即原始模型)的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估(如“Sober Reasoning”论文)中的数据。在某些情况下,经过RL调优后的模型性能甚至比(正确评估的)原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力,可能无需任何权重更新或微调,仅通过修正提示工程(prompting)和生成超参数(如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性)就能实现。如果RL训练主要只是教会模型更好地适应评估格式,那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异,例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%,而实际应为64.6%。 近期论文结果的仔细审视 1. Spurious Rewards: Rethinking Training Signals in RLVR 该论文声称,即使使用与正确答案关联不大甚至负相关的“虚假奖励”(spurious rewards),强化学习验证奖励(RLVR)也能激发某些模型(如Qwen2.5-Math-7B)强大的数学推理能力,例如通过随机奖励使其在MATH500上的性能提升21.4%。然而,作者指出,该论文报告的多个Qwen模型(如Qwen2.5-Math-7B在MATH500上报告基线49.4%,实际为64.3%;Qwen2.5-7B报告41.6%,实际为59.7%)的基线准确率远低于实际水平。这意味着,论文中通过各种虚假奖励(如一次性奖励、格式奖励、随机奖励、错误标签奖励)获得的性能提升,在与修正后的实际基线比较时,大部分增益都消失了,可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外,论文中关于RL对Qwen有效而对Llama无效的附带声明,也可能因为对Llama测试的是指令调优模型,而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同,因为指令调优本身已在很大程度上激发了基础模型的能力。 2. Maximizing Confidence Alone Improves Reasoning 这篇论文提出了一种完全无监督的RL方法,它不依赖外部奖励或真实答案,而是使用模型对其生成答案的分布熵(即模型置信度)作为内在奖励,声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现,该论文报告的多个Qwen模型(如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%,实际为73.2%;Qwen2.5-7B Instruct在GSM8k上报告基线78.0%,实际为91.6%)的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上,正确评估的预RL模型性能甚至远高于RL调优后的模型。例如,Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%,但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力,或者仅仅是缓解了因评估设置问题(作者声称是模型未遵循其使用的####.输出格式,而社区更倾向于使用\\boxed{}格式,模型在此格式下表现更好)导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验,并不能充分证明其方法优于简单地修复格式问题,因为格式奖励模型可能优化不足或导致灾难性遗忘。 3. RL with 1 Example 该论文的核心主张是,应用RLVR到基础模型(如Qwen2.5-Math-1.5B),仅通过一个精心挑选的样本进行强化学习,就能显著提升模型在多个数学推理基准上的性能,例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而,作者指出,该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试(如MATH500上RL后78.0%,报告基线71.0%,实际基线84.9%)上的RL后准确率,实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型,虽然RL后的准确率(如MATH500上79.2%)确实超过了实际的零样本基线(64.3%),但由于其报告的基线(51.0%)被严重低估,使得提升幅度看起来远大于实际情况。评估出错的可能原因包括:1. 论文使用了官方Qwen2.5-Math评估流程,而Math-verify等更新的评估方法在答案提取方面更为鲁棒,旧流程可能导致基线偏低;2. 对某些测试集重复8次测试并使用0.6的温度,而对其他测试集使用温度0,这可能不符合Sober Reasoning等推荐的较高温度评估,且温度0在长文本生成时可能导致输出退化。 4. Learning to Reason without External Rewards 这篇论文提出了一种名为INTUITOR的方法,该方法在群体相对策略优化(GRPO)中用自确定性得分替代外部奖励,实现了完全无监督学习,并声称INTUITOR能在数学基准上达到GRPO的性能,并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现,该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%,而其报告的基线为67.3%,但官方(少样本)准确率已达到79.1%。在CruxEval上,RL后为41.6%,报告基线23.6%,而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方(少样本)评估中的表现。因此,不清楚RL是否教会了模型新的推理能力,可能仅仅是修复了导致基线被低估的问题,例如由于其报告的基线评估是零样本,可能存在格式遵循问题。由于论文未完全报告评估设置(如温度、提示、格式遵循百分比),具体原因难以确定。 5. Verifree: Reinforcing General Reasoners without Verifiers 该论文提出了一种名为VeriFree的无验证器方法,它绕过答案验证,直接通过RL最大化生成参考答案的概率,并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出,尽管该论文的RL方法(例如Qwen3-4b在MATH500上达到74.8%)确实超过了其所用的Qwen3基础模型的官方报告数字(此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%,但Verifree原文表格的reported thinking accuracy是84.4%,实际pre-RL Verifree用的似乎更低,为73.4%)。然而,论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如,作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%,而论文报告的思考准确率为62.7%;在GPQA上作者评估为48.6%,论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力,但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样,而Qwen3模型页面明确指出不应这样做,因其可能导致输出退化。 6. Unreasonable Effectiveness of Entropy Minimization ...

June 10, 2025 · 小茄墩

强化学习开始做预训练了!

《Reinforcement Pre-Training》 传统的大模型预训练虽然可靠,但可能只是在学习表面的文本关联性,而用于对齐的强化学习(RL)又面临数据昂贵、难以规模化的问题。这篇论文最具启发性的做法是,从根本上“重塑”了预训练任务。它不再将“预测下一个词”看作一个简单的分类任务,而是将其提升为一个需要“推理”的过程。模型被激励去思考为什么下一个词是这个,而不是那个,并且只要预测正确,就能从训练数据本身获得一个可验证的奖励。这种方法巧妙地将海量的无标注文本数据,转变成了强化学习的训练场,既解决了RL的规模化问题,又可能让模型学到更深层次的推理能力,而不仅仅是记忆。论文用“樱桃蛋糕”的比喻(将RL融入预训练蛋糕本身)来对比传统的“蛋糕上的樱桃”(RL作为后续微调),生动地说明了这一范式的根本性转变。 现代语言模型的基础——标准的“下一个词预测”(NTP)任务,其目标函数是最大化文本序列的对数似然概率,即 “带可验证奖励的强化学习”(RLVR),其目标函数是最大化从环境中获得的期望奖励 。 通过并列这两种方法,读者可以清晰地看到:一个依赖于庞大的数据进行自监督学习,另一个则依赖于带有明确答案的标注数据和奖励信号进行学习。这个对比凸显了一个核心矛盾:规模化与强反馈之间的差距,而RPT正是在试图弥合这个差距。 强化学习预训练 首先,在任务定义上,创造性地提出了“下一词元推理”(Next-Token Reasoning)任务。模型在预测下一个词 $y_t$ 之前,必须先生成一段“思考链”(chain-of-thought)$c_t$ 。这种做法,如图2所示,强迫模型在输出最终答案前进行一系列的头脑风暴、自我批判和修正,从而将庞大的预训练语料库转变为一个巨大的推理问题集。其次,在训练机制上,它采用了在线强化学习(on-policy RL)。模型会针对一个上下文,生成多条(实验中为8条)不同的“思考轨迹” ,然后根据最终预测的词是否与真实答案一致来给予奖励。这里的奖励函数设计也很巧妙,采用“前缀匹配奖励”,即预测的字节序列只要是真实答案的有效前缀就给予奖励,这优雅地处理了预测可能跨越多个词元的情况 。最后,在预训练设置中,一个非常实用的关键做法是“数据过滤” 。研究者用一个较小的代理模型计算每个词元的预测熵,并过滤掉那些熵很低(即很容易预测)的词元。这使得计算成本高昂的强化学习过程可以专注于那些真正需要复杂推理才能解决的“硬骨头”,极大地提升了训练效率。 实验 本章通过一系列详实的实验,验证了RPT范式的有效性,其中几个发现尤其具有启发意义。 第一,在语言建模能力上,经过RPT训练的14B(140亿参数)模型,其预测下一个词的准确率,不仅远超同等规模的基线模型,甚至能媲美一个大得多的32B模型。这强烈暗示了RPT可能是通往更强模型能力的一条“捷径”,用更少的参数实现了更强的性能。 第二,RPT展现了优秀的“规模化特性”(Scaling Properties)。实验数据显示,其性能随着RL计算量的增加,呈现出非常平滑且可预测的幂律增长(公式为 $P(C)=\frac{A}{C^{\alpha}}+P^{*}$)。这是一个至关重要的结论,因为它表明RPT是一个可靠的、可持续的提升模型能力的方法,只要投入更多计算,就能获得更好的模型。 第三,RPT预训练过的模型是更好的“强化学习起点” 。在后续针对下游任务的RL微调中,RPT模型能达到更高的性能上限,而如果对基线模型继续做传统的预训练,其推理能力反而会下降 。 最后,通过对模型“思考过程”的分析,发现RPT诱导出的推理模式与常规解决问题的模式不同,它更多地使用“假设”和“演绎”等探索性思维。案例分析也表明,模型并非在简单地套用模板,而是在进行真正的审议,包括分析上下文、生成多种可能性并进行权衡,这证实了RPT确实在培养更深层次的理解能力。

June 10, 2025 · 小茄墩

思考的幻觉?推理模型在高复杂度任务上全部崩溃

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》 这篇论文的核心启发在于,它没有停留在简单地评估大型推理模型(LRMs)在基准测试上的最终答案准确率,而是设计了一种系统性的方法来深入探究这些模型“思考”过程的内在机制和真实能力。研究发现,即使是最前沿的推理模型,在问题复杂度超过某个临界点后,其准确率会完全崩溃。一个反直觉的发现是,模型的“思考努力”(即生成的思考过程的长度)并不会随着问题变难而无限增加,反而在接近崩溃点时开始下降。通过与标准大语言模型(LLM)在同等计算资源下进行对比,研究揭示了三种性能表现区间:在低复杂度任务上,标准模型反而表现更优;在中等复杂度任务上,推理模型的“思考”显示出优势;而在高复杂度任务上,两者都会彻底失败。这套研究方法不仅揭示了模型在精确计算和逻辑一致性上的局限,也为我们理解和改进未来的推理模型指明了方向。 作者观察到,当前对大型推理模型(如具备“思考”功能的模型)的评估过于依赖已有的数学或代码基准,这种方式存在数据污染的风险,并且无法深入分析模型推理过程的质量和结构。为此,他们提出的关键一步是转向使用“可控的谜题环境”。这种环境的核心优势在于,研究者可以精确地、系统性地调整问题的“组合复杂度”(例如增加汉诺塔的盘子数),同时保持问题底层的逻辑结构不变。这样做不仅能有效避免数据污染问题,更重要的是,它使得研究者能够像调试程序一样,检查模型生成的中间推理步骤(即“思考过程”)是否正确,从而能够更深入、更严谨地分析模型的“思维”模式、优势和根本性局限。 模型的推理能力是通用的,还是仅仅是更高级的模式匹配?它们的性能如何随问题复杂度扩展?与投入相同计算资源的标准模型相比,它们的优势何在?通过梳理文献中提到的“过度思考”(overthinking)等现象,作者将自己的研究目标聚焦于系统性地分析模型的思考量与任务复杂度的关系。 数学与谜题环境 (Math and Puzzle Environments) 通过对比实验,论证了传统数学基准的局限性,并详细阐述了其核心研究工具——四种可控谜题环境的设计理念。首先,作者通过在MATH-500和AIME等数学基准上的实验发现,推理模型和非推理模型的性能差距并不稳定,这种不一致性可能源于更复杂的推理需求,但也极有可能是因为新基准测试的数据污染较少。这种模棱两可的结果凸显了传统基准在“控制变量”上的不足。为此,作者引入了四个精心设计的谜题:汉诺塔、跳棋、过河问题和积木世界。这些谜题的关键优势在于:(1)复杂度可控:可以通过改变盘子、棋子或积木的数量来精确调整难度,其解决问题所需的最少步数甚至有明确的数学公式,例如汉诺塔的步数是$2^{n}-1$;(2)逻辑明确:解决这些谜题仅需遵循明确给出的规则,考验的是模型的算法推理能力而非背景知识;(3)无数据污染:这些谜题的变体在网络上较少,可以避免模型通过记忆来“作弊”;(4)可验证性:可以利用模拟器对模型生成的每一步进行精确验证,从而进行细致的失败分析。这种从模糊到精确的研究工具转换为后续的深入分析奠定了基础。 实验与结果 通过一系列精心设计的实验,系统性地揭示了推理模型的行为模式和内在局限。 首先,通过在谜题环境中对比“思考”与“不思考”的模型,作者发现了三个清晰的复杂度区间:在低复杂度下,“不思考”的标准模型更高效准确;在中等复杂度下,“思考”模型开始展现优势;而在高复杂度下,两者性能双双崩溃。这揭示了“思考”并非万能,其有效性与任务复杂度密切相关。 其次,研究深入分析了推理模型的“崩溃”现象。一个惊人的发现是,随着问题变得越来越难,模型的“思考投入”(以生成的token数量衡量)在达到一个峰值后便开始反常地减少,即使计算预算(token上限)远未用尽。这表明模型似乎存在一种内在的扩展限制,当它“感觉”问题过于困难时,会倾向于“放弃思考”,而不是投入更多努力。 再者,作者通过分析模型“思考过程”的中间步骤,获得了更深层的洞见。他们发现,在解决简单问题时,模型会“过度思考”,即很早就找到了正确答案,但仍继续探索错误的路径,浪费计算资源。而在中等难度问题中,模型则表现出一定的“自我修正”能力,通常在探索了多个错误方案后才能找到正确答案。这一发现量化了模型的思考效率和修正能力随复杂度的动态变化。 最后,作者提出了一些悬而未决的“谜题行为”。最引人深思的是,即使在提示中明确给出了解决汉诺塔问题的完整算法,模型的表现也几乎没有提升,仍然在相似的复杂度下崩溃。这强烈地暗示了当前模型在严格执行和验证逻辑步骤方面存在根本性缺陷。同时,模型在不同谜题上的表现差异巨大(例如,能解决需要上百步的汉诺塔,却在十几步的过河问题上失败),这表明其能力可能严重依赖于训练数据中的模式记忆,而非通用的、可泛化的问题解决能力。

June 10, 2025 · 小茄墩

累积互信息量越高,模型预测错误率越低

《Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning》 本文中,作者从信息论的视角研究了大型推理模型的推理轨迹。通过追踪大型推理模型在推理过程中,其中间表征与正确答案之间互信息(MI)的演变,作者观察到一个有趣的“互信息峰值”现象:在特定的生成步骤中,互信息在模型的推理过程中会出现突然且显著的增加。作者从理论上分析了这种现象,并证明了随着互信息的增加,模型的预测错误概率会降低。此外,这些互信息峰值通常对应着表达反思或转折的词元,例如“Hmm”、“Wait”和“Therefore”,作者将其称为“思考词元”。作者接着证明了,这些思考词元对大型推理模型的推理性能至关重要,而其他词元的影响则微乎其微。基于这些分析,作者通过巧妙地利用这些思考词元,提出了两种简单而有效的方法来提升大型推理模型的推理性能。总的来说,作者的工作为大型推理模型的推理机制提供了新颖的见解,并为其推理能力的提升提供了实用的方法。 大型推理模型推理轨迹中互信息峰值的涌现 首先,在模型进行一步步推理生成答案的过程中,研究者会提取每一步生成的词元所对应的内部隐藏状态(hidden representation),记为$h_t$。同时,他们也将最终的正确答案(golden answer)输入模型,得到一个代表正确答案的隐藏状态$h_y$。接着,本文最核心的操作是利用一种名为“希尔伯特-施密特独立性准则”(HSIC)的工具来估计每一步的$h_t$与最终答案$h_y$之间的互信息(MI)值,因为直接计算高维空间中的MI非常困难,而HSIC是一个有效的替代估计方法。通过对多个大型推理模型(如DeepSeek-R1系列)进行实验,他们一致地观察到,MI值在大部分推理步骤中都比较平稳和低,但在某些稀疏且不规律的节点上会突然出现显著的峰值。为了解释这一现象为何重要,论文从理论上给出了两个不等式(定理1和定理2),证明了模型在推理过程中积累的互信息总量($\sum_{j=1}^{T}I(y;h_{j}|h_{

June 10, 2025 · 小茄墩

蚂蚁强化学习框架又又又大幅升级了!

清华大学交叉信息学院与蚂蚁技术研究院的联合团队近日正式开源了全异步强化学习训练系统——AReaL-boba² (AReaL v0.3)。想要深入了解 AReaL 的发展历程,可以参考吴翼老师的亲自答。此次开源代码诚意十足! 本次 v0.3 版本带来了重大升级,全面实现了异步强化学习(RL)训练。新系统完全解耦了模型生成与训练过程,从而大幅提高了显卡利用率并显著提升了训练效率。基于 AReaL v0.3,团队已在代码任务上训练出新的 SOTA模型。 AReaL-boba² 原生支持多轮智能体强化学习训练。通过强化学习算法和训练系统的协同设计 (co-design),该系统在完全不影响模型效果的前提下,实现了稳定且高效的异步 RL 训练。这标志着团队正朝着全面支持 Agentic AI的最终目标不断迈进。 论文:《AReal: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》 该论文提出了一种名为AReaL的大规模异步强化学习(RL)系统,传统同步RL系统在训练大型语言模型(LLMs)时,因需等待批处理中最长输出完成才能进行模型更新,导致GPU利用率低下。AReaL通过完全解耦生成(rollout)和训练过程,让rollout工作节点持续生成新输出,训练工作节点则在收集到足够数据后立即更新模型,从而显著提高GPU利用率。为了保证训练稳定性,AReaL平衡了rollout和训练工作节点的负载以控制数据陈旧度,并采用了一种增强的、能处理过时样本的PPO变体。实验表明,AReaL在数学和代码推理任务上,相比同步系统,在相同GPU数量下能实现高达2.77倍的训练加速,同时保持甚至提升了最终性能。 同步RL系统的两大局限性 马尔可夫决策过程(MDP)框架$<\mathcal{S},\mathcal{A},r,P,\gamma,H>$,其中LRM实现参数化策略 $\pi_{\theta}$。优化目标为 实践中常使用$\gamma=1$且仅在最终动作上给予非零奖励的基于规则的奖励函数,并采用PPO算法进行优化,其目标函数为 其中 $u_{t}(\theta)=\frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{old}(a_{t}|s_{t})}$ 是重要性比例。 LRM的分布式训练通常在SFT之后进行,同步RL系统迭代执行生成和训练两个阶段。 同步RL系统的两大局限性:一是推理设备利用率不足,因为生成必须等待最长序列完成;二是同步RL系统扩展性差,因为将生成任务分散到所有设备导致每个GPU的解码批次减小,易陷入内存IO瓶颈。 系统架构 为解决同步系统的局限性,AReaL设计了一个完全解耦生成和训练的异步系统,旨在实现硬件高效、可扩展和灵活的RL工作流。其核心架构包含四个关键组件:1) 可中断Rollout工作节点:处理生成请求和权重更新请求;更新时会中断当前生成,丢弃旧权重计算的KV缓存,用新权重重新计算并继续未完成序列的解码,这导致轨迹可能由不同模型版本生成 。2) 奖励服务:评估模型生成响应的准确性(如代码任务中执行单元测试)。3) 训练工作节点:从重放缓冲区采样数据,达到训练批次大小后执行PPO更新,并将参数存入分布式存储;为保数据新鲜,数据仅使用一次。4) Rollout控制器:作为协调者,读取数据,调用rollout工作节点生成,将响应送至奖励服务获取奖励,将轨迹和奖励存入重放缓冲区,并在模型更新后调用rollout工作节点的权重更新。 该架构引入了两个算法挑战:一是数据陈旧性,训练批次包含来自多个先前策略版本的数据,可能降低学习性能 ;二是策略版本不一致,生成的轨迹段可能来自不同策略版本,这从根本上违反了标准PPO的假设。 解决AReaL中的算法挑战 首先,为了应对数据陈旧性,引入了**“有意识的陈旧性训练” (Staleness-Aware Training)**。关键做法是设定一个超参数 $η$ 表示训练批次中允许的最大陈旧度(相对于策略版本) 。当 $\eta=0$ 时,系统退化为同步RL 。系统通过动态控制发送给生成服务器的生成请求吞吐量来实现陈旧度控制,具体约束为 $\lfloor(N_{r}-1)/B\rfloor\le i+\eta$,其中 $N_r$ 是已生成的轨迹数, $B$ 是训练批大小, $i$ 是当前策略版本号。同时,优先从数据缓冲区中选择较旧的轨迹组成训练批次。鼓励使用较大的 $η$ 以获得最佳系统吞吐量,这也促使算法能有效利用更陈旧的数据。其次,为了解决策略版本不一致及进一步处理陈旧数据问题,采用了解耦的PPO目标函数。该目标函数将用于采样轨迹的行为策略$\pi_{behav}$ 和作为近期目标以正则化 $\pi_{\theta}$ 更新的近端策略 $\pi_{prox}$ 解耦。新的目标函数为: ...

June 10, 2025 · 小茄墩

Gemini API 支持 TTS

Gemini API 借助其原生的文本转语音 ( TTS ) 功能,可将文本输入转化为单人或多人朗读的音频。用户可以通过自然语言指令来设定交互模式,并调整生成音频的风格、口音、语速和音调。 此 TTS 功能有别于通过 Live API 提供的语音生成服务。 Live API 更侧重于交互式、非结构化的音频场景以及多模态的输入输出处理。尽管 Live API 在处理动态对话方面表现优异,但 Gemini API 的 TTS 功能则更适用于那些需要精确复述文本并对音频风格和音效进行精细控制的应用场景,例如播客或有声读物的制作。 本指南将演示如何利用文本生成单人朗读和多人对话的音频。 gemini-2.5-pro-preview-tts gemini-2.5-flash-preview-tts 单人文本转语音 若要将文本转换为单人朗读的音频,需将响应模式设置为 “audio” ,并传递一个已配置 VoiceConfig 的 SpeechConfig 对象。您需要从预设的输出语音库中选择一个语音名称。 以下示例展示了如何将模型输出的音频保存为 wave 文件: 多人文本转语音 对于多人对话音频,您需要创建一个 MultiSpeakerVoiceConfig 对象,并为每位发言者(最多支持两位)配置相应的 SpeakerVoiceConfig。您需要确保在提示信息中为每位 speaker 定义的名称与配置中的名称一致: 音频流 除了像单人朗读和多人对话示例中那样将音频保存到 wave 文件,您还可以通过音频流的方式从模型获取输出。 音频流会在响应生成过程中逐步返回数据片段,从而带来更流畅的体验。一旦响应开始,音频便会自动播放。 通过提示语控制语音风格 无论是单人朗读还是多人对话的 TTS ,您都可以使用自然语言提示语来控制音频的风格、音调、口音和语速。例如,在单人朗读的提示语中,您可以这样写: 用诡异的耳语朗读: “拇指阵阵刺痛…… 邪恶之物将临近” 在多人对话的提示语中,您需要向模型提供每位发言者的姓名及其对应的文本内容。您还可以针对每位发言者分别给出风格指导: 让 Speaker1 的声音听起来疲惫且无聊,让 Speaker2 的声音听起来兴奋且快乐: Speaker1:那么……今天有什么安排? Speaker2:你绝对猜不到! 可以尝试选用与您期望传达的风格或情感相符的语音选项,以进一步强化效果。例如,在上述提示中,选择带有呼吸声的 Enceladus 语音可能会更突显“疲惫”和“无聊”的感觉,而语调欢快的 Puck 语音则能更好地衬托出“兴奋”和“快乐”的情绪。 ...

May 25, 2025 · 小茄墩

Claude 4 正式发布!

正式发布新一代 Claude 系列模型:Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。 Claude Opus 4 堪称全球顶尖的编程模型,在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级,它不仅编程和推理能力更为出色,响应指令也更为精准。 除模型本身外,我们同时宣布以下更新: 利用工具进行扩展思考(测试版):两款模型均能在扩展思考过程中调用工具(例如网络搜索),使 Claude 能在推理与工具运用间灵活切换,从而优化输出结果。 新增模型功能:两款模型皆可并行使用工具,更精准地遵循指令。此外,在获得开发者授予的本地文件访问权限后,模型将展现大幅提升的记忆能力,能够提取并储存关键信息,确保任务的连贯性,并逐步积累隐性知识。 Claude Code 正式上线:鉴于研究预览版获得了广泛好评,我们进一步拓展了开发者与 Claude 的协作模式。目前, Claude Code 可通过 GitHub Actions 支持后台任务,并已与 VS Code 及 JetBrains 实现原生集成,可直接在用户文件中显示编辑内容,助力无缝结对编程。 API 新增功能:我们在 Anthropic API 上推出了四项新功能,赋能开发者构建更为强大的 AI 智能体。这些功能包括:代码执行工具、 MCP 连接器、 Files API ,以及长达一小时的提示缓存能力。 Claude Opus 4 与 Sonnet 4 均为混合模型,提供两种运行模式:近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能,同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平: Opus 4 的输入/输出价格为每百万 tokens $15/$75 , Sonnet 4 则为 $3/$15 。 ...

May 23, 2025 · 小茄墩