MOE | 一只小茄墩

ICLR2025 oral 摘要虽然大语言模型 (LLM) 在生成任务中表现出色，但如果未应用进一步的representation finetuning，其仅解码器架构通常会限制它们作为嵌入模型的潜力。这是否与它们作为通用模型的声明相矛盾？为了回答这个问题，我们仔细研究了混合专家模型 (MoE) LLM。我们的研究表明，MoE LLM 中的专家路由器可以作为开箱即用的嵌入模型，在各种以嵌入为中心的任务中表现出良好的性能，而无需任何微调。此外，我们广泛的分析表明，MoE 路由权重 (RW) 与 LLM 的隐藏状态 (HS) 互补，而隐藏状态是一种广泛使用的嵌入。与 HS 相比，我们发现 RW 对提示词的选择更具鲁棒性，并且侧重于高级语义。受此分析的启发，我们提出了 [MoEE]，它结合了 RW 和 HS，与单独使用两者相比，实现了更好的性能。我们对它们的组合和提示策略的探索揭示了一些新的见解，例如，RW 和 HS 相似度的加权和优于它们连接后的相似度。我们的实验在来自大规模文本嵌入基准 (MTEB) 的 6 个嵌入任务和 20 个数据集上进行。结果表明，[MoEE] 在不进行进一步微调的情况下，为基于 LLM 的嵌入带来了显着改进。介绍混合专家模型 (MoE) 作为一种多功能的架构，最初在 1990 年代开发，可以通过将任务分配给专门的专家来提高模型泛化能力并降低推理成本。随着时间的推移，MoE 在自然语言处理和计算机视觉等领域越来越突出，尤其是在大语言模型 (LLM) 的开发中越来越受到关注。 MoE 的一个关键组成部分是动态路由器，它可以智能地将每个输入分配给最相关的专家。这使得 MoE 能够根据每个输入的独特特征来定制其计算，从而优化效率和准确性。然而，最近的大多数 LLM 和 MoE LLM 都是建立在仅解码器架构之上的，该架构经过训练用于自回归的下一个 Token 预测。虽然在生成任务方面表现出色，但它们的最终或中间隐藏状态 (HS) 并非旨在捕获输入 Token 的关键特征并涵盖其所有信息。相反，HS 可能会偏向于下一个输出 Token 的信息。尽管提取最后一个 Token 的隐藏状态 (HS) 作为嵌入是一种常见的经验做法，但它甚至可能比专门为嵌入任务训练的较小编码器模型表现得更差。以分类为例，语义略有不同的输入可能与相同的标签相关联，因此旨在预测标签的最后一个 HS 可能会忽略输入差异。尽管专门针对表征学习的额外微调可以大大增强 LLM 作为嵌入模型的能力，但考虑到嵌入任务的广泛应用，这提出了预训练的 LLM 是否可以被称为通用人工智能的问题。 ...