JetFormer:自回归大模型,原生图像输出的秘诀?

摘要 移除建模约束和统一跨领域的架构一直是训练大型多模态模型取得最新进展的关键驱动因素。然而,大多数这些模型仍然依赖于许多单独训练的组件,例如特定模态的编码器和解码器。在这项工作中,我们进一步简化了图像和文本的联合生成建模。我们提出了一种 autoregressive decoder-only transformer—JetFormer—它被训练来直接最大化原始数据的似然,而不依赖于任何单独预训练的组件,并且能够理解和生成文本和图像。具体来说,我们利用归一化流模型来获得一个软Token图像表示,该表示与自回归多模态Transformer联合训练。归一化流模型在推理期间既充当感知任务的图像编码器,又充当图像生成任务的图像解码器。JetFormer实现了与最近基于VQVAE和VAE的基线模型相媲美的文本到图像生成质量。这些基线模型依赖于预训练的图像自动编码器,这些自动编码器使用包括感知损失在内的复杂损失混合进行训练。与此同时,JetFormer展示了强大的图像理解能力。据我们所知,JetFormer是第一个能够生成高保真图像并产生强大的对数似然边界的模型。 介绍 “痛苦的教训”一直是机器学习和人工智能研究近期进展背后的主要推动力。 它表明,能够有效利用大量计算资源和数据的一般用途方法,胜过领域专家设计的专用技术。 在此背景下,最突出的例子包括:仅使用 Transformer 解码器的模型,这些模型经过训练用于下一个 Token 预测,其性能优于特定任务的 NLP 系统;以及计算机视觉中的 Transformer 编码器,它们实现了比基于 CNN 的模型更好的质量。 这种趋势在当前将大语言模型 (LLM) 扩展到理解和生成多种模态(例如文本和图像)的尝试中也很明显。 文献中一个有效的范例是使用通过 (VQ)VAE 获得的离散 Token 来建模图像 Token。 这些方法的一个局限性在于,从图像到 Token 以及反之的转换是由一个单独的、冻结的、特定于模态且有损的编码器(和解码器)预先执行的。 因此,此图像编码器可能与手头的实际任务无关,从而限制了最终模型的性能。 为了获得一个能够生成多种模态,且不依赖于预训练(具有局限性)组件的通用架构,我们开发了一种新的生成模型:JetFormer。 它可以从头开始训练,并针对原始训练数据的对数似然进行端到端优化。 我们以文本和像素为例展示了这一点。 为此,我们将用于计算软 Token 图像表示的归一化流与仅解码器的 Transformer 以及软 Token 高斯混合损失相结合。 JetFormer 模型背后的关键洞察在于,强大的归一化流(我们称之为 “jet”,因此得名)可用于将图像编码成适合自回归建模的潜在表示。 直观地说,编码为像素的原始图像块具有非常复杂的结构,这使得直接自回归变得困难重重: 迄今为止,还没有令人信服的演示能够成功实现这一点。 同时,该流模型是无损的,并且可以与(多模态)自回归模型一起进行端到端训练。 在推理时,图像解码器可以随时使用,因为我们的流模型具有闭合形式的可逆性。 尽管我们仅优化对数似然,但值得注意的是,仅仅这样做并不能保证生成具有全局连贯性的图像。与绝大多数关于高保真图像生成的工作类似,我们引导模型专注于高层次的信息。为此,我们探索了两种方法。首先,我们引入了一种基于训练期间图像增强的创新技术。其主要思想是在训练期间添加高斯噪声,并在训练过程中逐渐降低噪声。直观地说,这促使模型在早期阶段优先考虑高层次的信息;即使训练期间的噪声curriculum 受到扩散模型的启发,但在技术层面上却截然不同,并且最终的模型在推理时不会执行渐进式图像去噪。 其次,我们探索了两种管理自然图像中冗余信息的方法。JetFormer 能够轻松地从自回归模型中排除冗余维度的子集。作为一种替代方案,我们探索了使用 PCA 来降低图像维度。我们对 ImageNet 类条件图像生成和网络规模的多模态生成进行了实验,从而证明了 JetFormer 的有效性,并且可以使用单个模型扩展到文本到图像生成和视觉语言理解。 总之,我们的贡献是: 我们提出了 JetFormer,一个由 Transformer 和归一化流组成的生成模型,可以从头开始训练,以端到端的方式联合建模文本和原始像素。 我们表明,基于噪声学习curriculum的图像增强可以显著提高此类基于似然性的模型的图像生成质量。 我们证明了我们提出的端到端模型在网络规模数据上训练时,与不太灵活的技术相比具有竞争力,并且可以生成图像和文本。 相关工作 在文献中,使用 CNN 或 Transformer 以自回归的方式生成自然图像作为离散值像素序列已被广泛探索。 虽然在对数似然方面取得了优异的结果,但这些模型的计算成本很高,并且无法很好地扩展到高图像分辨率。 一系列相关的模型是归一化流,即可逆模型,通过最大化对数似然来训练这些模型,以将图像像素映射到简单的先验。 这些模型的可扩展性更好,但获得的似然性低于自回归模型,并且即使对于低分辨率,在经验上也无法生成高保真图像。 ...

March 30, 2025 · 小茄墩