R1-Omni:基于强化学习的可解释全方位多模态情感识别

摘要 在这项工作中,我们首次将具有Verifiable Reward 的强化学习 (RLVR) 应用于 Omni-多模态大语言模型,用于情感识别。情感识别是一项视觉和音频模态都起着关键作用的任务。我们利用 RLVR 来优化 Omni 模型,从而显著提高其在三个关键方面的性能:推理能力、情感识别准确性和泛化能力。RLVR 的引入不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上进行评估时也表现出卓越的鲁棒性。更重要的是,改进的推理能力能够清晰地分析不同模态(特别是视觉和音频信息)在情感识别过程中的贡献。这为多模态大语言模型的优化提供了宝贵的见解。 介绍 随着 DeepSeek R1 的问世,强化学习 (RL) 的潜力越来越受到从事大语言模型研究人员的关注。DeepSeek R1 引入的一项关键创新是具有可验证奖励的强化学习 (RLVR),它利用基于规则的奖励机制,以高效且可靠的方式优化模型。 即使在训练数据有限的情况下,这种方法在增强大语言模型 (LLM) 的能力方面也表现出了显著的成功。最近的研究已将这种方法扩展到多模态大语言模型 (MLLM),进一步展示了其多功能性。 例如,R1-V 已应用于几何推理和视觉计数等任务,在这些任务中,使用 RLVR 训练的 MLLM 不仅表现出强大的推理能力,而且在领域内测试中实现了与监督微调 (SFT) 相当的性能,同时在分布外 (OOD) 评估中显著优于 SFT 模型。 在另一项值得注意的工作中,Visual-RFT 的作者验证了 RLVR 在图像分类和目标检测等经典计算机视觉任务中的有效性。 他们的结果表明,RLVR 在几乎所有类别中都始终优于 SFT,突显了其广泛的适用性和稳健性。 尽管取得了这些进展,但迄今为止,RLVR 与大语言模型(LLM)的集成主要局限于图像-文本模态。据我们所知,之前的研究尚未探索将 RLVR 应用于基于视频的多模态模型,这些模型整合了更丰富的信息来源,例如音频和动态视觉内容。为了弥合这一差距,我们首次探索了 RLVR 与视频全模态模型的结合,重点关注情感识别任务——在这个领域,视觉和音频模态都为准确的预测提供了关键线索。在这项研究中,我们以 HumanOmni 为基础,这是一个首个为以人为中心的场景理解而设计的开源全模态模型。通过将 RLVR 应用于 HumanOmni,我们旨在研究其在提高情感识别性能方面的潜力。我们的研究结果揭示了几个关键见解: 增强的推理能力:R1-Omni 展示了卓越的推理能力,能够更清楚地理解视觉和音频信息如何促进情感识别。 改进的理解能力:与 SFT 相比,RLVR 显著提高了情感识别任务的性能。 更强的泛化能力:RLVR 模型表现出明显更好的泛化能力,尤其是在分布外场景中表现出色。 基于可验证奖励的强化学习 $$ R(q, o) = \begin{cases} 1, & \text{如果 } o = \text{基本真值}, \\ 0, & \text{否则}. \end{cases} $$$$ \max_{\pi_\theta} \mathbb{E}_{o \sim \pi_\theta(q)} \left[ R_{\text{RLVR}}(q, o) \right] $$$$ R_{\text{RLVR}}(q, o) = R(q, o) - \beta \cdot \text{KL}[\pi_\theta(o|q) \| \pi_{\text{ref}}(o|q)]. $$ 这里,$\pi_{\text{ref}}$ 表示优化之前的参考模型,$R(q, o)$ 是可验证的奖励函数,$\beta$ 是一个超参数,用于控制最大化奖励和通过 KL 散度正则化保持与参考模型接近程度之间的权衡。 ...

March 11, 2025 · 小茄墩