摘要
在这项工作中,我们首次将具有Verifiable Reward 的强化学习 (RLVR) 应用于 Omni-多模态大语言模型,用于情感识别。情感识别是一项视觉和音频模态都起着关键作用的任务。我们利用 RLVR 来优化 Omni 模型,从而显著提高其在三个关键方面的性能:推理能力、情感识别准确性和泛化能力。RLVR 的引入不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上进行评估时也表现出卓越的鲁棒性。更重要的是,改进的推理能力能够清晰地分析不同模态(特别是视觉和音频信息)在情感识别过程中的贡献。这为多模态大语言模型的优化提供了宝贵的见解。
介绍
随着 DeepSeek R1 的问世,强化学习 (RL) 的潜力越来越受到从事大语言模型研究人员的关注。DeepSeek R1 引入的一项关键创新是具有可验证奖励的强化学习 (RLVR),它利用基于规则的奖励机制,以高效且可靠的方式优化模型。 即使在训练数据有限的情况下,这种方法在增强大语言模型 (LLM) 的能力方面也表现出了显著的成功。最近的研究已将这种方法扩展到多模态大语言模型 (MLLM),进一步展示了其多功能性。 例如,R1-V 已应用于几何推理和视觉计数等任务,在这些任务中,使用 RLVR 训练的 MLLM 不仅表现出强大的推理能力,而且在领域内测试中实现了与监督微调 (SFT) 相当的性能,同时在分布外 (OOD) 评估中显著优于 SFT 模型。 在另一项值得注意的工作中,Visual-RFT 的作者验证了 RLVR 在图像分类和目标检测等经典计算机视觉任务中的有效性。 他们的结果表明,RLVR 在几乎所有类别中都始终优于 SFT,突显了其广泛的适用性和稳健性。
尽管取得了这些进展,但迄今为止,RLVR 与大语言模型(LLM)的集成主要局限于图像-文本模态。据我们所知,之前的研究尚未探索将 RLVR 应用于基于视频的多模态模型,这些模型整合了更丰富的信息来源,例如音频和动态视觉内容。为了弥合这一差距,我们首次探索了 RLVR 与视频全模态模型的结合,重点关注情感识别任务——在这个领域,视觉和音频模态都为准确的预测提供了关键线索。在这项研究中,我们以 HumanOmni 为基础,这是一个首个为以人为中心的场景理解而设计的开源全模态模型。通过将 RLVR 应用于 HumanOmni,我们旨在研究其在提高情感识别性能方面的潜力。我们的研究结果揭示了几个关键见解:
- 增强的推理能力:R1-Omni 展示了卓越的推理能力,能够更清楚地理解视觉和音频信息如何促进情感识别。
- 改进的理解能力:与 SFT 相比,RLVR 显著提高了情感识别任务的性能。
- 更强的泛化能力:RLVR 模型表现出明显更好的泛化能力,尤其是在分布外场景中表现出色。
基于可验证奖励的强化学习
$$ R(q, o) = \begin{cases} 1, & \text{如果 } o = \text{基本真值}, \\ 0, & \text{否则}. \end{cases} $$$$ \max_{\pi_\theta} \mathbb{E}_{o \sim \pi_\theta(q)} \left[ R_{\text{RLVR}}(q, o) \right] $$$$ R_{\text{RLVR}}(q, o) = R(q, o) - \beta \cdot \text{KL}[\pi_\theta(o|q) \| \pi_{\text{ref}}(o|q)]. $$这里,$\pi_{\text{ref}}$ 表示优化之前的参考模型,$R(q, o)$ 是可验证的奖励函数,$\beta$ 是一个超参数,用于控制最大化奖励和通过 KL 散度正则化保持与参考模型接近程度之间的权衡。
在这项工作中,我们将 RLVR 的应用扩展到传统领域(如数学和编码)之外,扩展到多模态情感识别领域,其中视觉和音频模态都有助于最终的预测。具体来说,我们利用来自 MAFW 和 DFEW 数据集的训练集(总共包含 15,306 个视频样本)来训练我们的 Omni-multimodal 模型。值得注意的是,这些数据集仅提供情感类别的注释,而没有为推理过程提供任何明确的标签或监督。尽管存在这种限制,但通过利用 RLVR,我们的目标是增强 Omni-multimodal 模型在这个具有挑战性的任务中的推理能力、性能和泛化能力。
群组相对策略优化 (GRPO)
$$ A_i = \frac{r_i - \text{mean}(\{r_1, \dots, r_G\})}{\text{std}(\{r_1, \dots, r_G\})},$$其中 $A_i$ 表示归一化分数,指示第 $i$ 个响应的相对质量。 通过利用这种标准化的评分机制,GRPO 鼓励模型优先考虑组内具有较高奖励值的响应。 这种方法不仅降低了对外部评价模型的依赖,而且增强了模型有效区分高质量和低质量输出的能力。 遵循 DeepSeek R1 中提出的方法,我们将 GRPO 与 RLVR 相结合,以利用这两种方法的优势。 这种集成使我们能够实现卓越的推理、泛化和情感识别能力。
使用 EMER 数据集进行冷启动
为了确保 RLVR 的顺利训练,我们采用了一种冷启动策略,其灵感来源于 DeepSeek R1 中使用的训练方法。 具体来说,我们通过在由来自可解释多模态情感推理 (EMER) 数据集的 232 个样本和我们手动标注的 HumanOmni 数据集的 348 个样本组成的组合数据集上对 HumanOmni-0.5B 进行微调来初始化它,从而得到总共 580 个视频样本。 这一步至关重要,它能使模型在进行 RLVR 训练之前,具备初步的推理能力。 EMER 数据集是专门为可解释的情感推理任务设计的。 它包含多模态数据(视觉和音频),并配有详细的注释,描述了情感识别背后的推理过程。 通过在冷启动阶段利用此数据集,我们能够使 HumanOmni 模型初步了解视觉和音频线索如何促进情感识别。 冷启动阶段使用的 EMER 数据的具体格式如下所示。
Human: 作为一名情感识别专家,在整个视频中,你认为角色传达的哪种情绪最明显? 请在“<think></think>”标签中输出思考过程,并在“<answer></answer>”标签中输出最终情绪。
GPT: <think>在视频的开场场景中,我们看到一个男性角色略微皱着眉头,目光直接集中在他对面的人身上,眼睛睁得大大的,似乎在说话或表达某种观点。在最后的场景中,皱眉变得更加明显,男性角色的表情变得更加烦躁。基于这些场景,可以推断出视频中的男性角色对对方不满和愤怒。在音频中,语调高亢而情绪化,节奏很快,给人一种兴奋的感觉。在文本中,字幕显示:“我并不认为自己有多特别,我只是不明白你为什么要这样对我。”这句话表达了男性角色的不满和愤怒。基于视频线索,男性角色略微皱眉,目光直接看向对方,眼睛睁大,以及最后场景中更加明显的皱眉和烦躁的表情,可以推断出男性角色对对方不满和愤怒。此外,描述高亢而情绪化的语调、快节奏的音频线索也支持这一推断。因此,这句话表达了男性角色对对方的不满和愤怒。</think>
<answer>愤怒</answer>
完成冷启动阶段后,HumanOmni模型已准备好使用RLVR进行进一步优化,这将在后续章节中讨论。
RLVR
准确率奖励 ($R_{\text{acc}}$) 评估预测的情感与真实值 (GT) 相比的正确性。为了生成预测,我们使用一个特定的提示词 (prompt):“作为一名情感识别专家;在整个视频中,对你来说最明显的情感是什么?在 <think> </think> 标签中输出思考过程,在 <answer> </answer> 标签中输出最终情感。” 模型的输出预计包括两个部分。一个包含在“<think></think>”标签内的推理过程,解释了模型如何整合视觉和音频线索来得出其预测。一个包含在“<answer></answer>”标签内的最终情感标签,代表了预测的情感。
$$ R_{\text{acc}} = \begin{cases} 1, & \text{如果预测的情感与真实值匹配}, \\ 0, & \text{否则}. \end{cases} $$这种二元评分机制确保模型直接受到激励以产生正确的情感预测。格式奖励强制严格遵守所需的输出结构,确保模型的预测符合指定的类 HTML 标签格式。
如果输出满足这些格式约束,则格式奖励被赋值为 1;否则,它被设置为 0:此约束确保模型生成结构化且可解释的输出,从而促进下游分析和评估。 通过结合这两个组成部分,奖励函数不仅鼓励模型产生准确的预测,而且确保输出结构良好并与所需的格式对齐。
实验
在本节中,我们将展示实验结果,以验证我们的 RLVR 在增强 HumanOmni-0.5B 能力方面的有效性。我们将 R1-Omni(RLVR 训练)与三个模型进行比较。1. HumanOmni-0.5B。2. EMER-SFT:一个在 EMER 数据集上训练的监督微调模型(冷启动阶段)。3. MAFW-DFEW-SFT:一个直接基于 HumanOmni-0.5B 在 MAFW 和 DFEW 训练集上训练的监督微调模型。
我们的实验系统地评估了 R1-Omni 的性能,并揭示了三个关键优势:(1)它通过为其预测生成详细且可解释的解释,展示了增强的推理能力;(2)它实现了对多模态数据的更好理解,从而在情感识别任务中获得了更高的准确性;(3)它表现出更强的泛化到分布外数据的能力,展示了跨不同场景的鲁棒性。
增强的推理能力
R1-Omni 最显著的优势之一是其卓越的推理能力。 为了说明 R1-Omni 的推理能力,我们在图1中展示了一组可视化示例,将其输出与其他三个模型的输出进行比较。 这些例子直观地展示了 R1-Omni 在推理连贯性和可解释性方面相对于其他方法的优越性。
我们可以观察到,原始的 HumanOmni-0.5B 和 MAFW-DFEW-SFT 模型表现出有限的推理能力。 虽然 EMER-SFT 展示了一定程度的推理能力,但其推理过程的连贯性相对较差,并且容易产生幻觉。 例如,在 MAFW 和 DFEW 数据集上进行测试时,R1-Omni 始终优于这些基线模型,因为它提供了更连贯、准确和可解释的推理过程。 这种增强的推理能力不仅提高了模型的整体性能,而且还提供了对视觉和音频信息如何在情感识别任务中交互的更深入的见解。
改进的理解能力
为了定量评估 R1-Omni 的理解能力,我们将其在 MAFW 和 DFEW 数据集上的表现与其他模型进行了比较。用于评估的指标是无权重平均召回率 (UAR) 和加权平均召回率 (WAR),它们衡量了模型在不同类别中准确分类情绪的能力。重要的是,所有评估都是使用开放词汇情感测试 (OV-emotion) 协议进行的。在这种设置中,模型没有获得预定义的情感类别,而是直接从输入数据生成情感标签。MAFW 和 DFEW 数据集上 UAR 和 WAR 指标的结果总结在表1中。
为了更直观的比较,请参考图2。从表1中呈现的结果可以看出,R1-Omni 在两个数据集上始终优于其他模型,取得了最高的 UAR 和 WAR 分数。实验结果表明,R1-Omni 模型在 MAFW 和 DFEW 数据集上的性能明显优于 SFT 模型。具体而言,在 DFEW 数据集上,R1-Omni 的 UAR 达到了 65.83%,WAR 达到了 56.27%,超过了 SFT 模型的 UAR (60.23%) 和 WAR (44.39%)。类似地,在 MAFW 数据集上,R1-Omni 也表现出显著的提升,UAR 为 57.68%,WAR 为 40.04%,而 SFT 模型仅实现了 50.44% 的 UAR 和 30.39% 的 WAR。这些结果清晰地表明,RLVR 方法不仅能更有效地利用特定任务的数据,还能增强模型的一般理解和推理能力,从而在两个数据集上都实现了持续更高的性能。
更强的泛化能力
为了评估 R1-Omni 的泛化能力,我们使用了 RAVDESS 数据集进行实验,该数据集被用作分布外 (OOD) 测试集。 与主要由电影片段构成的 MAFW 和 DFEW 数据集不同,RAVDESS 数据集以专业的演员用中性的北美口音朗读词汇匹配的语句为特色。 数据分布的这种显著差异使得 RAVDESS 成为评估模型在未见场景下的泛化能力的理想基准。
从表1中展示的实验结果可以明显看出,R1-Omni 模型在 RAVDESS 数据集上的表现显著优于 MAFW-DFEW-SFT 模型。 具体而言,R1-Omni 模型实现了 43.00% 的 UAR 和 44.69% 的 WAR,超过了 SFT 模型的 29.33% UAR 和 30.75% WAR。 这一显著差距突显了 R1-Omni 卓越的泛化能力。
局限性
不准确的字幕识别
在第一个例子中,尽管模型产生了正确的情感预测,但我们观察到字幕识别的不准确性仍然是一个潜在的限制。这个问题出现的原因是,无论是 HumanOmni 基础模型,还是随后的 SFT 和 RLVR 训练过程,都没有明确侧重于提高字幕识别能力。要解决这个限制,需要整合更强大的字幕处理技术,例如在专门的数据集上进行微调,或者整合先进的自然语言理解模型。
推理中的幻觉
第二个例子展示了一个常见的问题,即幻觉现象。模型生成了推理输出,但这些输出并没有扎根于视频的实际内容。例如,“旁白揭示了她最初的中性反应,随着时间的推移逐渐转变为轻微的兴奋和愤怒”这一说法,与视频中实际的情感变化轨迹并不一致。 这种虚构的推理导致模型错误地预测情绪为惊讶,突显了我们需要一些机制来确保模型的输出能够忠实于输入数据。
音频线索的未充分利用
第三个例子突显了模型在充分利用音频线索(例如音调和语调)方面的局限性,而这些线索对于准确的情感识别至关重要。尽管我们的模型能够通过整合音频和视觉信息来推断情感,但在某些情况下,音频特征的使用似乎不如视觉线索那样彻底或有效。在这个特定的例子中,角色的声音传递提供了强烈的情感信号,但模型未能充分将这些细微差别融入到其推理过程中。
对未来研究的启示
我们分析中发现的局限性突显了未来研究中几个有希望的方向,以进一步增强 R1-Omni 的能力。具体来说,我们提出以下几个关键的探索领域:
- 加强基础模型的能力
虽然 RLVR 显著增强了基础模型的推理和泛化能力,但基础模型固有的性能仍然是整体成功的关键决定因素。因此,持续努力改进底层 Omni 模型,例如通过更大规模的预训练、更多样化的数据集或更先进的架构设计,对于释放基于 RLVR 方法的全部潜力至关重要。
- 减轻推理输出中的幻觉
由于多模态数据固有的挑战,例如视频和音频 Token 中较弱的因果关系(与文本 Token 相比),以及缺乏对推理内容的明确监督,幻觉可能在模型的推理过程中发生。这些不准确之处不仅会降低性能,还会对用户体验产生负面影响。开发检测和减轻幻觉的机制对于提高模型的可靠性和可用性至关重要。
增强音频线索的利用 当前模型的局限性之一在于对音频线索(例如音调和语调)的利用不足。未来的工作应着重于提升模型有效提取和整合音频特征的能力。
增强推理深度和情商
当前的推理过程倾向于机械化,主要关注直接可观察的特征,例如视觉线索和音频信号。然而,人类的情感识别往往涉及更深层次的心理洞察,例如理解个体的动机、意图或内在状态。通过引导模型探索更微妙的推理层面,例如推断心理活动或情感驱动因素,我们可以提升其情商,并增强其捕捉复杂情感动态的能力。 这种进步将使模型能够在现实场景中更好地模拟类人同理心和推理。