通义实验室开源R1-Omni模型,强化学习在多模态任务中展现显著优势

随着DeepSeek R1的推出,强化学习在大模型领域的潜力进一步凸显。通义实验室近日宣布开源R1-Omni模型,该模型结合了Reinforcement Learning with Verifiable Reward(RLVR)方法,为视频全模态任务提供了全新的优化思路。R1-Omni的一大亮点在于其透明性,通过RLVR方法,模型能够清晰地展示音频和视频信息在推理过程中的作用,例如在情绪识别任务中明确关键模态信息。

实验结果显示,R1-Omni在同分布测试集(DFEW和MAFW)上相较于原始基线模型平均提升超过35%,在不同分布测试集(RAVDESS)上也展现了卓越的泛化能力,WAR和UAR均提升超过13%。这些成果验证了RLVR在提升模型推理能力和泛化性能上的显著优势。

上一篇: 大上科技推出Paperlike Color显示器升级服务
下一篇:

为您推荐