小米大模型团队在音频推理 MMAU 榜上取得首屈一指的成绩,并受到DeepSeek-R1的启发

1个月前发布AI俱乐部
3 0 0
小米大模型团队在音频推理 MMAU 榜上取得首屈一指的成绩,并受到DeepSeek-R1的启发的封面图

小米技术官方微博宣布,其大模型团队在音频推理领域取得了显著进展。团队受到DeepSeek-R1的启发,率先将强化学习算法用于多模态音频理解任务。他们在短短一周内以64.5%的SOTA(State Of The Art)准确率登顶了国际权威的MMAU音频理解评测榜,并同时开源了相关技术。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是一个测试音频推理能力的重要标准,包含一万条语音、环境音和音乐样本,旨在评估模型在多种技能上的表现。人类专家在该评测集上的准确率为82.23%,目前该榜单上表现最好的模型为OpenAIGPT-4o,准确率为57.3%,其次是Google DeepMind的Gemini2.0Flash,准确率为55.6%。

在小米团队的研究中,他们最初使用了清华大学发布的AVQA数据集进行微调,取得了51.8%的准确率。然而,真正的突破是在将DeepSeek-R1的Group Relative Policy Optimization(GRPO)算法应用到Qwen2-Audio-7B模型后,仅用AVQA的3.8万条训练样本就实现了64.5%的准确率,超越了现有的商业模型。

研究团队发现,当在训练过程中强制模型输出推理过程时,准确率反而下降至61.1%。这表明明确的思维链输出可能不利于模型训练,强化学习的实时反馈机制更有助于模型锁定高质量答案的分布区域。尽管他们已经取得了显著的准确率,但仍然存在差距,距离人类专家水平还有一定距离。

小米大模型团队的实验结果不仅展示了强化学习在音频推理领域的独特优势,也为未来的研究提供了新的思路。他们还将训练代码、模型参数以及技术报告进行了开源,以便学术界和产业界进一步研究和交流。

您可以使用以下链接了解更多信息:

总的来说,小米大模型团队通过强化学习算法在音频推理领域取得了突破,准确率达到64.5%。MMAU评测集是音频推理能力的重要标准,当前人类专家准确率为82.23%。研究结果显示,强化学习的实时反馈机制对模型训练更为有效,未来研究仍需深入探索。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/reeltdhj

暂无评论

none
暂无评论...