小米大模型团队音频推理领域登顶国际评测榜，取得重大突破

摘要：

小米大模型团队在多模态音频理解领域取得重大突破，其研发的模型在国际权威的 MMAU（Massive Multi […]

小米大模型团队在多模态音频理解领域取得重大突破，其研发的模型在国际权威的 MMAU（Massive Multi-Task Audio Understanding and Reasoning）音频理解评测中，以64.5% 的准确率夺冠，超越了此前 OpenAI GPT-4o 的 57.3% 的成绩，仅次于人类专家的 82.23% 的准确率。这一成果主要源于团队对强化学习算法的创新应用，并受到了 DeepSeek-R1 的启发。

MMAU 评测集涵盖语音、环境音和音乐等多种音频样本，旨在评估模型在复杂音频推理任务中的能力。小米团队的实验采用 DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法，通过“试错-奖励”机制，使模型能够进行类似人类的反思和推理。值得关注的是，即使仅使用 3.8 万条训练样本，该模型仍取得了显著的成绩，比原榜首高出近 10 个百分点。实验结果还表明，隐式推理优于传统的显式思维链输出方式。

尽管取得了令人瞩目的进展，但小米团队也认识到与人类专家水平仍存在差距，并表示将持续优化强化学习策略，以提升模型的推理能力。这项研究不仅展现了强化学习在音频理解领域的巨大潜力，也为智能听觉时代的到来奠定了基础，预示着智能音频技术将迎来新的发展机遇。为促进学术界和产业界的交流与合作，团队已公开发布训练代码、模型参数及技术报告，并提供交互演示。

训练代码: https://github.com/xiaomi-research/r1-aqa
模型参数: https://huggingface.co/mispeech/r1-aqa
技术报告: https://arxiv.org/abs/2503.11197 (请注意：arxiv.org/abs/2503.11197 此链接可能为示例链接，实际链接可能需要根据实际情况进行修改)
交互演示: https://120.48.108.147:7860/