
小米大模型团队在多模态音频理解领域取得重大突破,其研发的模型在国际权威的 MMAU(Massive Multi-Task Audio Understanding and Reasoning)音频理解评测中,以64.5% 的准确率夺冠,超越了此前 OpenAI GPT-4o 的 57.3% 的成绩,仅次于人类专家的 82.23% 的准确率。这一成果主要源于团队对强化学习算法的创新应用,并受到了 DeepSeek-R1 的启发。
MMAU 评测集涵盖语音、环境音和音乐等多种音频样本,旨在评估模型在复杂音频推理任务中的能力。小米团队的实验采用 DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,通过“试错-奖励”机制,使模型能够进行类似人类的反思和推理。值得关注的是,即使仅使用 3.8 万条训练样本,该模型仍取得了显著的成绩,比原榜首高出近 10 个百分点。 实验结果还表明,隐式推理优于传统的显式思维链输出方式。
尽管取得了令人瞩目的进展,但小米团队也认识到与人类专家水平仍存在差距,并表示将持续优化强化学习策略,以提升模型的推理能力。 这项研究不仅展现了强化学习在音频理解领域的巨大潜力,也为智能听觉时代的到来奠定了基础,预示着智能音频技术将迎来新的发展机遇。 为促进学术界和产业界的交流与合作,团队已公开发布训练代码、模型参数及技术报告,并提供交互演示。
- 训练代码: https://github.com/xiaomi-research/r1-aqa
- 模型参数: https://huggingface.co/mispeech/r1-aqa
- 技术报告: https://arxiv.org/abs/2503.11197 (请注意:arxiv.org/abs/2503.11197 此链接可能为示例链接,实际链接可能需要根据实际情况进行修改)
- 交互演示: https://120.48.108.147:7860/

快讯中提到的AI工具

DeepSeek
深度求索:引领未来人工智能技术的探索与创新

GPT-4o
OpenAI 最新的旗舰模型

GPT-4
OpenAI 发布的最新一代语言模型

OpenAI
致力于创造对全人类有益的安全 AGI
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/0k7kvshj暂无评论...