小米大模型团队音频推理领域登顶国际评测榜,取得重大突破

1个月前发布AI俱乐部
3 0 0

小米大模型团队在多模态音频理解领域取得重大突破,其研发的模型在国际权威的 MMAU(Massive Multi-Task Audio Understanding and Reasoning)音频理解评测中,以64.5% 的准确率夺冠,超越了此前 OpenAI GPT-4o 的 57.3% 的成绩,仅次于人类专家的 82.23% 的准确率。这一成果主要源于团队对强化学习算法的创新应用,并受到了 DeepSeek-R1 的启发。

MMAU 评测集涵盖语音、环境音和音乐等多种音频样本,旨在评估模型在复杂音频推理任务中的能力。小米团队的实验采用 DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,通过“试错-奖励”机制,使模型能够进行类似人类的反思和推理。值得关注的是,即使仅使用 3.8 万条训练样本,该模型仍取得了显著的成绩,比原榜首高出近 10 个百分点。 实验结果还表明,隐式推理优于传统的显式思维链输出方式。

尽管取得了令人瞩目的进展,但小米团队也认识到与人类专家水平仍存在差距,并表示将持续优化强化学习策略,以提升模型的推理能力。 这项研究不仅展现了强化学习在音频理解领域的巨大潜力,也为智能听觉时代的到来奠定了基础,预示着智能音频技术将迎来新的发展机遇。 为促进学术界和产业界的交流与合作,团队已公开发布训练代码、模型参数及技术报告,并提供交互演示。

小米大模型团队音频推理领域登顶国际评测榜,取得重大突破

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/0k7kvshj

暂无评论

none
暂无评论...