西北工业大学推出开源语音理解模型OSUM:融合Whisper与Qwen2,赋能八大语音理解任务

2个月前发布AI俱乐部
6 0 0
西北工业大学推出开源语音理解模型OSUM:融合Whisper与Qwen2,赋能八大语音理解任务的封面图

近期,一种开源的统一语音模型引起了广泛关注,它能够处理多种语音相关的任务,被称为统一语音大模型(SULMs)。据悉,该模型由上海交通大学 ASLP 实验室团队研发,并公开发布了其语音模型 OSUM。值得一提的是,该模型在语音识别、语音翻译以及其他语音处理任务中均表现出色,为相关领域的研究者提供了强大的工具。

OSUM 模型集成了 Whisper 模型与 Qwen2 语音模型的技术,规模达到了 8 亿参数,可用于执行多种语音任务,例如自动语音识别(ASR)、语音翻译(SRWT)、视频事件检测(VED)、语音情感识别(SER)、自监督表征(SSR)、语音内容理解(SGC)、语音对抗攻击(SAP)以及语音到文本内容生成(STTC)。该模型支持 ASR+X 任务模式,即通过结合其他技术来提升特定领域的语音处理效果,从而满足多样化的应用需求。

OSUM 模型的突出特点在于其全面的能力,可以处理各种语音任务,并具备良好的泛化性能。该模型能够高效地处理口语化表达和噪声环境下的语音数据,同时支持多种语言,为全球范围内的语音技术应用提供了便利。在模型版本 v2.0 中,OSUM 模型在语音理解方面的表现尤为出色,训练数据量达到了 50.5K 小时,验证数据量为 44.1K 小时。此外,该版本还包含了 3000 小时的语音情感识别数据和 6800 小时的语音对抗攻击数据。这些丰富的数据资源为模型的训练提供了有力支持,使其在各项语音任务中均能取得优异的成绩。

总而言之,OSUM 在大规模语音任务中表现出色,它复现了 Qwen2-Audio 模型,支持在本地进行模型部署和个性化模型定制。该模型不仅具有强大的性能,还具备高度的灵活性,为语音技术的发展带来了新的可能性。希望 OSUM 模型能够在语音识别领域发挥更大的作用,推动相关技术的创新与应用。

上海交通大学 ASLP 实验室团队表示,OSUM 模型的发布旨在促进语音技术领域的开放研究,并为研究者提供便利。团队希望通过分享其在语音模型方面的研究成果,促进学术交流和技术进步。为了方便研究人员使用该模型,团队提供了详尽的文档和使用指南,以便大家能够更好地理解和应用该模型,共同推动语音技术的发展。

项目地址:https://github.com/ASLP-lab/OSUM?tab=readme-ov-file

主要亮点:  

✨ OSUM 模型融合了 Whisper 和 Qwen2 语音模型的技术,拥有 8 亿参数规模,能够完成多项语音任务,并具备出色的性能表现。  

📚 OSUM 在其 v2.0 版本中,提供了高达 50.5K 小时的训练数据,这极大地促进了该模型在各种语音任务中的性能提升。  

🙌 该模型的相关代码和资源均采用 Apache2.0 协议开源,这为学术界和工业界的研究者提供了便利,并鼓励他们在该模型的基础上进行创新和应用。  

© 版权声明:
本文地址:https://aidh.net/kuaixun/momnkcbm

暂无评论

none
暂无评论...