摩尔线程开源其音频理解大模型MooER

7个月前发布AI俱乐部
4 0 0
摩尔线程开源其音频理解大模型MooER的封面图

一款名为MooER(发音为“More”)的新型开源多语言语音识别模型,它无需依赖强大的GPU即可实现高质量的语音转录。MooER并非通过庞大的计算资源来实现性能,而是专注于模型的效率和优化。

MooER运用了一种紧凑的三阶段模型架构,包括Encoder、Adapter和Decoder(大型语言模型,LLM)。这种架构旨在高效地处理语音数据,同时保持良好的识别准确性,从而降低对硬件的要求,并支持更广泛的应用场景。该模型能够处理超过5000小时的语音数据,并且仅需单个GPU即可进行训练,甚至可以在8个GPU上进行分布式训练。

在评估该模型的性能时,MooER-5K表现出色。在普通话语音转录任务中,其字错误率(CER)达到4.21%,词错误率(WER)为17.98%,表明其在语音识别任务中具有竞争力。此外,在Covost2zh2en翻译任务中,MooER的BLEU得分达到25.2,证明了其在跨语言语音处理方面的能力。

对于使用8万小时数据训练的MooER-80k模型,其性能得到了进一步提升,在普通话语音转录任务中,字错误率(CER)降至3.50%,词错误率(WER)为12.66%,展现了卓越的性能。

总而言之,MooER的开源特性使其能够促进AI社区的创新,并推动低资源AI技术的发展。通过优化模型结构和训练方法,MooER能够在保证性能的同时,降低对计算资源的需求,从而为更广泛的AI应用开辟了道路。

论文链接:https://arxiv.org/pdf/2408.05101

快讯中提到的AI工具

Deco
Deco

设计稿一键生成多端代码

© 版权声明:
本文地址:https://aidh.net/kuaixun/k2p66r1b

暂无评论

none
暂无评论...