摩尔线程开源其音频理解大模型MooER

摘要：

一款名为MooER（发音为“More”）的新型开源多语言语音识别模型，它无需依赖强大的GPU即可实现高质量的语 […]

一款名为MooER（发音为“More”）的新型开源多语言语音识别模型，它无需依赖强大的GPU即可实现高质量的语音转录。MooER并非通过庞大的计算资源来实现性能，而是专注于模型的效率和优化。

MooER运用了一种紧凑的三阶段模型架构，包括Encoder、Adapter和Decoder（大型语言模型，LLM）。这种架构旨在高效地处理语音数据，同时保持良好的识别准确性，从而降低对硬件的要求，并支持更广泛的应用场景。该模型能够处理超过5000小时的语音数据，并且仅需单个GPU即可进行训练，甚至可以在8个GPU上进行分布式训练。

在评估该模型的性能时，MooER-5K表现出色。在普通话语音转录任务中，其字错误率（CER）达到4.21%，词错误率（WER）为17.98%，表明其在语音识别任务中具有竞争力。此外，在Covost2zh2en翻译任务中，MooER的BLEU得分达到25.2，证明了其在跨语言语音处理方面的能力。

对于使用8万小时数据训练的MooER-80k模型，其性能得到了进一步提升，在普通话语音转录任务中，字错误率（CER）降至3.50%，词错误率（WER）为12.66%，展现了卓越的性能。

总而言之，MooER的开源特性使其能够促进AI社区的创新，并推动低资源AI技术的发展。通过优化模型结构和训练方法，MooER能够在保证性能的同时，降低对计算资源的需求，从而为更广泛的AI应用开辟了道路。

论文链接：https://arxiv.org/pdf/2408.05101