

一款名为MooER(发音为“More”)的新型开源多语言语音识别模型,它无需依赖强大的GPU即可实现高质量的语音转录。MooER并非通过庞大的计算资源来实现性能,而是专注于模型的效率和优化。
MooER运用了一种紧凑的三阶段模型架构,包括Encoder、Adapter和Decoder(大型语言模型,LLM)。这种架构旨在高效地处理语音数据,同时保持良好的识别准确性,从而降低对硬件的要求,并支持更广泛的应用场景。该模型能够处理超过5000小时的语音数据,并且仅需单个GPU即可进行训练,甚至可以在8个GPU上进行分布式训练。
在评估该模型的性能时,MooER-5K表现出色。在普通话语音转录任务中,其字错误率(CER)达到4.21%,词错误率(WER)为17.98%,表明其在语音识别任务中具有竞争力。此外,在Covost2zh2en翻译任务中,MooER的BLEU得分达到25.2,证明了其在跨语言语音处理方面的能力。
对于使用8万小时数据训练的MooER-80k模型,其性能得到了进一步提升,在普通话语音转录任务中,字错误率(CER)降至3.50%,词错误率(WER)为12.66%,展现了卓越的性能。
总而言之,MooER的开源特性使其能够促进AI社区的创新,并推动低资源AI技术的发展。通过优化模型结构和训练方法,MooER能够在保证性能的同时,降低对计算资源的需求,从而为更广泛的AI应用开辟了道路。
论文链接:https://arxiv.org/pdf/2408.05101
快讯中提到的AI工具

Deco
设计稿一键生成多端代码
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/k2p66r1b暂无评论...