Meta 的基础人工智能研究(FAIR)团队于 11 月 11 日推出了“全语种自动语音识别系统”(Omnilingual ASR),支持超过 1600 种语言的语音转写,其中500种为首次覆盖。该系统致力于解决现存7000多种语言中低资源语言缺乏训练数据的问题,缩小语言差距。Omnilingual ASR 实现了78%语言低于10%字符错误率,并发布了包含350种代表性不足语言的开放语料库。其“自带语言”功能允许用户通过少量样本快速添加新语言,未来可扩展至5400种。模型以Apache 2.0许可开源,促进技术共享与应用。

Meta 的基础人工智能研究(FAIR)团队于 11 月 11 日宣布推出了一项革命性的技术——“全语种自动语音识别系统”(Omnilingual ASR)。这一系统的诞生标志着语音识别技术的一个重要里程碑,能够支持超过 1600 种语言的语音转写,极大地扩展了现有语音识别技术的语言覆盖能力。
过去,许多语音识别工具主要集中在几百种资源丰富的语言上,这些语言通常拥有大量的转录音频。然而,全球现存的 7000 多种语言中,有许多由于缺乏训练数据而难以获得人工智能的支持。Omnilingual ASR 的推出正是为了解决这一困境,致力于缩小语言之间的差距。
根据 Meta 的介绍,在其支持的 1600 种语言中,有 500 种语言是首次被任何 AI 系统覆盖。FAIR 团队视此系统为通往“通用语音转写系统”的重要一步,期待它能够打破全球语言壁垒,促进跨语言沟通,使信息更加可及。
值得注意的是,系统的识别精度与训练数据量密切相关。Meta 公布的数据表明,Omnilingual ASR 在测试的 1600 种语言中,有 78% 的语言实现了低于 10% 的字符错误率(CER)。对于拥有至少 10 小时训练音频的语言,这一比例提升至 95%;即便是音频时长不足 10 小时的“低资源语言”,仍有 36% 实现了低于 10% CER 的佳绩。
为了推动后续研究和实际应用的落地,Meta 同时发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus),这是一个包含 350 种代表性不足语言的大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员根据特定本地语言需求,构建或适配定制化的语音识别模型。
Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受到大型语言模型技术的启发,用户只需提供少量配对的语音与文本样本,系统便能直接从中学习,无需重新训练或依赖高算力资源,即可添加新的语言。
Meta 指出,从理论上讲,该方法能够将 Omnilingual ASR 的语言支持能力扩展至 5400 种,远超目前行业标准。虽然对极低资源语言的识别质量尚未达到完全训练的水平,但这一技术已首次为许多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。
Meta 还以 Apache 2.0 开源许可协议发布了 Omnilingual ASR 的全部模型,允许研究人员和开发者自由使用、修改和商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,能够满足不同应用场景的需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。
这一创新不仅为技术发展注入了活力,更为全球不同语言的使用者带来了希望。通过技术的力量,我们能够更好地沟通与理解彼此,推动社会的进步与合作。
快讯中提到的AI工具

深度学习领域的强大资源平台











