AI语音转录工具Whisper被指出现严重“幻觉”，频繁捏造虚假内容

摘要：

总而言之，OpenAI 的 Whisper 是一种先进的 AI 模型，专门用于语音识别和转录任务。它旨在简化音 […]

总而言之，OpenAI 的 Whisper 是一种先进的 AI 模型，专门用于语音识别和转录任务。它旨在简化音频处理流程，实现更准确的语音转文本转换。

根据 ABC 新闻的报道，研究人员正在深入研究这项技术，以确定它是否能准确转录各种口音的语音，并减轻现有语音识别系统中的偏差。

这项创新技术是 Nabla 团队打造的又一 AI 模型，该模型能够处理超过 700,000 小时的多语言语音数据。它支持包括 3 种口音在内的 40 多种语言的语音转录和翻译。Nabla 的研究人员正在利用 Whisper 来探索语音识别技术在不同语言环境下的应用潜力，并希望借此推动该领域的进步。

为了评估该模型在处理不同人群语音方面的表现，研究人员利用 Whisper 转录了来自各种来源的语音数据，结果表明，其转录准确率仅略低于 1%。这意味着，在特定情况下，该模型可能会产生细微的偏差。此外，研究团队还使用了 TalkBank 的 AphasiaBank 数据集，这是一个专门用于研究语言障碍的资源库，旨在评估该模型在处理包含口吃等语音特征时的性能。

关于转录准确性的讨论，密歇根大学的 Allison Koenecke 指出，需要谨慎评估 Whisper 模型的性能。研究人员发现，该模型在转录某些口音的语音时表现更佳，这表明其性能可能存在差异。她还强调了模型在特定情况下的潜力，例如在危机时期快速识别重要的对话内容。

在 6 月底于韩国举行的 FAccT 会议上，相关研究结果得以分享，但由于缺乏足够的背景信息，一些讨论显得不够深入。OpenAI 的研究员 Taya Christianson 在接受 The Verge 采访时表示，他们的目标是确保该技术的公平性和广泛适用性，并承认该模型在准确识别某些口音方面仍有改进空间。目前，OpenAI 正在通过 API 向开发者开放 Whisper，这将有助于更多人利用该技术进行语音转录相关的创新应用。

重点提示：

🌟 Whisper 是一种能够进行语音识别和转录的 AI 模型，它经过了超过 70 万小时的音频数据训练。

⚠️ 研究表明，Whisper 在转录不同口音的语音时可能存在低于 1% 的偏差，这意味着它可能无法做到完全准确。

🔍 OpenAI 致力于改进和优化语音识别技术，以确保其在各种口音和语言环境中都能实现更高的准确性和公平性。