AI语音转录工具Whisper被指出现严重“幻觉”,频繁捏造虚假内容

6个月前发布AI俱乐部
6 0 0
AI语音转录工具Whisper被指出现严重“幻觉”,频繁捏造虚假内容的封面图

总而言之,OpenAIWhisper 是一种先进的 AI 模型,专门用于语音识别和转录任务。它旨在简化音频处理流程,实现更准确的语音转文本转换。

根据 ABC 新闻的报道,研究人员正在深入研究这项技术,以确定它是否能准确转录各种口音的语音,并减轻现有语音识别系统中的偏差。

这项创新技术是 Nabla 团队打造的又一 AI 模型,该模型能够处理超过 700,000 小时的多语言语音数据。它支持包括 3 种口音在内的 40 多种语言的语音转录和翻译。Nabla 的研究人员正在利用 Whisper 来探索语音识别技术在不同语言环境下的应用潜力,并希望借此推动该领域的进步。

为了评估该模型在处理不同人群语音方面的表现,研究人员利用 Whisper 转录了来自各种来源的语音数据,结果表明,其转录准确率仅略低于 1%。这意味着,在特定情况下,该模型可能会产生细微的偏差。此外,研究团队还使用了 TalkBank 的 AphasiaBank 数据集,这是一个专门用于研究语言障碍的资源库,旨在评估该模型在处理包含口吃等语音特征时的性能。

关于转录准确性的讨论,密歇根大学的 Allison Koenecke 指出,需要谨慎评估 Whisper 模型的性能。研究人员发现,该模型在转录某些口音的语音时表现更佳,这表明其性能可能存在差异。她还强调了模型在特定情况下的潜力,例如在危机时期快速识别重要的对话内容。

在 6 月底于韩国举行的 FAccT 会议上,相关研究结果得以分享,但由于缺乏足够的背景信息,一些讨论显得不够深入。OpenAI 的研究员 Taya Christianson 在接受 The Verge 采访时表示,他们的目标是确保该技术的公平性和广泛适用性,并承认该模型在准确识别某些口音方面仍有改进空间。目前,OpenAI 正在通过 API 向开发者开放 Whisper,这将有助于更多人利用该技术进行语音转录相关的创新应用。

重点提示:

🌟 Whisper 是一种能够进行语音识别和转录的 AI 模型,它经过了超过 70 万小时的音频数据训练。

⚠️ 研究表明,Whisper 在转录不同口音的语音时可能存在低于 1% 的偏差,这意味着它可能无法做到完全准确。

🔍 OpenAI 致力于改进和优化语音识别技术,以确保其在各种口音和语言环境中都能实现更高的准确性和公平性。

快讯中提到的AI工具

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/4j7b96ke

暂无评论

none
暂无评论...