OpenAI发布GPT-4O音频预览版：语音交互可识别情绪！

摘要：

OpenAI 近期发布了一项令人瞩目的技术更新，即 gpt-4o-audio-preview 的语音功能。此更 […]

OpenAI 近期发布了一项令人瞩目的技术更新，即 gpt-4o-audio-preview 的语音功能。此更新旨在为开发者提供更便捷的途径，以构建能够实时理解和生成音频的应用。它代表着语音交互技术向前迈进了一大步。我们将在下文详细探讨此项语音功能的主要特点。

gpt-4o-audio-preview 的亮点功能包括：低延迟，确保语音信息处理的即时性；优化的语音识别能力，能够准确捕捉口语中的细微差别，并支持多种语言。这意味着，开发者可以利用该技术创造出更自然、更流畅的语音交互体验。此外，该工具还具备对语音内容进行实时理解和响应的能力，从而极大地提升了用户体验。

结合 OpenAI 的 Realtime API 使用，gpt-4o-audio-preview 可以为开发者提供强大的语音交互解决方案。借助语音输入、语音输出以及语音理解等功能，开发者可以构建更加动态和引人入胜的应用。更具体地说，Realtime API 能够实时传输语音数据，从而实现极速响应，使得开发者能够创造出如同真人对话般流畅的应用体验。

gpt-4o-audio-preview 的定价方式主要基于令牌消耗量，为开发者提供了灵活的选择。其语音转录功能的成本大约为每 5 个 tokens 0.0007 美元。而语音生成方面，每 5 个 tokens 的价格约为 0.0015 美元。对于语音交互应用而言，转录成本大约为每 5 个 tokens 0.0007 美元（相当于每分钟 0.06 美元），而生成成本则为每 5 个 tokens 0.0015 美元（相当于每分钟 0.24 美元）。通过这种定价策略，开发者可以根据实际用量灵活控制成本，优化资源配置。

gpt-4o-audio-preview 的发布为众多领域的应用创新开启了新的可能性。例如，在辅助功能领域，它可以帮助视力障碍人士更轻松地获取信息、进行交流。在客户服务领域，它可以实现更智能的语音助手，提升服务效率和用户满意度。在教育领域，它可以创建互动式学习体验，促进个性化学习。简而言之，借助这项技术，gpt-4o-audio-preview 有望赋能开发者，构建出更加人性化和智能化的语音交互应用。

参考链接：https://platform.openai.com/docs/guides/audio/quickstart