OpenAI推出GPT-4o预测输出功能：速度快5倍，成本更高

OpenAI 近期推出了一项旨在优化生成式人工智能模型的预测输出功能，名为 GPT-4o。此功能着重于减少模型生成结果所需的时间，从而提升整体响应速度。据称，该项改进能够将终端用户感知到的延迟降低大约 5 秒，显著提升用户体验。

这项由 OpenAI 和 FactoryAI 共同研发的技术，专注于预测输出，可以预判并加速完成用户与 AI 系统间的互动。通过预测用户可能的后续行为，该技术能够预先生成部分或全部结果，从而减少等待时间。FactoryAI 的数据显示，通过在推理过程中预测 2 到 4 个 tokens，他们能够可靠地将 70% 的延迟降低到 20% 以下。

具体来说，该预测输出功能通过 API 调用来实现加速，适用于 GPT-4o 和 GPT-4mini 等模型。用户可以利用这项技术，显著加快那些依赖于快速响应的应用，例如实时对话或互动式内容生成。Firecrawl 的创始人 Eric Ciarla 在其 SEO 性能分析中提到：“通过预判输出，你能显著提升应用程序的响应速度。”

总而言之，预测输出的核心在于优化 AI 模型生成文本的方式，使其能够更迅速地提供用户所需的信息。OpenAI 在其文档中解释说，在用户界面上使用 JavaScript 代码，例如“Username”字段对应“Email”字段，就可以通过提前预测来改善响应速度。这种预先加载预测结果的方法，能够显著提升用户体验。

更深入地分析，该预测输出功能不仅能减少延迟，还能在多种应用场景中优化 AI 性能。影响模型预测效率的关键因素包括 API 参数的设置，比如控制生成文本多样性的 topn 参数，以及 logprobs（对数概率）、presencepenalty（存在惩罚）和 frequency_penalty（频率惩罚）等参数的调整。

总的来说，这些参数共同作用于模型的响应速度，使得开发者可以根据实际需求调整 AI 的行为。例如，通过调整参数，FactoryAI 成功地将从 5.2 秒到 3.3 秒的延迟降低至 0.1555 到 0.2675 秒。这些改进表明 OpenAI 正在努力优化 tokens 的处理效率，从而提高整体性能。

尽管这项技术在提高响应速度方面具有显著优势，但开发者仍需仔细评估其实际应用场景，以确保最佳性能。这项预测输出功能代表了 OpenAI 在提升人工智能系统效率和用户体验方面迈出的重要一步，体现了其在技术创新和实际应用上的承诺。

OpenAI 官方文档：

https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs