

OpenAI 近期推出了一项旨在优化生成式人工智能模型的预测输出功能,名为 GPT-4o。此功能着重于减少模型生成结果所需的时间,从而提升整体响应速度。据称,该项改进能够将终端用户感知到的延迟降低大约 5 秒,显著提升用户体验。
这项由 OpenAI 和 FactoryAI 共同研发的技术,专注于预测输出,可以预判并加速完成用户与 AI 系统间的互动。通过预测用户可能的后续行为,该技术能够预先生成部分或全部结果,从而减少等待时间。FactoryAI 的数据显示,通过在推理过程中预测 2 到 4 个 tokens,他们能够可靠地将 70% 的延迟降低到 20% 以下。
具体来说,该预测输出功能通过 API 调用来实现加速,适用于 GPT-4o 和 GPT-4mini 等模型。用户可以利用这项技术,显著加快那些依赖于快速响应的应用,例如实时对话或互动式内容生成。Firecrawl 的创始人 Eric Ciarla 在其 SEO 性能分析中提到:“通过预判输出,你能显著提升应用程序的响应速度。”
总而言之,预测输出的核心在于优化 AI 模型生成文本的方式,使其能够更迅速地提供用户所需的信息。OpenAI 在其文档中解释说,在用户界面上使用 JavaScript 代码,例如“Username”字段对应“Email”字段,就可以通过提前预测来改善响应速度。这种预先加载预测结果的方法,能够显著提升用户体验。
更深入地分析,该预测输出功能不仅能减少延迟,还能在多种应用场景中优化 AI 性能。影响模型预测效率的关键因素包括 API 参数的设置,比如控制生成文本多样性的 topn 参数,以及 logprobs(对数概率)、presencepenalty(存在惩罚)和 frequency_penalty(频率惩罚)等参数的调整。
总的来说,这些参数共同作用于模型的响应速度,使得开发者可以根据实际需求调整 AI 的行为。例如,通过调整参数,FactoryAI 成功地将从 5.2 秒到 3.3 秒的延迟降低至 0.1555 到 0.2675 秒。这些改进表明 OpenAI 正在努力优化 tokens 的处理效率,从而提高整体性能。
尽管这项技术在提高响应速度方面具有显著优势,但开发者仍需仔细评估其实际应用场景,以确保最佳性能。这项预测输出功能代表了 OpenAI 在提升人工智能系统效率和用户体验方面迈出的重要一步,体现了其在技术创新和实际应用上的承诺。
OpenAI 官方文档:
https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs