

据最新消息,OpenAI 近期在其 Kimi 文本生成模型中引入了一项创新特性,名为“上下文缓存”(Context Caching),旨在显著优化 API 调用效率。实验数据显示,该技术能够成功提升高达 90% 的相似查询处理速度,从而大幅节省计算资源。
上下文缓存(Context Caching)是一项前沿技术,其核心在于记忆并复用历史查询的上下文信息。这意味着,当用户发起类似的请求时,系统可以直接从缓存中提取相关数据,而无需重新进行耗时的计算。通过这种方式,不仅能够加快响应速度,还能有效降低服务器的负载压力。简单来说,上下文缓存能够记住之前的对话,以便更高效地处理后续问题。
简而言之,“上下文缓存”的引入旨在提升处理效率,通过记忆先前对话来加快相似查询的响应速度,从而显著改善整体性能!
具体来说,“上下文缓存”能够优化处理效率、加快相似查询的响应,其背后蕴含着两大关键优势:
性能提升90%:正如之前提到的,通过利用历史查询中缓存的上下文信息,系统能够更快地响应后续的类似请求。例如,如果某个应用程序需要频繁地使用相同的上下文,那么上下文缓存就能显著提升其运行效率。据测算,对于涉及约 9 千个 token 的查询,性能提升高达 10% 以上。
Token 成本降低83%:具体而言,这意味着原来处理 128k token 的文本可能需要 30 秒的时间,现在 благодаря 采用了上下文缓存技术,处理相同数量的 token 的时间缩短至 5 秒左右,从而将成本降低了 83%。
以下是关于上下文缓存(Context Caching)定价的详细信息,主要分为以下几个方面:
Cache 智能处理:
在处理 Cache 时,如果选择智能处理,系统会在 Cache 中存储 Tokens 和相关运行数据。定价为 24 美元/百万 token。
Cache 文档处理:
如果选择 Cache 文档,系统会存储相关文档信息。定价为 10 美元/百万 token/文档。
Cache 智能文本:
如果选择 Cache 智能文本,系统会存储 token 的智能信息,以便在后续使用。
Cache 智能会话文本:
如果选择 Cache 文档,并开启 chat 对话功能,则系统会在 Cache 中存储 chat message 对话信息,定价为 0.02 美元/会话。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI