月之暗面Kimi开放平台公测“上下文缓存”功能，长文本模型成本骤降90%

摘要：

据最新消息，OpenAI 近期在其 Kimi 文本生成模型中引入了一项创新特性，名为“上下文缓存”（Conte […]

月之暗面Kimi开放平台公测“上下文缓存”功能，长文本模型成本骤降90%的封面图

据最新消息，OpenAI 近期在其 Kimi 文本生成模型中引入了一项创新特性，名为“上下文缓存”（Context Caching），旨在显著优化 API 调用效率。实验数据显示，该技术能够成功提升高达 90% 的相似查询处理速度，从而大幅节省计算资源。

上下文缓存（Context Caching）是一项前沿技术，其核心在于记忆并复用历史查询的上下文信息。这意味着，当用户发起类似的请求时，系统可以直接从缓存中提取相关数据，而无需重新进行耗时的计算。通过这种方式，不仅能够加快响应速度，还能有效降低服务器的负载压力。简单来说，上下文缓存能够记住之前的对话，以便更高效地处理后续问题。

简而言之，“上下文缓存”的引入旨在提升处理效率，通过记忆先前对话来加快相似查询的响应速度，从而显著改善整体性能！

具体来说，“上下文缓存”能够优化处理效率、加快相似查询的响应，其背后蕴含着两大关键优势：

性能提升90%：正如之前提到的，通过利用历史查询中缓存的上下文信息，系统能够更快地响应后续的类似请求。例如，如果某个应用程序需要频繁地使用相同的上下文，那么上下文缓存就能显著提升其运行效率。据测算，对于涉及约 9 千个 token 的查询，性能提升高达 10% 以上。

Token 成本降低83%：具体而言，这意味着原来处理 128k token 的文本可能需要 30 秒的时间，现在 благодаря 采用了上下文缓存技术，处理相同数量的 token 的时间缩短至 5 秒左右，从而将成本降低了 83%。

以下是关于上下文缓存（Context Caching）定价的详细信息，主要分为以下几个方面：

Cache 智能处理:

在处理 Cache 时，如果选择智能处理，系统会在 Cache 中存储 Tokens 和相关运行数据。定价为 24 美元/百万 token。

Cache 文档处理:

如果选择 Cache 文档，系统会存储相关文档信息。定价为 10 美元/百万 token/文档。

Cache 智能文本:

如果选择 Cache 智能文本，系统会存储 token 的智能信息，以便在后续使用。

Cache 智能会话文本:

如果选择 Cache 文档，并开启 chat 对话功能，则系统会在 Cache 中存储 chat message 对话信息，定价为 0.02 美元/会话。