不需要 RAG 了？Claude 最新推出 Prompt Caching 功能，API 教程来了

发布日期：2024-08-17 08:31:58 浏览次数： 5538

作者：AI 技术前哨

微信搜一搜，关注“AI 技术前哨”

省流版：如果你访问 Claude 存在问题，也可以直接点击阅读原文，免魔法、无惧封号风险使用 Claude 3.5！

Claude 最新发布 Claude Prompt Caching 功能，有望再次改变 AI 人机交互的格局。这种机制允许开发人员缓存 API 调用结果和 AI 问答之间经常使用的上下文，显著提高与 Claude 交互的效率和成本效益。

Claude 免魔法在线体验地址。支持 Haiku Sonnet Opus 全家族模型：

https://app.anakin.ai/apps/15108?r=N8O8a5HR

Prompt Caching 工作原理

Prompt Caching（提示缓存）功能可以存储大量提示词上下文，这些提示上下文可以在多个 API 调用和后续对话之间复用，包括输入的某个 PDF 文件、某个完整的知识库，或者任何其他相关数据，Claude 都会通过其强大的“记忆”能力学习并在这些文件中索引内容。

以下是其工作原理的简化示例：

初始请求：将大型上下文（例如，一本书的内容）发送给 Claude 并缓存它。
后续请求：在后续的对话中可以引用此缓存内容而无需再次发送，从而减少数据传输和处理时间。

这种方法对于以下场景特别有用：

- 具有长时间运行对话的会话代理

- 需要保留代码库信息的编码助手

- 涉及大文本的文档处理任务

- 需要详细指令集或大量示例的场景

并且在价格方面，新的 Prompt Caching 非常便宜：

让我们考虑一个假设的场景来说明成本节省：场景：使用 Claude 3.5 Sonnet 处理 100,000 个令牌簿，不使用缓存：

- 输入成本：100,000 个代币 * $0.00000163 = 每个请求 $0.163

- 对于 1000 个请求：163 美元

使用缓存功能后：

- 初始缓存：100,000 个代币 * $0.00000163 * 1.25 = $0.20375

- 后续请求：每个请求 100,000 个代币 * $0.00000163 * 0.1 = $0.0163

- 对于 1000 个请求：$0.20375 + (999 * $0.0163) = $16.50

节省总额：146.5 美元（立省 90%）

如何使用 Prompt Caching API？

前置准备：

- Claude 账号

- 美国银行卡，充值并申领 API Key

- Python 开发环境

第 1 步：设置您的环境

首先，确保您安装了必要的库：

pip install anthropic

步骤 2：初始化 Anthropic 客户端

使用您的 API 密钥设置您的 Anthropic 客户端：

from anthropic import Anthropicclient = Anthropic(api_key="your-api-key")

第 3 步：创建缓存提示

下文的缓存指的是 Prompt Caching

要创建缓存的提示，请使用带有 cache_key 参数的 client.messages.create 方法：

response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's a large context that I want to cache: [Your large context here]"}])

第 4 步：使用缓存的提示

要在后续请求中使用缓存的提示，请在 API 调用中包含 cache_key ：

response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Refer to the cached context and answer this question: [Your question here]"}])

第 5 步：更新缓存的提示

要更新缓存的提示，只需使用相同的 cache_key 创建一条新消息：

response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's an updated context to cache: [Your updated context here]"}])