成本降低90%！Anthropic 推出新 Claude 提示快取！開發人員將省去一大筆錢

2024/08/17

•

Anthropic和OpenAI的競爭日趨白熱化，前不久OpenAI發佈了更便於開發者定製輸出的json API，沒過多久Anthropic也開始發佈了一項利多開發者的消息：終於不必重複呼叫同樣地提示了

Anthropic在其 API 上引入了提示快取，它可以記住 API 呼叫之間的上下文並允許開發人員避免重複提示。

簡單來講，新版API可以“記住”一整本書或整個程式碼庫，不需要再重複輸入了。這樣一來，不僅處理長文字的延時更低，更是能節省最高90%的成本。

提示快取功能已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 的公開測試版中推出，但對最大的 Claude 模型 Opus 的支援即將推出。

早在2023 年，論文《PROMPT CACHE: MODULAR ATTENTION REUSE FOR LOW-LATENCY INFERENCE》中就提出了“提示快取”的方法，它允許使用者在會話中保留常用的上下文。由於模型會記住這些提示，因此使用者可以新增額外的背景資訊而不會增加成本。這在有人想在提示中傳送大量上下文，然後在與模型的不同對話中引用它的情況下很有用。它還允許開發人員和其他使用者更好地微調模型響應。

Anthropic 表示，早期使用者“已經看到了針對各種用例的提示快取帶來的顯著速度和成本改進——從包括完整的知識庫到 100 個示例，再到在提示中包含每次對話”。

該公司表示，潛在的用例包括：降低對話代理的長指令和上傳文件的成本和延遲、更快地自動完成程式碼、為代理搜尋工具提供多條指令以及在提示中嵌入整個文件。

快取提示定價高嗎？

快取提示的一個優點是每個令牌的價格較低，Anthropic 表示使用快取提示“比基本輸入令牌價格便宜得多”。

對於 Claude 3.5 Sonnet，編寫要快取的提示將花費每 100 萬個令牌 (MTok) 3.75 美元，但使用快取的提示將花費每 MTok 0.30 美元。Claude 3.5 Sonnet 模型的輸入基本價格為每 MTok 3 美元，因此，如果您預先多付一點錢，下次使用快取的提示時，您可以預期節省 10 倍。

Claude 3 Haiku 使用者將為快取支付 0.30 美元/MTok，使用儲存提示時支付 0.03 美元/MTok。

雖然 Claude 3 Opus 尚未提供即時快取功能，但 Anthropic 已經公佈了其價格。寫入快取的費用為 18.75 美元/MTok，但訪問快取的即時快取費用為 1.50 美元/MTok。

然而，正如人工智慧影響者 Simon Willison 在 X 上指出的那樣，Anthropic 的快取僅有 5 分鐘的生命周期，並且每次使用時都會刷新。

當然，這並不是 Anthropic 第一次嘗試通過定價與其他 AI 平台競爭。在 Claude 3 系列模型發佈之前，Anthropic大幅下調了其Tokens價格。

在為基於其平台進行開發的第三方開發者提供低價選項方面，它目前正與Google和OpenAI等競爭對手進行某種“競相壓價”的態勢。

呼聲極高的功能

其他平台也提供提示快取版本。LLM 推理系統 Lamina利用 KV 快取來降低 GPU 成本。粗略瀏覽一下 OpenAI 的開發者論壇或 GitHub，就會發現有關如何快取提示的問題。

快取提示與大型語言模型記憶體中的提示不同。例如，OpenAI 的 GPT-4o 提供了一個記憶體，模型可以在其中記住偏好或詳細資訊。但是，它不會像提示快取那樣，記住並儲存提示和對應的輸出。 (51CTO技術堆疊)