Anthropic Claudeの明示的プロンプトキャッシュ入門
- POST
はじめに この記事では、Anthropic Claudeのプロンプトキャッシュについてまとめました。
Anthropoc Caludeとは Anthropic Claudeは、Anthropic社が開発した高度なAI言語モデルです。
このモデルは、自然言語処理タスクにおいて高い性能を発揮し、特に会話型AIやテキスト生成、分析などの用途に適しています。
Anthropic Claudeは、AWSやGoogle Cloudなどのクラウドプラットフォームを通じて利用可能であり、さまざまな業界で活用されています。
Anthropic公式サイト Anthropic Claudeのプロンプトキャッシングの仕組み プロンプトキャッシングを導入すると、指定したプロンプトをキャッシュすることができます。
キャッシュするとキャッシュブレークポイント(cache_control)が設定されているプロンプトのプレフィックス(先頭部分)が、キャッシュされているかを確認します。
キャッシュされている場合、プレフィックス部分のプロンプトを再利用することで、LLM側での内部処理が不要になり、処理時間とコストを削減することができます。
キャッシュされていない場合は、プロンプト全体を新規に処理した後に、プロンプトのプレフィックスを保存します。
この仕組みにより、繰り返し使用されるプロンプトの再処理を避け、システム全体の効率を向上させています。
OpenAIにも同様にプロンプトキャッシュが導入されています。
GoogleのGeminiシリーズにもコンテキストキャッシュという名称は異なりますが、同様の機能があります。
Anthropic: プロンプトキャッシュ Google クラウド: Claudeモデルのプロンプトキャッシュ OpenAI: プロンプトキャッシングAPI Medium: LLMのプロンプトキャッシュのメカニズム 株式会社Algomatic: テックブログ Zenn: Claude Prompt Cachingは本当に効果的なのか検証してみた キャッシュにはサービス側で自動キャッシュしてくれる暗黙的キャッシュと、ユーザーがキャッシュする箇所を指定する明示的キャッシュがあります。 この記事は明示的キャッシュについて紹介します。
プロンプトキャッシュの料金 料金 キャッシュの料金は以下の通りです。
キャッシュ書き込み: 入力トークンよりも25%高価格 キャッシュ読み取り: 入力トークンよりも90%低価格 初回に発生するキャッシュの書き込みでは、料金が上がってしまいますが、複数回LLMとの会話が行われると、キャッシュが活用されるので、その分料金が安くなります。
サポートモデル プロンプトキャッシュをサポートしているモデルは以下になります。
Claude Sonnet系は3.5以降 Claude Haikua系は3以降 Claude Opus系は3以降 プロンプトキャッシュ
プロンプトキャッシュの利用方法 プロンプトキャッシュを利用するにはClaudeのAPIをコールする際にcache_controlパラメータを指定します。
cache_controlのtypeで指定できるタイプは現状はephemeralのみなので、実質固定値 ephemeralは「一瞬の~」という意味 curl <https://api.