AI2026-05-17

KV Cache（キーバリューキャッシュ）

別名: KV Cache / Key-Value Cache / キーバリューキャッシュ

Transformerのアテンション計算で生成した各トークンのKey・Valueベクトルをメモリにキャッシュし、再計算を省いて推論を高速化する手法。長い会話やRAGの処理コスト削減に重要。

概要

Transformerの自己注意機構では、新しいトークンを生成するたびに全入力トークンのKey・Valueを計算し直す必要があります。KV Cacheはこれらを初回計算時にGPUメモリに保存し、以降の生成ステップでは再利用します。コンテキストが長くなるほどキャッシュの恩恵が大きくなりますが、VRAMを多く消費するというトレードオフがあります。

プレフィックスキャッシング

System Promptや長いドキュメントを共有する複数のリクエスト間でKVキャッシュを再利用するプレフィックスキャッシングが商用APIで採用されています。AnthropicのPrompt CachingやOpenAIのPrompt Cachingがその例で、コストを大幅に削減できます。

KV Cache（キーバリューキャッシュ）

概要

プレフィックスキャッシング

関連コラム

関連用語