Gemma 4 完全要件リファレンス — VRAM・RAM・GPU必要スペック早見表【E2B/E4B/26B/31B全バリアント対応】
Gemma 4の最小要件は5GB RAM(E2B Q4量子化版)、推奨は24GB VRAM(31B Dense Q4)。E2B・E4B・26B MoE・31B Dense全バリアントのVRAM/RAM/GPU要件を早見表で一覧化したクイックリファレンス。
Gemma 4 最小/推奨要件 早見表(直接回答)
Gemma 4の最小要件は5GB RAM(E2B Q4量子化版)、推奨は16GB RAM+8GB VRAM(E4B/26B Q4)、快適動作は24GB VRAM(31B Dense Q4)、最高品質は48GB以上のVRAM(31B FP16)。
| 動作レベル | モデル | 必要スペック |
|---|---|---|
| 最小 | E2B Q4 | RAM 5GB(CPUのみ) |
| 推奨エントリー | E4B Q4 | RAM 8GB / VRAM 4-5GB |
| 推奨標準 | 26B MoE Q4 | RAM 16GB / VRAM 16-18GB |
| 快適 | 31B Dense Q4 | RAM 32GB / VRAM 20-24GB |
| 最高品質 | 31B Dense FP16 | RAM 64GB / VRAM 48GB以上 |
全バリアント VRAM・RAM要件一覧
| バリアント | パラメータ | Q4 VRAM | Q8 VRAM | FP16 VRAM | 最小RAM | 推奨GPU |
|---|---|---|---|---|---|---|
| E2B | 2.3B | 2〜3GB | 3〜4GB | 5GB | 8GB | GTX 1660以上 / M1 |
| E4B | 4.5B | 4〜5GB | 6〜7GB | 9GB | 8GB | RTX 3060 / M1 Pro |
| 26B MoE | 26B(Active 4B) | 16〜18GB | 28GB | 54GB | 16GB | RTX 4080 / M3 Max |
| 31B Dense | 31B | 20〜24GB | 34GB | 62GB | 32GB | RTX 4090 / A100 |
※ MoEはアクティブパラメータが約4Bのため、26Bという規模に対してVRAM要件が大幅に低い点が最大の特徴。
GPU別対応モデル早見表
| GPU | VRAM | E2B | E4B | 26B MoE | 31B Dense |
|---|---|---|---|---|---|
| GTX 1660 Super | 6GB | ◎ | ◯ | ✗ | ✗ |
| RTX 3060 | 12GB | ◎ | ◎ | △(Q4のみ) | ✗ |
| RTX 3090 | 24GB | ◎ | ◎ | ◎ | ◯(Q4) |
| RTX 4070 | 12GB | ◎ | ◎ | △(Q4のみ) | ✗ |
| RTX 4080 | 16GB | ◎ | ◎ | ◎(Q4) | △(Q3) |
| RTX 4090 | 24GB | ◎ | ◎ | ◎ | ◎(Q4) |
| A100 40GB | 40GB | ◎ | ◎ | ◎ | ◎ |
| H100 80GB | 80GB | ◎ | ◎ | ◎ | ◎(FP16可) |
◎=快適 ◯=動作可 △=制限あり ✗=動作不可
Apple Silicon対応表
| チップ | 統一メモリ | E2B | E4B | 26B MoE | 31B Dense | 31B Q4速度 |
|---|---|---|---|---|---|---|
| M1(8GB) | 8GB | ◎ | △ | ✗ | ✗ | — |
| M1/M2 Pro(16GB) | 16GB | ◎ | ◎ | ◎(Q4) | ✗ | — |
| M2/M3 Max(32GB) | 32GB | ◎ | ◎ | ◎ | ◎(Q4) | 10〜15 tok/s |
| M3 Ultra(64GB) | 64GB | ◎ | ◎ | ◎ | ◎ | 25〜35 tok/s |
| M4 Max(48GB) | 48GB | ◎ | ◎ | ◎ | ◎ | 30〜40 tok/s |
| M4 Ultra(192GB) | 192GB | ◎ | ◎ | ◎ | ◎(FP16可) | 50以上 tok/s |
Apple Siliconは統一メモリがVRAMを兼ねるため、GPUと同等の利用効率を発揮する。M2 Max(32GB)以上を持っていれば、31B Dense Q4が実用的に動作する。
量子化レベル別VRAM比較(31B Dense基準)
| 量子化 | 必要VRAM | 品質(FP16比) | 速度倍率 | 推奨用途 |
|---|---|---|---|---|
| FP16 | 62GB | 100% | 1.0x | 研究・最高品質 |
| Q8_0 | 34GB | 99% | 1.2x | A100/H100環境 |
| Q6_K | 26GB | 98% | 1.4x | RTX 3090×2環境 |
| Q5_K_M | 22GB | 96% | 1.5x | RTX 4090(余裕あり) |
| Q4_K_M | 20GB | 93% | 1.8x | RTX 4090(推奨) |
| Q3_K_M | 16GB | 85% | 2.1x | RTX 4080(妥協点) |
| Q2_K | 13GB | 72% | 2.5x | 非推奨(品質低下大) |
最もコストパフォーマンスが高いのはQ4_K_M。品質低下は7%以内に収まりつつ、必要VRAMを62GBから20GBに削減できる。
RAM(システムメモリ)要件 — CPUのみ実行
| バリアント | 最小RAM | 推奨RAM | CPU推論速度 |
|---|---|---|---|
| E2B Q4 | 4GB | 8GB | 15〜25 tok/s |
| E4B Q4 | 8GB | 16GB | 8〜15 tok/s |
| 26B MoE Q4 | 20GB | 32GB | 3〜6 tok/s |
| 31B Dense Q4 | 24GB | 48GB | 2〜4 tok/s |
※ GPU非搭載環境では速度がGPU実行の約1/5〜1/10になる。E2BまたはE4BのQ4量子化が実用的な選択肢。
VRAM別モデル選択フロー
31B Dense 特化要件(「31B vram requirements」クエリ対応)
| 項目 | 最小 | 推奨 | 理想 |
|---|---|---|---|
| VRAM | 16GB(Q3_K_M) | 20〜24GB(Q4_K_M) | 48GB以上(FP16) |
| RAM | 32GB | 48GB | 64GB |
| GPU | RTX 4080 | RTX 4090 | A100 / H100 |
| 推論速度(Q4) | 4〜6 tok/s | 10〜20 tok/s | 50以上 tok/s |
RTX 4090(24GB) はQ4_K_Mで20〜24GBを消費し、ギリギリ収まる構成。コンテキスト長を256Kまで延ばすと追加で約8GBが必要となるため注意。
E2B 特化要件(「e2b system requirements」クエリ対応)
| 項目 | 最小 | 推奨 |
|---|---|---|
| RAM(CPUのみ) | 4GB | 8GB |
| VRAM(GPU実行) | 2〜3GB | 4GB以上 |
| 対応デバイス | Raspberry Pi 5(8GB)、古いノートPC | MacBook Air M1、GTX 1060以上 |
E2BはGemma 4ファミリーの中で最も軽量。エッジデバイス・モバイル・IoT用途に最適。RAM 5GBあればCPUのみで実用的な速度(15〜25 tok/s)で動作する。
E4B 特化要件
| 項目 | 最小 | 推奨 |
|---|---|---|
| RAM | 8GB | 16GB |
| VRAM | 4〜5GB(Q4) | 6〜7GB(Q8) |
| 消費電力 | 低(60〜80W) | — |
| 推論速度(RTX 3060) | 20〜30 tok/s | — |
MacBook Air M1(8GB)では△動作だが、M2/M3 MacBook Air(16GB) で快適動作。コスト対効果が高く、E2Bの上位・26Bの下位という絶妙なポジションを持つ。
26B MoE 特化要件
| 項目 | 値 |
|---|---|
| 総パラメータ | 26B |
| アクティブパラメータ | 約4B(推論時) |
| Q4 VRAM | 16〜18GB |
| 推論速度(RTX 4080) | 30〜45 tok/s |
| 対31B Dense比較 | 速度約3倍・VRAM約50%以下 |
MoEアーキテクチャにより、26Bというパラメータ規模でもVRAM要件は16GB。品質は31B Denseに近く、速度は大幅に速い。RTX 4080(16GB)で最も有効活用できるモデル。
Ollamaで動かすコマンド一覧
# Gemma 4 各バリアントの起動コマンド
ollama run gemma4:e2b # E2B(最小構成)
ollama run gemma4:e4b # E4B(軽量・推奨エントリー)
ollama run gemma4:26b # 26B MoE(バランス型)
ollama run gemma4:31b # 31B Dense(最大品質)
ollama run gemma4:31b-q4_km # 31B Q4_K_M(RTX 4090向け)
# 量子化指定でpull
ollama pull gemma4:31b-q4_km
ollama pull gemma4:26b-q4_kmコンテキスト長とVRAM追加消費(31B Q4基準)
| コンテキスト長 | 追加VRAM | 合計VRAM目安 |
|---|---|---|
| 8K | ベース(0GB追加) | 20GB |
| 32K | 約1.5GB追加 | 22GB |
| 128K | 約4GB追加 | 24GB |
| 256K | 約8GB追加 | 28GB |
長いコンテキストを使う場合はVRAMに余裕を持たせること。256Kコンテキストでは28GB以上が必要となり、RTX 4090(24GB)では不足する場合がある。
マルチGPU構成
| 構成 | 合計VRAM | 動作モデル | 備考 |
|---|---|---|---|
| RTX 3090 x2(NVLink) | 48GB | 31B FP16 | NVLink必須 |
| RTX 4090 x2(PCIe) | 48GB | 31B FP16 | テンソル並列 |
| A100 40GB x2 | 80GB | 31B FP16 高速 | データセンター向け |
テンソル並列(tensor_parallel_size=2)を使うと、複数GPUに分散して推論できる。llama.cppとvLLMの両方が対応。PCIe接続でも分散推論は可能だが、転送帯域の制約でNVLink構成より15〜30%低速になる場合がある。
電力要件と月間電気代試算
| GPU | TDP | 推論時消費電力 | 月間電気代(24時間稼働) |
|---|---|---|---|
| RTX 3060 | 170W | 約120W | 約2,600円 |
| RTX 4090 | 450W | 約300W | 約6,500円 |
| A100 40GB | 400W | 約350W | 約7,600円 |
| H100 80GB | 700W | 約600W | 約13,000円 |
※ 電力単価31円/kWhで試算。24時間常時稼働の場合の目安。
推論フレームワーク別要件比較
| フレームワーク | VRAM効率 | 量子化対応 | セットアップ難易度 | 推奨用途 |
|---|---|---|---|---|
| Ollama | ◎(自動最適化) | Q4〜Q8 | 簡単 | 個人・開発 |
| llama.cpp | ◎(GGUF) | Q2〜Q8 | 普通 | カスタマイズ |
| vLLM | ◯ | BF16/FP16/AWQ | やや複雑 | 本番API |
| TGI(Hugging Face) | ◯ | BF16/GPTQ | 複雑 | エンタープライズ |
Ollamaは最も手軽で、VRAMに合わせた量子化を自動選択するため、初心者に最適。本番環境ではvLLMのOpenAI互換APIサーバーが一般的。
予算別推奨構成
| 予算目安 | 推奨構成 | 動作モデル |
|---|---|---|
| 0円(既存PC) | RAM 8GB以上のPC | E2B Q4 |
| 4万円〜 | RTX 3060(12GB) | E4B / 26B MoE Q4 |
| 15万円〜 | RTX 4070 Ti Super(16GB) | 26B MoE / 31B Q3 |
| 25万円〜 | RTX 4090(24GB) | 31B Dense Q4 |
| 50万円〜 | A100 40GB(中古/クラウド) | 31B FP16 |
| 100万円〜 | H100 80GB | 全モデルFP16可 |
予算別選択フロー
トラブルシューティング — OOMエラー・速度・量子化の選び方
| 症状 | 原因 | 解決策 |
|---|---|---|
| OOM(メモリ不足)エラー | VRAMが足りない | 一段階低い量子化に変更(Q5→Q4→Q3) |
| 推論が遅い | CPUにオフロードされている | GPUのVRAMを増やす、またはモデルを小さくする |
| 読み込みが遅い | ストレージがHDD | NVMe SSDに変更推奨 |
| 品質が低い | 量子化が粗い(Q2/Q3) | Q4_K_M以上を使用 |
量子化の選び方まとめ: VRAMが十分あるならQ5_K_MかQ6_K、ギリギリならQ4_K_M、それでも足りない場合はQ3_K_Mを試す。Q2_Kは品質劣化が大きいため非推奨。
FAQ — よくある質問(直接回答)
Q1. Gemma 4を動かす最小要件は? A. E2B Q4量子化版であればRAM 5GB(CPUのみ実行)から動作する。 Q2. RTX 4090で31B Denseを動かせる? A. Q4_K_M量子化(約20〜24GB VRAM)であれば可能。コンテキスト長を128K以下に抑えると余裕が生まれる。 Q3. RTX 3060(12GB)で動くモデルは? A. E2B・E4Bは快適動作。26B MoEもQ4量子化なら動作可能。31B Denseは12GBでは動作不可。 Q4. RAMが8GBしかない場合は? A. E2B Q4のみ推奨。E4BはギリギリCPUのみで動作するが非常に遅くなる。 Q5. MacBookで動かせる? A. M1/M2/M3 Pro以上(16GB統一メモリ)で26B MoE Q4まで動作可能。M2/M3 Max(32GB以上)で31B Dense Q4が快適動作。 Q6. CPUのみ(GPU無し)での実行は可能? A. 可能だが、速度はGPU実行の1/5〜1/10程度。E2BかE4B Q4が現実的な選択肢。 Q7. どの量子化レベルが最もコスパが高い? A. Q4_K_Mを推奨。品質低下はFP16比7%以内に収まりつつ、VRAMを最大68%削減できる。 Q8. 100万トークンのコンテキストは使えるの? A. Gemma 4は最大256Kコンテキストに対応。100万コンテキストは非対応。256Kを使う場合は追加でVRAM 8GBが必要。
Gemma 4のローカル導入をOflightが支援します
Gemma 4の要件確認から、最適なハードウェア選定・環境構築・API化まで、Oflightのエンジニアがトータルでサポートします。自社サーバーへのオンプレ導入や、クラウドGPUを活用したコスト最適化も対応可能です。 詳細はAIコンサルティングサービスをご覧ください。
お気軽にご相談ください
お問い合わせ