株式会社オブライト
AI2026-04-17

Gemma 4 完全要件リファレンス — VRAM・RAM・GPU必要スペック早見表【E2B/E4B/26B/31B全バリアント対応】

Gemma 4の最小要件は5GB RAM(E2B Q4量子化版)、推奨は24GB VRAM(31B Dense Q4)。E2B・E4B・26B MoE・31B Dense全バリアントのVRAM/RAM/GPU要件を早見表で一覧化したクイックリファレンス。


Gemma 4 最小/推奨要件 早見表(直接回答)

Gemma 4の最小要件は5GB RAM(E2B Q4量子化版)、推奨は16GB RAM+8GB VRAM(E4B/26B Q4)、快適動作は24GB VRAM(31B Dense Q4)、最高品質は48GB以上のVRAM(31B FP16)。

動作レベルモデル必要スペック
最小E2B Q4RAM 5GB(CPUのみ)
推奨エントリーE4B Q4RAM 8GB / VRAM 4-5GB
推奨標準26B MoE Q4RAM 16GB / VRAM 16-18GB
快適31B Dense Q4RAM 32GB / VRAM 20-24GB
最高品質31B Dense FP16RAM 64GB / VRAM 48GB以上

全バリアント VRAM・RAM要件一覧

バリアントパラメータQ4 VRAMQ8 VRAMFP16 VRAM最小RAM推奨GPU
E2B2.3B2〜3GB3〜4GB5GB8GBGTX 1660以上 / M1
E4B4.5B4〜5GB6〜7GB9GB8GBRTX 3060 / M1 Pro
26B MoE26B(Active 4B)16〜18GB28GB54GB16GBRTX 4080 / M3 Max
31B Dense31B20〜24GB34GB62GB32GBRTX 4090 / A100

※ MoEはアクティブパラメータが約4Bのため、26Bという規模に対してVRAM要件が大幅に低い点が最大の特徴。

GPU別対応モデル早見表

GPUVRAME2BE4B26B MoE31B Dense
GTX 1660 Super6GB
RTX 306012GB△(Q4のみ)
RTX 309024GB◯(Q4)
RTX 407012GB△(Q4のみ)
RTX 408016GB◎(Q4)△(Q3)
RTX 409024GB◎(Q4)
A100 40GB40GB
H100 80GB80GB◎(FP16可)

◎=快適 ◯=動作可 △=制限あり ✗=動作不可

Apple Silicon対応表

チップ統一メモリE2BE4B26B MoE31B Dense31B Q4速度
M1(8GB)8GB
M1/M2 Pro(16GB)16GB◎(Q4)
M2/M3 Max(32GB)32GB◎(Q4)10〜15 tok/s
M3 Ultra(64GB)64GB25〜35 tok/s
M4 Max(48GB)48GB30〜40 tok/s
M4 Ultra(192GB)192GB◎(FP16可)50以上 tok/s

Apple Siliconは統一メモリがVRAMを兼ねるため、GPUと同等の利用効率を発揮する。M2 Max(32GB)以上を持っていれば、31B Dense Q4が実用的に動作する。

量子化レベル別VRAM比較(31B Dense基準)

量子化必要VRAM品質(FP16比)速度倍率推奨用途
FP1662GB100%1.0x研究・最高品質
Q8_034GB99%1.2xA100/H100環境
Q6_K26GB98%1.4xRTX 3090×2環境
Q5_K_M22GB96%1.5xRTX 4090(余裕あり)
Q4_K_M20GB93%1.8xRTX 4090(推奨)
Q3_K_M16GB85%2.1xRTX 4080(妥協点)
Q2_K13GB72%2.5x非推奨(品質低下大)

最もコストパフォーマンスが高いのはQ4_K_M。品質低下は7%以内に収まりつつ、必要VRAMを62GBから20GBに削減できる。

RAM(システムメモリ)要件 — CPUのみ実行

バリアント最小RAM推奨RAMCPU推論速度
E2B Q44GB8GB15〜25 tok/s
E4B Q48GB16GB8〜15 tok/s
26B MoE Q420GB32GB3〜6 tok/s
31B Dense Q424GB48GB2〜4 tok/s

※ GPU非搭載環境では速度がGPU実行の約1/5〜1/10になる。E2BまたはE4BのQ4量子化が実用的な選択肢。

VRAM別モデル選択フロー

Loading diagram...

31B Dense 特化要件(「31B vram requirements」クエリ対応)

項目最小推奨理想
VRAM16GB(Q3_K_M)20〜24GB(Q4_K_M)48GB以上(FP16)
RAM32GB48GB64GB
GPURTX 4080RTX 4090A100 / H100
推論速度(Q4)4〜6 tok/s10〜20 tok/s50以上 tok/s

RTX 4090(24GB) はQ4_K_Mで20〜24GBを消費し、ギリギリ収まる構成。コンテキスト長を256Kまで延ばすと追加で約8GBが必要となるため注意。

E2B 特化要件(「e2b system requirements」クエリ対応)

項目最小推奨
RAM(CPUのみ)4GB8GB
VRAM(GPU実行)2〜3GB4GB以上
対応デバイスRaspberry Pi 5(8GB)、古いノートPCMacBook Air M1、GTX 1060以上

E2BはGemma 4ファミリーの中で最も軽量。エッジデバイス・モバイル・IoT用途に最適。RAM 5GBあればCPUのみで実用的な速度(15〜25 tok/s)で動作する。

E4B 特化要件

項目最小推奨
RAM8GB16GB
VRAM4〜5GB(Q4)6〜7GB(Q8)
消費電力低(60〜80W)
推論速度(RTX 3060)20〜30 tok/s

MacBook Air M1(8GB)では△動作だが、M2/M3 MacBook Air(16GB) で快適動作。コスト対効果が高く、E2Bの上位・26Bの下位という絶妙なポジションを持つ。

26B MoE 特化要件

項目
総パラメータ26B
アクティブパラメータ約4B(推論時)
Q4 VRAM16〜18GB
推論速度(RTX 4080)30〜45 tok/s
対31B Dense比較速度約3倍・VRAM約50%以下

MoEアーキテクチャにより、26Bというパラメータ規模でもVRAM要件は16GB。品質は31B Denseに近く、速度は大幅に速い。RTX 4080(16GB)で最も有効活用できるモデル。

Ollamaで動かすコマンド一覧

bash
# Gemma 4 各バリアントの起動コマンド
ollama run gemma4:e2b        # E2B(最小構成)
ollama run gemma4:e4b        # E4B(軽量・推奨エントリー)
ollama run gemma4:26b        # 26B MoE(バランス型)
ollama run gemma4:31b        # 31B Dense(最大品質)
ollama run gemma4:31b-q4_km  # 31B Q4_K_M(RTX 4090向け)

# 量子化指定でpull
ollama pull gemma4:31b-q4_km
ollama pull gemma4:26b-q4_km

コンテキスト長とVRAM追加消費(31B Q4基準)

コンテキスト長追加VRAM合計VRAM目安
8Kベース(0GB追加)20GB
32K約1.5GB追加22GB
128K約4GB追加24GB
256K約8GB追加28GB

長いコンテキストを使う場合はVRAMに余裕を持たせること。256Kコンテキストでは28GB以上が必要となり、RTX 4090(24GB)では不足する場合がある。

マルチGPU構成

構成合計VRAM動作モデル備考
RTX 3090 x2(NVLink)48GB31B FP16NVLink必須
RTX 4090 x2(PCIe)48GB31B FP16テンソル並列
A100 40GB x280GB31B FP16 高速データセンター向け

テンソル並列(tensor_parallel_size=2)を使うと、複数GPUに分散して推論できる。llama.cppとvLLMの両方が対応。PCIe接続でも分散推論は可能だが、転送帯域の制約でNVLink構成より15〜30%低速になる場合がある。

電力要件と月間電気代試算

GPUTDP推論時消費電力月間電気代(24時間稼働)
RTX 3060170W約120W約2,600円
RTX 4090450W約300W約6,500円
A100 40GB400W約350W約7,600円
H100 80GB700W約600W約13,000円

※ 電力単価31円/kWhで試算。24時間常時稼働の場合の目安。

推論フレームワーク別要件比較

フレームワークVRAM効率量子化対応セットアップ難易度推奨用途
Ollama◎(自動最適化)Q4〜Q8簡単個人・開発
llama.cpp◎(GGUF)Q2〜Q8普通カスタマイズ
vLLMBF16/FP16/AWQやや複雑本番API
TGI(Hugging Face)BF16/GPTQ複雑エンタープライズ

Ollamaは最も手軽で、VRAMに合わせた量子化を自動選択するため、初心者に最適。本番環境ではvLLMのOpenAI互換APIサーバーが一般的。

予算別推奨構成

予算目安推奨構成動作モデル
0円(既存PC)RAM 8GB以上のPCE2B Q4
4万円〜RTX 3060(12GB)E4B / 26B MoE Q4
15万円〜RTX 4070 Ti Super(16GB)26B MoE / 31B Q3
25万円〜RTX 4090(24GB)31B Dense Q4
50万円〜A100 40GB(中古/クラウド)31B FP16
100万円〜H100 80GB全モデルFP16可

予算別選択フロー

Loading diagram...

トラブルシューティング — OOMエラー・速度・量子化の選び方

症状原因解決策
OOM(メモリ不足)エラーVRAMが足りない一段階低い量子化に変更(Q5→Q4→Q3)
推論が遅いCPUにオフロードされているGPUのVRAMを増やす、またはモデルを小さくする
読み込みが遅いストレージがHDDNVMe SSDに変更推奨
品質が低い量子化が粗い(Q2/Q3)Q4_K_M以上を使用

量子化の選び方まとめ: VRAMが十分あるならQ5_K_MかQ6_K、ギリギリならQ4_K_M、それでも足りない場合はQ3_K_Mを試す。Q2_Kは品質劣化が大きいため非推奨。

FAQ — よくある質問(直接回答)

Q1. Gemma 4を動かす最小要件は? A. E2B Q4量子化版であればRAM 5GB(CPUのみ実行)から動作する。 Q2. RTX 4090で31B Denseを動かせる? A. Q4_K_M量子化(約20〜24GB VRAM)であれば可能。コンテキスト長を128K以下に抑えると余裕が生まれる。 Q3. RTX 3060(12GB)で動くモデルは? A. E2B・E4Bは快適動作。26B MoEもQ4量子化なら動作可能。31B Denseは12GBでは動作不可。 Q4. RAMが8GBしかない場合は? A. E2B Q4のみ推奨。E4BはギリギリCPUのみで動作するが非常に遅くなる。 Q5. MacBookで動かせる? A. M1/M2/M3 Pro以上(16GB統一メモリ)で26B MoE Q4まで動作可能。M2/M3 Max(32GB以上)で31B Dense Q4が快適動作。 Q6. CPUのみ(GPU無し)での実行は可能? A. 可能だが、速度はGPU実行の1/5〜1/10程度。E2BかE4B Q4が現実的な選択肢。 Q7. どの量子化レベルが最もコスパが高い? A. Q4_K_Mを推奨。品質低下はFP16比7%以内に収まりつつ、VRAMを最大68%削減できる。 Q8. 100万トークンのコンテキストは使えるの? A. Gemma 4は最大256Kコンテキストに対応。100万コンテキストは非対応。256Kを使う場合は追加でVRAM 8GBが必要。

Gemma 4のローカル導入をOflightが支援します

Gemma 4の要件確認から、最適なハードウェア選定・環境構築・API化まで、Oflightのエンジニアがトータルでサポートします。自社サーバーへのオンプレ導入や、クラウドGPUを活用したコスト最適化も対応可能です。 詳細はAIコンサルティングサービスをご覧ください。

お気軽にご相談ください

お問い合わせ