AI2026-04-17

Gemma 4 完全要件リファレンス — VRAM・RAM・GPU必要スペック早見表【E2B/E4B/26B/31B全バリアント対応】

Gemma 4の最小要件は5GB RAM（E2B Q4量子化版）、推奨は24GB VRAM（31B Dense Q4）。E2B・E4B・26B MoE・31B Dense全バリアントのVRAM/RAM/GPU要件を早見表で一覧化したクイックリファレンス。

Gemma 4 Requirements VRAM ハードウェア要件 System Requirements

Gemma 4 最小／推奨要件早見表（直接回答）

Gemma 4の最小要件は5GB RAM（E2B Q4量子化版）、推奨は16GB RAM＋8GB VRAM（E4B/26B Q4）、快適動作は24GB VRAM（31B Dense Q4）、最高品質は48GB以上のVRAM（31B FP16）。

動作レベル	モデル	必要スペック
最小	E2B Q4	RAM 5GB（CPUのみ）
推奨エントリー	E4B Q4	RAM 8GB / VRAM 4-5GB
推奨標準	26B MoE Q4	RAM 16GB / VRAM 16-18GB
快適	31B Dense Q4	RAM 32GB / VRAM 20-24GB
最高品質	31B Dense FP16	RAM 64GB / VRAM 48GB以上

全バリアント VRAM・RAM要件一覧

バリアント	パラメータ	Q4 VRAM	Q8 VRAM	FP16 VRAM	最小RAM	推奨GPU
E2B	2.3B	2〜3GB	3〜4GB	5GB	8GB	GTX 1660以上 / M1
E4B	4.5B	4〜5GB	6〜7GB	9GB	8GB	RTX 3060 / M1 Pro
26B MoE	26B（Active 4B）	16〜18GB	28GB	54GB	16GB	RTX 4080 / M3 Max
31B Dense	31B	20〜24GB	34GB	62GB	32GB	RTX 4090 / A100

※ MoEはアクティブパラメータが約4Bのため、26Bという規模に対してVRAM要件が大幅に低い点が最大の特徴。

GPU別対応モデル早見表

GPU	VRAM	E2B	E4B	26B MoE	31B Dense
GTX 1660 Super	6GB	◎	◯	✗	✗
RTX 3060	12GB	◎	◎	△（Q4のみ）	✗
RTX 3090	24GB	◎	◎	◎	◯（Q4）
RTX 4070	12GB	◎	◎	△（Q4のみ）	✗
RTX 4080	16GB	◎	◎	◎（Q4）	△（Q3）
RTX 4090	24GB	◎	◎	◎	◎（Q4）
A100 40GB	40GB	◎	◎	◎	◎
H100 80GB	80GB	◎	◎	◎	◎（FP16可）

◎=快適 ◯=動作可 △=制限あり ✗=動作不可

Apple Silicon対応表

チップ	統一メモリ	E2B	E4B	26B MoE	31B Dense	31B Q4速度
M1（8GB）	8GB	◎	△	✗	✗	—
M1/M2 Pro（16GB）	16GB	◎	◎	◎（Q4）	✗	—
M2/M3 Max（32GB）	32GB	◎	◎	◎	◎（Q4）	10〜15 tok/s
M3 Ultra（64GB）	64GB	◎	◎	◎	◎	25〜35 tok/s
M4 Max（48GB）	48GB	◎	◎	◎	◎	30〜40 tok/s
M4 Ultra（192GB）	192GB	◎	◎	◎	◎（FP16可）	50以上 tok/s

Apple Siliconは統一メモリがVRAMを兼ねるため、GPUと同等の利用効率を発揮する。M2 Max（32GB）以上を持っていれば、31B Dense Q4が実用的に動作する。

量子化レベル別VRAM比較（31B Dense基準）

量子化	必要VRAM	品質（FP16比）	速度倍率	推奨用途
FP16	62GB	100%	1.0x	研究・最高品質
Q8_0	34GB	99%	1.2x	A100/H100環境
Q6_K	26GB	98%	1.4x	RTX 3090×2環境
Q5_K_M	22GB	96%	1.5x	RTX 4090（余裕あり）
Q4_K_M	20GB	93%	1.8x	RTX 4090（推奨）
Q3_K_M	16GB	85%	2.1x	RTX 4080（妥協点）
Q2_K	13GB	72%	2.5x	非推奨（品質低下大）

最もコストパフォーマンスが高いのはQ4_K_M。品質低下は7%以内に収まりつつ、必要VRAMを62GBから20GBに削減できる。

RAM（システムメモリ）要件 — CPUのみ実行

バリアント	最小RAM	推奨RAM	CPU推論速度
E2B Q4	4GB	8GB	15〜25 tok/s
E4B Q4	8GB	16GB	8〜15 tok/s
26B MoE Q4	20GB	32GB	3〜6 tok/s
31B Dense Q4	24GB	48GB	2〜4 tok/s

※ GPU非搭載環境では速度がGPU実行の約1/5〜1/10になる。E2BまたはE4BのQ4量子化が実用的な選択肢。

VRAM別モデル選択フロー

Loading diagram...

31B Dense 特化要件（「31B vram requirements」クエリ対応）

項目	最小	推奨	理想
VRAM	16GB（Q3_K_M）	20〜24GB（Q4_K_M）	48GB以上（FP16）
RAM	32GB	48GB	64GB
GPU	RTX 4080	RTX 4090	A100 / H100
推論速度（Q4）	4〜6 tok/s	10〜20 tok/s	50以上 tok/s

RTX 4090（24GB） はQ4_K_Mで20〜24GBを消費し、ギリギリ収まる構成。コンテキスト長を256Kまで延ばすと追加で約8GBが必要となるため注意。

E2B 特化要件（「e2b system requirements」クエリ対応）

項目	最小	推奨
RAM（CPUのみ）	4GB	8GB
VRAM（GPU実行）	2〜3GB	4GB以上
対応デバイス	Raspberry Pi 5（8GB）、古いノートPC	MacBook Air M1、GTX 1060以上

E2BはGemma 4ファミリーの中で最も軽量。エッジデバイス・モバイル・IoT用途に最適。RAM 5GBあればCPUのみで実用的な速度（15〜25 tok/s）で動作する。

E4B 特化要件

項目	最小	推奨
RAM	8GB	16GB
VRAM	4〜5GB（Q4）	6〜7GB（Q8）
消費電力	低（60〜80W）	—
推論速度（RTX 3060）	20〜30 tok/s	—

MacBook Air M1（8GB）では△動作だが、M2/M3 MacBook Air（16GB） で快適動作。コスト対効果が高く、E2Bの上位・26Bの下位という絶妙なポジションを持つ。

26B MoE 特化要件

項目	値
総パラメータ	26B
アクティブパラメータ	約4B（推論時）
Q4 VRAM	16〜18GB
推論速度（RTX 4080）	30〜45 tok/s
対31B Dense比較	速度約3倍・VRAM約50%以下

MoEアーキテクチャにより、26Bというパラメータ規模でもVRAM要件は16GB。品質は31B Denseに近く、速度は大幅に速い。RTX 4080（16GB）で最も有効活用できるモデル。

Ollamaで動かすコマンド一覧

bash

# Gemma 4 各バリアントの起動コマンド
ollama run gemma4:e2b        # E2B（最小構成）
ollama run gemma4:e4b        # E4B（軽量・推奨エントリー）
ollama run gemma4:26b        # 26B MoE（バランス型）
ollama run gemma4:31b        # 31B Dense（最大品質）
ollama run gemma4:31b-q4_km  # 31B Q4_K_M（RTX 4090向け）

# 量子化指定でpull
ollama pull gemma4:31b-q4_km
ollama pull gemma4:26b-q4_km

コンテキスト長とVRAM追加消費（31B Q4基準）

コンテキスト長	追加VRAM	合計VRAM目安
8K	ベース（0GB追加）	20GB
32K	約1.5GB追加	22GB
128K	約4GB追加	24GB
256K	約8GB追加	28GB

長いコンテキストを使う場合はVRAMに余裕を持たせること。256Kコンテキストでは28GB以上が必要となり、RTX 4090（24GB）では不足する場合がある。

マルチGPU構成

構成	合計VRAM	動作モデル	備考
RTX 3090 x2（NVLink）	48GB	31B FP16	NVLink必須
RTX 4090 x2（PCIe）	48GB	31B FP16	テンソル並列
A100 40GB x2	80GB	31B FP16 高速	データセンター向け

テンソル並列（tensor_parallel_size=2）を使うと、複数GPUに分散して推論できる。llama.cppとvLLMの両方が対応。PCIe接続でも分散推論は可能だが、転送帯域の制約でNVLink構成より15〜30%低速になる場合がある。

電力要件と月間電気代試算

GPU	TDP	推論時消費電力	月間電気代（24時間稼働）
RTX 3060	170W	約120W	約2,600円
RTX 4090	450W	約300W	約6,500円
A100 40GB	400W	約350W	約7,600円
H100 80GB	700W	約600W	約13,000円

※ 電力単価31円/kWhで試算。24時間常時稼働の場合の目安。

推論フレームワーク別要件比較

フレームワーク	VRAM効率	量子化対応	セットアップ難易度	推奨用途
Ollama	◎（自動最適化）	Q4〜Q8	簡単	個人・開発
llama.cpp	◎（GGUF）	Q2〜Q8	普通	カスタマイズ
vLLM	◯	BF16/FP16/AWQ	やや複雑	本番API
TGI（Hugging Face）	◯	BF16/GPTQ	複雑	エンタープライズ

Ollamaは最も手軽で、VRAMに合わせた量子化を自動選択するため、初心者に最適。本番環境ではvLLMのOpenAI互換APIサーバーが一般的。

予算別推奨構成

予算目安	推奨構成	動作モデル
0円（既存PC）	RAM 8GB以上のPC	E2B Q4
4万円〜	RTX 3060（12GB）	E4B / 26B MoE Q4
15万円〜	RTX 4070 Ti Super（16GB）	26B MoE / 31B Q3
25万円〜	RTX 4090（24GB）	31B Dense Q4
50万円〜	A100 40GB（中古/クラウド）	31B FP16
100万円〜	H100 80GB	全モデルFP16可

予算別選択フロー

Loading diagram...

トラブルシューティング — OOMエラー・速度・量子化の選び方

症状	原因	解決策
OOM（メモリ不足）エラー	VRAMが足りない	一段階低い量子化に変更（Q5→Q4→Q3）
推論が遅い	CPUにオフロードされている	GPUのVRAMを増やす、またはモデルを小さくする
読み込みが遅い	ストレージがHDD	NVMe SSDに変更推奨
品質が低い	量子化が粗い（Q2/Q3）	Q4_K_M以上を使用

量子化の選び方まとめ: VRAMが十分あるならQ5_K_MかQ6_K、ギリギリならQ4_K_M、それでも足りない場合はQ3_K_Mを試す。Q2_Kは品質劣化が大きいため非推奨。

FAQ — よくある質問（直接回答）

Q1. Gemma 4を動かす最小要件は？ A. E2B Q4量子化版であればRAM 5GB（CPUのみ実行）から動作する。 Q2. RTX 4090で31B Denseを動かせる？ A. Q4_K_M量子化（約20〜24GB VRAM）であれば可能。コンテキスト長を128K以下に抑えると余裕が生まれる。 Q3. RTX 3060（12GB）で動くモデルは？ A. E2B・E4Bは快適動作。26B MoEもQ4量子化なら動作可能。31B Denseは12GBでは動作不可。 Q4. RAMが8GBしかない場合は？ A. E2B Q4のみ推奨。E4BはギリギリCPUのみで動作するが非常に遅くなる。 Q5. MacBookで動かせる？ A. M1/M2/M3 Pro以上（16GB統一メモリ）で26B MoE Q4まで動作可能。M2/M3 Max（32GB以上）で31B Dense Q4が快適動作。 Q6. CPUのみ（GPU無し）での実行は可能？ A. 可能だが、速度はGPU実行の1/5〜1/10程度。E2BかE4B Q4が現実的な選択肢。 Q7. どの量子化レベルが最もコスパが高い？ A. Q4_K_Mを推奨。品質低下はFP16比7%以内に収まりつつ、VRAMを最大68%削減できる。 Q8. 100万トークンのコンテキストは使えるの？ A. Gemma 4は最大256Kコンテキストに対応。100万コンテキストは非対応。256Kを使う場合は追加でVRAM 8GBが必要。

Gemma 4のローカル導入をOflightが支援します

Gemma 4の要件確認から、最適なハードウェア選定・環境構築・API化まで、Oflightのエンジニアがトータルでサポートします。自社サーバーへのオンプレ導入や、クラウドGPUを活用したコスト最適化も対応可能です。詳細はAIコンサルティングサービスをご覧ください。

お気軽にご相談ください

お問い合わせ

Gemma 4 完全要件リファレンス — VRAM・RAM・GPU必要スペック早見表【E2B/E4B/26B/31B全バリアント対応】

Gemma 4 最小／推奨要件 早見表（直接回答）

全バリアント VRAM・RAM要件一覧

GPU別対応モデル早見表

Apple Silicon対応表

量子化レベル別VRAM比較（31B Dense基準）

RAM（システムメモリ）要件 — CPUのみ実行

VRAM別モデル選択フロー

31B Dense 特化要件（「31B vram requirements」クエリ対応）

E2B 特化要件（「e2b system requirements」クエリ対応）

E4B 特化要件

26B MoE 特化要件

Ollamaで動かすコマンド一覧

コンテキスト長とVRAM追加消費（31B Q4基準）

マルチGPU構成

電力要件と月間電気代試算

推論フレームワーク別要件比較

予算別推奨構成

予算別選択フロー

トラブルシューティング — OOMエラー・速度・量子化の選び方

FAQ — よくある質問（直接回答）

Gemma 4のローカル導入をOflightが支援します

Gemma 4 最小／推奨要件早見表（直接回答）