株式会社オブライト
AI2026-04-03

Gemma 4のハードウェア要件 — ローカルAI実行に必要なスペック完全ガイド【2026年版】

Gemma 4をローカル環境で実行するために必要なハードウェアスペックを徹底解説。E2B/E4B/26B MoE/31B Denseの各バリアントごとのRAM・VRAM要件、量子化レベル別のメモリ使用量、GPU比較、予算別推奨構成を詳しく紹介します。


Gemma 4のハードウェア要件とは?

Gemma 4をローカル環境で実行するには、モデルのパラメータ数と量子化レベルに応じた適切なRAMまたはVRAMが必要です。最小構成では5GB(E2B/E4B量子化版)から、最大構成では80GB(31B FP16)まで幅広い要件があります。量子化とは、モデルの精度を保ちながらメモリ使用量を削減する技術で、OllamaではデフォルトでQ4_K_M(4bit量子化)が使用され、メモリ使用量を約55~60%削減できます。GPUを使用すると推論速度が大幅に向上しますが、必須ではありません。CPUのみでも動作しますが、処理速度は5~10倍遅くなります。本ガイドでは、各バリアントの詳細な要件、GPU別のパフォーマンス、予算別推奨構成まで網羅的に解説します。

Gemma 4 E2B / E4Bのハードウェア要件

E2BとE4Bは効率重視の軽量モデルで、一般的なノートPCでも動作します。 Gemma 4 E2B (2B パラメータ)

量子化レベルメモリ使用量推奨環境速度目安
Q4_K_M (デフォルト)5GBノートPC、M1 Mac 8GB30-50 tokens/sec (GPU)
Q5_K_M6GBデスクトップPC25-40 tokens/sec (GPU)
Q8_08GB高精度が必要な場合20-35 tokens/sec (GPU)
FP16 (無量子化)15GB研究・開発用途15-25 tokens/sec (GPU)

Gemma 4 E4B (4B パラメータ)

量子化レベルメモリ使用量推奨環境速度目安
Q4_K_M (デフォルト)5GBノートPC、M2 Mac 8GB20-40 tokens/sec (GPU)
Q5_K_M7GBデスクトップPC18-35 tokens/sec (GPU)
Q8_010GB高精度が必要な場合15-30 tokens/sec (GPU)
FP16 (無量子化)15GB研究・開発用途12-22 tokens/sec (GPU)

E2B/E4Bは10GB VRAM以上のGPUがあれば快適に動作します。GPU がない場合でもCPUで実行可能ですが、速度は5~8 tokens/sec程度に低下します。

Gemma 4 26B MoE のハードウェア要件

26B MoE(Mixture of Experts)は、26億パラメータのうち推論時には40億パラメータのみを使用する効率的な設計です。 Gemma 4 26B MoE (26B パラメータ、4B active)

量子化レベルメモリ使用量推奨GPU速度目安
Q4_K_M (デフォルト)18GBRTX 4080 (16GB) + 2GB RAM12-20 tokens/sec
Q5_K_M22GBRTX 4090 (24GB)10-18 tokens/sec
Q8_028GBRTX 4090 (24GB) + 4GB RAM8-15 tokens/sec
FP16 (無量子化)52GBA100 40GB, H100 80GB6-12 tokens/sec

26B MoEは16GB VRAM以上が実質的な最低ラインです。24GB VRAMのRTX 4090やRTX A5000が理想的です。Apple Silicon M3 Max 64GBでも動作しますが、統合メモリを使用するため他のアプリの動作に影響が出る可能性があります。MoEアーキテクチャのおかげで、31B Denseよりも高速でメモリ効率的です。

Gemma 4 31B Dense のハードウェア要件

31B Denseは全パラメータを使用する最高性能モデルで、エンタープライズや研究用途向けです。 Gemma 4 31B Dense (31B パラメータ)

量子化レベルメモリ使用量推奨GPU速度目安
Q4_K_M (デフォルト)20GBRTX 4090 (24GB)10-18 tokens/sec
Q5_K_M25GBRTX 4090 (24GB) + 1GB RAM8-15 tokens/sec
Q8_034GBA100 40GB, RTX 6000 Ada 48GB6-12 tokens/sec
FP16 (無量子化)80GBH100 80GB, A100 80GB5-10 tokens/sec

31B Denseは24GB VRAM以上が必須です。Q4量子化でもギリギリ24GBに収まりますが、実用的には32GB以上が推奨されます。FP16で実行する場合はNVIDIA H100 80GBまたはA100 80GBが必要で、クラウド環境(AWS p4d、Azure NDシリーズ)の利用が現実的です。Apple Silicon M3 Ultra 192GBでも動作しますが、コストパフォーマンスはNVIDIAのほうが優れています。

量子化とは何か?メモリ削減の仕組み

量子化(Quantization)は、モデルの重みを低いビット精度で表現することでメモリ使用量を削減する技術です。 量子化レベル比較表

量子化タイプビット精度メモリ削減率精度低下推奨用途
FP1616bit0% (基準)0%研究、ベンチマーク
Q8_08bit50%1-2%高精度が必要な業務
Q5_K_M5bit65%2-4%バランス型
Q4_K_M4bit75%3-6%一般用途(Ollamaデフォルト)
Q3_K_M3bit80%5-10%実験的、非推奨

OllamaはデフォルトでQ4_K_Mを使用します。これは「K」がkalman量子化(より高精度な量子化手法)、「M」がmedium(中程度の精度)を意味します。ビジネス用途ではQ4_K_Mで十分ですが、医療や法務など高精度が求められる分野ではQ8_0以上を推奨します。量子化はOllama内部で自動的に処理されるため、ユーザーが手動で設定する必要はありません。

Apple Silicon(M1/M2/M3/M4)での実行性能

Apple SiliconはCPUとGPUが統合メモリを共有する設計のため、Gemma 4の実行に適しています。 Apple Silicon別 推奨モデル

チップ統合メモリ推奨Gemmaモデル実行速度目安備考
M1 8GB8GBE2B (Q4)25-35 tokens/sec他アプリ使用で不安定
M2 16GB16GBE4B (Q4)30-45 tokens/sec快適に動作
M3 24GB24GBE4B (Q8), 26B MoE (Q4)35-50 tokens/sec (E4B)ビジネス用途最適
M3 Max 48GB48GB26B MoE (Q5), 31B (Q4)12-20 tokens/sec (26B)プロフェッショナル向け
M3 Ultra 192GB192GB31B (FP16)8-15 tokens/sec研究・開発用途
M4 16GB16GBE4B (Q4)40-55 tokens/secM3より20%高速

Apple Siliconの最大の利点は省電力性です。RTX 4090が450Wを消費するのに対し、M3 Maxは最大90W程度です。長時間の推論タスクでは電気代の差が顕著になります。ただし、NVIDIA GPUと比較すると絶対的な速度では劣ります。

NVIDIA GPU別の実行性能比較

NVIDIA GPUはCUDAによる高度な最適化により、Gemma 4の実行で最高のパフォーマンスを発揮します。 NVIDIA GPU性能比較表

GPUVRAM推奨Gemmaモデル速度目安 (E4B Q4)価格帯
RTX 306012GBE2B, E4B25-35 tokens/sec4万円~
RTX 4060 Ti16GBE4B (Q8), 26B MoE (Q4)*35-50 tokens/sec7万円~
RTX 407012GBE4B40-60 tokens/sec9万円~
RTX 408016GBE4B (Q8), 26B MoE (Q4)*50-70 tokens/sec15万円~
RTX 409024GB26B MoE (Q5), 31B (Q4)15-25 tokens/sec (26B)25万円~
RTX A500024GB26B MoE (Q5), 31B (Q4)12-20 tokens/sec (26B)35万円~
RTX 6000 Ada48GB31B (Q8)18-28 tokens/sec (31B Q4)80万円~
A100 40GB40GB31B (Q8)20-30 tokens/sec (31B Q4)クラウド推奨
H100 80GB80GB31B (FP16)25-40 tokens/sec (31B Q4)クラウド推奨

*VRAM不足時は一部システムRAMを使用(速度低下あり) コストパフォーマンスで選ぶならRTX 4060 Ti 16GBまたはRTX 4090が最適です。E4Bを快適に使うならRTX 4070以上、31Bを本格的に使うならRTX 6000 Ada以上が必要です。

CPUのみでの実行性能

GPUがなくてもGemma 4はCPUのみで実行可能ですが、速度は大幅に低下します。 CPU別 実行性能(E4B Q4)

CPUコア数推奨RAM速度目安実用性
Intel Core i5-124006コア16GB3-5 tokens/sec△ 短文のみ
Intel Core i7-1370016コア32GB5-8 tokens/sec○ 実用レベル
AMD Ryzen 9 5950X16コア32GB6-9 tokens/sec○ 実用レベル
AMD Ryzen 9 7950X16コア64GB8-12 tokens/sec○ 快適
Intel Xeon Gold 634828コア128GB10-15 tokens/sec○ サーバー用途

CPU実行ではAVX-512命令セット対応の有無が速度に大きく影響します。AMD Ryzen 7000シリーズ以降、Intel Xeon(第3世代以降)は対応しています。実用的な速度を得るには最低でも8コア以上、16コア推奨です。26B以上のモデルはCPUのみでは実用的ではありません(1-3 tokens/sec)。

予算別:推奨ハードウェア構成

予算と用途に応じた4つの推奨構成を紹介します。 エントリー構成(10~15万円) - CPU: AMD Ryzen 5 7600 / Intel Core i5-13400 - RAM: 16GB DDR5 - GPU: RTX 3060 12GB / 統合GPU(M2 Mac mini) - 推奨モデル: E2B, E4B (Q4) - 用途: 個人学習、軽量な自動化 ミッドレンジ構成(25~35万円) - CPU: AMD Ryzen 7 7700X / Intel Core i7-13700 - RAM: 32GB DDR5 - GPU: RTX 4070 Ti 12GB / RTX 4060 Ti 16GB - 推奨モデル: E4B (Q8), 26B MoE (Q4) - 用途: 中小企業のAI活用、開発環境 ハイエンド構成(50~70万円) - CPU: AMD Ryzen 9 7950X / Intel Core i9-13900K - RAM: 64GB DDR5 - GPU: RTX 4090 24GB / M3 Max 48GB - 推奨モデル: 26B MoE (Q8), 31B (Q4) - 用途: エンタープライズAI、研究開発 エンタープライズ構成(150万円~ / クラウド推奨) - CPU: AMD EPYC 7643 / Intel Xeon Gold 6348 - RAM: 256GB ECC - GPU: RTX 6000 Ada 48GB × 2 / H100 80GB(クラウド) - 推奨モデル: 31B (Q8, FP16) - 用途: 大規模AI導入、マルチユーザー環境 クラウド利用(AWS EC2 p4d、Azure NDv5)も有力な選択肢です。初期投資を抑えられ、使用量に応じた課金なので、月間の推論回数が少ない場合はコスト効率的です。

メモリ不足時のトラブルシューティング

Gemma 4実行中にメモリ不足が発生した場合の対処法です。 症状別 対処法 1. OOMエラー(Out of Memory)が発生する - 対処法: より軽量な量子化レベル(Q8→Q5→Q4)を試す - コマンド例: `ollama run gemma4:4b-q4` で明示的にQ4を指定 2. 起動は成功するが非常に遅い - 原因: VRAMが不足し、システムRAMにスワップしている - 対処法: より小さいモデル(31B→26B→E4B)にダウングレード、または他のアプリを終了 3. macOSで「メモリ不足」警告が出る - 対処法: 統合メモリの70%以上をGemmaに割り当てないようにする。例:16GB Macなら10GB以下のモデルを使用 4. Windowsでページファイル警告 - 対処法: ページファイルサイズを手動で増やす(システムのプロパティ→詳細設定→パフォーマンス→仮想メモリ) 5. 複数モデルを同時実行したい - 必要メモリ: 各モデルのメモリ要件の合計 + 4GB - : E4B (5GB) + E2B (5GB) = 最低14GB必要 メモリ不足を避けるには、モデルメモリ要件の1.5倍のハードウェアを用意することを推奨します。

バッチ処理とストリーミングの速度差

Gemma 4の実行速度は、バッチ処理(一度に全文生成)とストリーミング(逐次生成)で異なります。 実行モード別 性能比較(E4B Q4、RTX 4090)

実行モード速度レイテンシ(初回出力)体感速度推奨用途
ストリーミング50 tokens/sec100-300ms非常に速く感じるチャット、対話型UI
バッチ60 tokens/sec5-15秒遅く感じる一括処理、データ分析
並列バッチ (4並列)180 tokens/sec合計10-20秒-大量文書処理

Ollamaのデフォルトはストリーミングです。チャットボットやリアルタイムアプリケーションでは、ユーザーは最初の単語が表示されるまでの時間(レイテンシ)を重視するため、ストリーミングが適しています。一方、数百件の文書を一括要約する場合は、バッチ処理で並列実行したほうがスループットが高くなります。

電力消費とランニングコスト

ローカルAI実行では電力消費が重要なコスト要因になります。 ハードウェア別 電力消費(E4B Q4 連続実行時)

構成消費電力1時間あたり電気代24時間あたり月間(240時間稼働)
M2 Mac mini20-30W0.6-0.9円14-22円144-216円
RTX 3060搭載PC180-220W5.4-6.6円130-158円1,296-1,584円
RTX 4070搭載PC250-300W7.5-9.0円180-216円1,800-2,160円
RTX 4090搭載PC450-550W13.5-16.5円324-396円3,240-3,960円
RTX 6000 Ada300-350W9.0-10.5円216-252円2,160-2,520円

*電気代単価を30円/kWhで計算 クラウドとの比較(31B Q4、月間100万トークン生成) - ローカル(RTX 4090): 初期投資25万円 + 月間電気代約4,000円 - AWS EC2 p4d.xlarge: 初期投資0円 + 月間利用料約50,000円(オンデマンド) - OpenAI GPT-4: 月間API費用約15,000円(30ドル) ローカル実行は月間100万トークン以上を処理する場合にコスト優位性があります。ただし、メンテナンス、管理コストも考慮する必要があります。

マルチGPU構成での性能向上

複数のGPUを使用することで、より大きなモデルの実行や高速化が可能です。 マルチGPU構成例

構成合計VRAM実行可能モデル性能向上コスト
RTX 4090 × 124GB31B (Q4)基準25万円
RTX 4090 × 248GB31B (Q8, FP16)1.6-1.8倍50万円
RTX 4080 × 232GB31B (Q5)1.4-1.6倍30万円
RTX 3090 × 372GB31B (FP16)2.0-2.3倍30万円(中古)

Ollamaは自動的にマルチGPUを検出して負荷分散します。ただし、GPUが異なるVRAMを持つ場合(例:RTX 4090 24GB + RTX 3060 12GB)、小さいほうに合わせた分散になるため効率が落ちます。マルチGPU構成では同じモデルのGPUを揃えることが重要です。 また、NVLinkで接続されたGPUの場合、VRAM間の通信が高速化され、さらに10-15%の性能向上が見込めます。

よくある質問(FAQ)

Q1: 8GB RAMのノートPCでGemma 4は動きますか? A: E2B (Q4) であれば動作可能です。ただし、他のアプリケーション(ブラウザなど)を同時に使用すると不安定になるため、16GB以上を推奨します。 Q2: GPUなしでも実用的に使えますか? A: E2B/E4Bであれば、8コア以上のCPUで実用レベル(5-8 tokens/sec)です。ただし、GPUがあれば5-10倍高速になるため、頻繁に使用する場合はGPU導入を推奨します。 Q3: 量子化による精度低下はどの程度ですか? A: Q4_K_Mで3-6%の精度低下が一般的です。ビジネス文書の要約や翻訳では体感的な差は小さいですが、数学的推論や医療診断など高精度が求められる分野ではQ8以上を推奨します。 Q4: M1 MacとRTX 4070、どちらが良いですか? A: 速度優先ならRTX 4070(1.5-2倍高速)、省電力・静音性優先ならM1 Macです。長時間稼働する場合、M1の電力効率(消費電力1/5)は大きなメリットです。 Q5: 26B MoEと31B Dense、どちらが速いですか? A: 同じ量子化レベルであれば、26B MoEが1.3-1.5倍高速です。MoEは推論時に4Bパラメータしか使わないため、メモリアクセスが少なくなります。性能面では31B Denseがわずかに上回ります。 Q6: VRAMとシステムRAMの違いは何ですか? A: VRAMはGPU専用の高速メモリ、システムRAMは汎用メモリです。LLM実行ではVRAMのほうが5-10倍高速ですが、容量単価はシステムRAMのほうが安価です。Apple Siliconは統合メモリで両者を兼ねています。 Q7: クラウドとローカル、どちらがコスト効率的ですか? A: 月間100万トークン未満ならクラウド、以上ならローカルが有利です。ただし、データプライバシーや通信の安定性を重視する場合はローカルが推奨されます。

Oflight Inc.のAI導入支援サービス

株式会社オブライトでは、Gemma 4の最適なハードウェア選定から導入まで、総合的にサポートしています。 ハードウェアコンサルティングサービス 1. 要件ヒアリング: 処理するデータ量、応答速度要件、予算をもとに最適構成を提案 2. 性能ベンチマーク: 貴社の実データでテスト実行し、実際の性能を事前確認 3. 調達支援: GPU等の最適な調達先の紹介、見積もり比較 4. 環境構築: Ollama、CUDA、ドライバーの最適設定 5. 性能チューニング: 量子化レベル、バッチサイズ等の最適化 導入実績 - 製造業A社:RTX 4090×2構成で31B Denseを導入、品質管理AIシステムを構築(投資回収期間8ヶ月) - 金融機関B社:RTX A5000×4構成でマルチユーザーAI分析環境を構築 - 小売C社:M3 Mac mini×10台で店舗ごとのローカルAI導入(月間クラウドコスト90%削減) ハードウェア選定は、AI導入の成否を左右する重要な要素です。初期投資を抑えつつ、将来の拡張性も確保した設計をご提案します。無料相談を実施していますので、お気軽にお問い合わせください。 AIコンサルティングサービスの詳細はこちら

お気軽にご相談ください

お問い合わせ