Gemma 4 性能徹底比較 — Llama 4 / Qwen / Mistral / DeepSeek とベンチマーク・速度・コスパで比べた【2026年版 オープンウェイトLLM決定版】
Gemma 4(E2B / E4B / 26B MoE / 31B Dense)の性能を、同じくオープンウェイトの Llama 4 / Qwen 3.5 / Mistral / DeepSeek と公開ベンチマーク(MMLU-Pro / GPQA / HumanEval / MATH-500 / MT-Bench)で比較。さらに推論速度(tok/s)、メモリ効率(VRAM あたりの精度)、コスト効率(1M トークンあたりの円換算)、日本語性能、function calling 対応、Apache 2.0 / MIT / 商用利用条件まで2026年5月時点の最新情報で整理しました。社内 LLM・エッジ AI・コーディングアシスタント・RAG 用途別の推奨選定マトリクス付き。
TL;DR — 2026年5月時点のオープンウェイト LLM 序列
Gemma 4 ファミリーは、2026年5月時点のオープンウェイト LLM ランドスケープにおいて 「同サイズ帯で精度トップ級・推論速度はやや控えめ・ライセンスは最も自由」 という位置取りです。
結論を先にまとめると次の通り(詳細はそれぞれのセクションで一次ソースを引用しながら解説します):
| 観点 | 勝者 / 推奨 |
|---|---|
| 総合精度(同サイズ) | Gemma 4 31B Dense(汎用) / DeepSeek V3.5(推論特化) |
| 推論速度(tok/s) | Mistral Small 3 / Qwen 3.5 Turbo |
| メモリ効率(精度/GB) | Gemma 4 E4B、Gemma 4 26B MoE |
| コスト効率(自社運用) | Gemma 4 E4B、Qwen 3.5 4B |
| 日本語性能 | Qwen 3.5 / Gemma 4(拮抗) |
| function calling 標準対応 | Gemma 4(ネイティブ) / Llama 4(要設定) |
| ライセンスの自由度 | Gemma 4(Apache 2.0) / Mistral(Apache 2.0) |
| エッジ・モバイル動作 | Gemma 4 E2B / E4B が圧倒 |
つまり 「同じ VRAM で最大の総合スコアを出したい」「商用利用に確実なライセンスが欲しい」「エッジで動かしたい」 の3つが揃う案件では、2026年5月時点で Gemma 4 がデフォルト選択 になります。一方、推論速度を最優先する大量バッチ処理 や、最先端の推論能力(コード生成・数学)を最優先する ケースでは Mistral / DeepSeek を併用する構成が現実解です。
本コラムは Gemma 4 必要スペック早見表 と Gemma 4 + AI Studio 大型更新 の続編として、性能・コスト・選定軸を一次ソースで整理します。
比較対象モデルの2026年5月時点ラインナップ
比較対象として2026年5月時点で オープンウェイト(重み公開)かつ実運用可能なモデル を以下に絞ります。
| ファミリー | 提供 | 主要サイズ | ライセンス | リリース |
|---|---|---|---|---|
| Gemma 4 | Google DeepMind | E2B / E4B / 26B MoE / 31B Dense | Apache 2.0 | 2026年4月 |
| Llama 4 | Meta | 8B / 70B / 405B | Llama 4 Community License(商用可、>7億 MAU 制限) | 2026年Q1 |
| Qwen 3.5 | Alibaba | 0.5B〜72B | Apache 2.0(一部 Qwen License) | 2026年Q1〜Q2 |
| Mistral | Mistral AI | Small 3 / Medium 3 / Large 3 | 一部 Apache 2.0、一部 商用ライセンス | 2026年Q1〜Q2 |
| DeepSeek V3.5 | DeepSeek | 16B / 671B MoE | カスタム(商用利用可) | 2026年Q1 |
| Phi-5 | Microsoft | 3.8B / 14B | MIT | 2026年Q1 |
Gemma 4 の派生で本コラムが特に注目するのは E4B(4B 相当・エッジ向け) と 26B MoE(推論時 4B 相当) と 31B Dense(フラッグシップ) の3つです。
標準ベンチマーク比較(MMLU-Pro / GPQA / HumanEval / MATH-500)
公開ベンチマークスコアを横並びにします。値は各社の公式発表・モデルカード・標準的なリーダーボード(lmarena.ai 等)の2026年5月時点の集計に基づきます。同サイズ帯(4B クラス、Dense 30B クラス)で見るのが公平です。
4B クラス(エッジ・コンシューマ GPU 向け)
| モデル | MMLU-Pro | GPQA | HumanEval | MATH-500 |
|---|---|---|---|---|
| Gemma 4 E4B | 約60点台前半 | 約30点台前半 | 約70点台前半 | 約55点台 |
| Llama 4 8B | 約55点台 | 約25点台 | 約65点台 | 約45点台 |
| Qwen 3.5 4B | 約58点台 | 約28点台 | 約72点台 | 約50点台 |
| Mistral Small 3 | 約57点台 | 約27点台 | 約68点台 | 約48点台 |
| Phi-5 14B | 約62点台 | 約32点台 | 約74点台 | 約58点台 |
Dense 30B クラス(業務用ローカル LLM)
| モデル | MMLU-Pro | GPQA | HumanEval | MATH-500 |
|---|---|---|---|---|
| Gemma 4 31B Dense | 約78点台 | 約48点台 | 約82点台 | 約75点台 |
| Llama 4 70B | 約76点台 | 約50点台 | 約80点台 | 約72点台 |
| Qwen 3.5 32B | 約77点台 | 約47点台 | 約83点台 | 約73点台 |
| Mistral Medium 3 | 約74点台 | 約45点台 | 約79点台 | 約70点台 |
観察: 30B クラスでは 4社が拮抗 しており、ベンチマーク 1〜3点の差は実用上ほぼ誤差。むしろ後述する 推論速度、メモリ要件、ライセンス、function calling 対応 で選ぶべきです。
重要な注記: 上記スコアは2026年5月時点の各社公開値を整理したもので、ベンチマークごとに測定条件(few-shot 数、量子化レベル、評価ハーネス)が異なる場合があります。最新の確定値は Open LLM Leaderboard や Chatbot Arena で必ず確認してください。
推論速度比較(tok/s)— ハードウェア別
ベンチマーク精度が拮抗する場合、次に効くのが 推論速度(tok/s)。同じ VRAM・同じ量子化レベルで比較した代表値です。
RTX 4090(VRAM 24GB) / Q4 量子化
| モデル | tok/s | 体感 |
|---|---|---|
| Gemma 4 E4B | 約 100〜140 | 即応 |
| Qwen 3.5 4B | 約 110〜150 | 即応 |
| Mistral Small 3 | 約 130〜170 | 最速 |
| Llama 4 8B | 約 80〜110 | やや遅 |
| Gemma 4 26B MoE | 約 50〜75 | 実用速度 |
| Gemma 4 31B Dense | 約 25〜40 | 業務OK |
| Qwen 3.5 32B | 約 30〜45 | 業務OK |
| Llama 4 70B (Q4) | 約 18〜28 | やや遅 |
Apple Silicon M3 Max 64GB / MLX / Q4
| モデル | tok/s |
|---|---|
| Gemma 4 E4B | 約 35〜50 |
| Gemma 4 26B MoE | 約 18〜28 |
| Gemma 4 31B Dense | 約 8〜14 |
| Qwen 3.5 32B | 約 9〜15 |
| Llama 4 70B | 約 4〜7(M4 Max 推奨) |
観察: 4B クラスは Mistral Small 3 が一歩抜きん出て速い。一方 Gemma 4 26B MoE は 31B より小さい計算量(4B 相当)で 26B 規模の知識を引き出せる ため、メモリと速度のバランスが非常に良いことが分かります。
メモリ効率(精度/GB VRAM)
「同じ VRAM 予算で最も賢いモデル」を選ぶ観点です。MMLU-Pro スコア ÷ VRAM 要件(Q4)で正規化します。
| モデル | MMLU-Pro | VRAM (Q4) | 精度/GB |
|---|---|---|---|
| Gemma 4 E4B | ~62 | ~3GB | 約 20.7 |
| Gemma 4 26B MoE | ~73 | ~10GB | 約 7.3 |
| Gemma 4 31B Dense | ~78 | ~24GB | 約 3.3 |
| Qwen 3.5 4B | ~58 | ~3GB | 約 19.3 |
| Llama 4 8B | ~55 | ~6GB | 約 9.2 |
| Llama 4 70B | ~76 | ~40GB | 約 1.9 |
| Mistral Small 3 | ~57 | ~3GB | 約 19.0 |
観察: Gemma 4 E4B は VRAM 3GB という極小フットプリントで MMLU-Pro 60点台前半。1GB あたりの賢さで オープンウェイト LLM 全体でトップ。エッジ・モバイル・低スペック PC で AI を回したいなら、現時点での合理的な第一候補です。
コスト効率(自社運用での 1M トークン換算)
クラウド API ではなく 自社運用 した場合の1M トークンあたりのコスト感(GPU 償却 + 電気代)です。RTX 4090 を月額 5,000円相当(クラウドレンタル想定)と仮定。
| モデル | tok/s | 1M トークンの所要時間 | 推定コスト(電気代+償却) |
|---|---|---|---|
| Gemma 4 E4B | 120 | 約 2.3 時間 | 約 5〜15円 |
| Gemma 4 26B MoE | 60 | 約 4.6 時間 | 約 15〜30円 |
| Gemma 4 31B Dense | 32 | 約 8.7 時間 | 約 30〜60円 |
| Llama 4 70B (Q4) | 22 | 約 12.6 時間 | 約 50〜90円 |
比較参考: OpenAI GPT-4o の API 価格 は約 $2.50/1M(入力)〜 $10.00/1M(出力)= 約 375円〜1,500円/1M。Gemma 4 E4B を自社運用すれば API の 1/100 以下 のランニングコストが実現可能です(精度差は別途検討要)。
日本語性能
日本語性能は JGLUE / JCommonsenseQA / 公開日本語ベンチマーク で評価します。
| モデル | JCommonsenseQA | JGLUE 平均 | コメント |
|---|---|---|---|
| Qwen 3.5 32B | 約 88点 | 約 80点 | 日本語特化チューニングあり |
| Gemma 4 31B Dense | 約 86点 | 約 78点 | 多言語バランス型 |
| Llama 4 70B | 約 82点 | 約 74点 | 英語優先設計 |
| Mistral Medium 3 | 約 78点 | 約 70点 | 欧州言語優先 |
| Gemma 4 E4B | 約 75点 | 約 65点 | 軽量モデルとしては優秀 |
観察: 日本語業務で使うなら Qwen 3.5 / Gemma 4 が2強。Mistral は欧州寄り、Llama 4 は英語優先で日本語タスクではやや落ちます。日本語 + ライセンスの自由度 + マルチモーダル対応を全部取りたいなら Gemma 4 が現状の最適解です。
function calling とエージェント適性
AI エージェント用途で必須となるのが function calling(ネイティブツール呼出) と マルチステップ推論 の対応状況です。
| モデル | function calling | マルチステップ | マルチモーダル |
|---|---|---|---|
| Gemma 4 | ネイティブ対応 | ◯ | テキスト + 画像 + 音声 |
| Llama 4 | プロンプトテンプレ経由 | ◯ | テキスト + 画像 |
| Qwen 3.5 | ネイティブ対応 | ◯ | テキスト + 画像 |
| Mistral | ネイティブ対応 | ◯ | テキストのみ(一部画像) |
| DeepSeek V3.5 | ネイティブ対応 | ◎(推論強化) | テキスト |
| Phi-5 | プロンプトテンプレ | △ | テキスト + 画像 |
Gemma 4 / Qwen 3.5 / Mistral / DeepSeek が ネイティブ function calling 対応 で、エージェント実装の摩擦が少ない4強。Llama 4 はプロンプトテンプレ経由のため、Claude Code Agent View や Cursor Automations のような MCP ベースのエージェントには直接組み込みづらい構造です。
ライセンス比較 — 商用利用での実務的な差
オープンウェイトでもライセンスの実務的な意味は大きく違います。
| モデル | ライセンス | 商用利用 | 制限 |
|---|---|---|---|
| Gemma 4 | Apache 2.0 | 完全自由 | なし |
| Mistral Small/Medium | Apache 2.0 | 完全自由 | なし |
| Mistral Large 3 | Mistral Research License | 限定 | 商用は別途契約 |
| Phi-5 | MIT | 完全自由 | なし |
| Qwen 3.5(一部) | Apache 2.0 | 完全自由 | なし |
| Qwen 3.5(72B 等) | Qwen License | 制限あり | 月間 1億 MAU 超で要追加合意 |
| Llama 4 | Llama 4 Community License | 条件付き可 | 月間 7億 MAU 超で別契約必須、Meta との競合製品開発に制約 |
| DeepSeek V3.5 | DeepSeek License | 条件付き可 | 商用利用条項要確認 |
Apache 2.0 / MIT は商用・改変・再配布が完全に自由で、社内 LLM・SaaS プロダクトに組み込む際の法務リスクが最も低いライセンスです。Gemma 4 / Mistral Small・Medium / Phi-5 がこの安全圏。Llama 4 は MAU 制限と Meta 競合条項 があるため、グローバル SaaS や金融プロダクトでは要注意です。
用途別 選定マトリクス
実務でよくある6つの用途別に、2026年5月時点での推奨を整理します。
| 用途 | 第一推奨 | 第二推奨 | 理由 |
|---|---|---|---|
| エッジ・モバイル AI | Gemma 4 E4B | Qwen 3.5 4B | VRAM 3GB で MMLU-Pro 60点台、Apache 2.0 |
| 社内 LLM(汎用業務) | Gemma 4 31B Dense | Qwen 3.5 32B | 日本語 + 多モーダル + ライセンス |
| コーディングアシスタント | Qwen 3.5 32B(Coder 派生) | Gemma 4 31B Dense | HumanEval スコア |
| RAG / 知識検索 | Gemma 4 26B MoE | Mistral Medium 3 | メモリ効率 × 推論速度 |
| 大量バッチ処理 | Mistral Small 3 | Gemma 4 E4B | tok/s が最速 |
| 数学・科学推論 | DeepSeek V3.5 | Gemma 4 31B Dense | GPQA・MATH-500 で優位 |
Gemma 4 の弱点と注意点
Gemma 4 が万能ではない点も率直に押さえます。
- 推論速度はやや控えめ — 同サイズ帯の Mistral / Qwen より tok/s で 10〜20% 遅い場面あり。バッチ処理重視なら Mistral Small 3 が優位 - コーディング特化ベンチで Qwen Coder にやや劣る — HumanEval / MBPP の最上位は Qwen Coder 系 - 長文コンテキスト(128K 以上)の精度低下 — 32K あたりまでは安定、それ以上は他社モデル比で性能劣化が報告されている(第三者観測) - ベンチマーク値は2026年5月時点 — 月単位で各社がアップデートしているため、本コラムの数値は 2〜3か月ごとに再確認が必要
オブライトの推奨スタック(2026年5月時点)
弊社の AI コンサルティング で日本企業の社内 LLM・エッジ AI 案件を支援する際の デフォルトスタック は以下です。
1. PoC・開発フェーズ: Gemma 4 E4B + Ollama(ローカル動作確認)→ Gemma 4 31B Dense + vLLM(本番想定の性能評価) 2. 本番 / 社内 LLM: Gemma 4 31B Dense(日本語業務) or Qwen 3.5 32B(日本語特化が必須なら) 3. エッジ / モバイル: Gemma 4 E4B(Argent × Gemma 4 のような iOS シミュレータ自律操作シナリオを含む) 4. エージェント基盤: Gemma 4 + MCP(Claude Code Agent View / Cursor Automations と互換) 5. コスト圧縮重視: 自社運用で API の 1/100 以下を実現する設計(GPU 自社償却モデル)
FAQ
Q1. Gemma 4 と Llama 4、どちらを選ぶべき? A. ライセンスの自由度・日本語性能・マルチモーダル対応で Gemma 4 が現状優位。Llama 4 は MAU 制限と Meta 競合条項があり、グローバル SaaS では法務リスクが上がります。英語特化の研究用途なら Llama 4。 Q2. 日本語業務で Qwen 3.5 と Gemma 4 はどっちが強い? A. JCommonsenseQA / JGLUE では Qwen 3.5 がわずかに優位、ただし Gemma 4 のマルチモーダル対応・Apache 2.0 ライセンス・エコシステム(Vertex AI / AI Studio)を考慮すると 総合では Gemma 4 をおすすめ。 Q3. RTX 3060 (12GB) で何が動く? A. Gemma 4 E4B Q4(3GB)、Qwen 3.5 4B、Phi-5 14B Q4、Mistral Small 3 Q4 が快適。26B MoE Q4(10GB)もギリギリ動作。31B Dense は不可。詳細は Gemma 4 必要スペック早見表。 Q4. ベンチマークスコアと実業務性能の乖離は? A. MMLU-Pro / HumanEval は 一般知識・コード生成の標準テストで、実業務(社内文書 Q&A、メール返信、データ要約)では 追加チューニング・RAG・プロンプト設計 の質のほうが効きます。ベンチマークは「足切り」の参考で、最終判定は社内データでの A/B テスト推奨。 Q5. 2026年後半に向けて何が変わる? A. Google は Gemini 3.5 Pro を2026年6月リリース予定、Meta は Llama 4 派生の推論強化版、Alibaba は Qwen 4 系の準備を示唆。現時点での選定は半年で見直す前提 で運用ルール(モデル差し替え可能なアーキテクチャ)を組むのが安全です。 Q6. Gemma 4 の商用利用で気をつけることは? A. Apache 2.0 のため利用条件は非常に緩いですが、[Gemma Prohibited Use Policy](https://ai.google.dev/gemma/prohibited_use_policy) に明記された禁止用途(武器開発、児童搾取等)には適用不可。一般的な業務利用では制約はありません。
まとめ
2026年5月時点で 「同じ VRAM で最大の総合性能 × Apache 2.0 × ネイティブ function calling × マルチモーダル × 強い日本語性能」 の5条件を揃えるオープンウェイト LLM は、Gemma 4 ファミリーが現状の最適解 です。
ただし用途によっては Mistral(速度)、Qwen(日本語純粋性能)、DeepSeek(数学・推論)、Llama 4(英語研究)の方が優位な場面があるため、「Gemma 4 をデフォルトに置きつつ、用途に応じて補完モデルを併用する」 ハイブリッド構成が現実的な答えです。
オブライトでは社内 LLM 導入支援の中で、お客様のデータでベンチマークを取り直し、用途別に最適なモデルを選定するコンサルティングを提供しています。詳しくは AI コンサルティング をご覧ください。
References
公式・一次ソース: - Gemma 4 モデルカード(Hugging Face) - Android Developers Blog — Gemma 4 announcement - Google Developers Blog — Gemma 4 agentic skills - Meta — Llama 4 - Qwen 公式ドキュメント - Mistral 公式 - DeepSeek 公式 - Gemma Prohibited Use Policy ベンチマーク参照: - Open LLM Leaderboard (Hugging Face) - Chatbot Arena (lmarena.ai) - JGLUE / JCommonsenseQA 関連コラム: - Gemma 4 必要スペック早見表 - Gemma 4 + Google AI Studio 大型更新 - Gemini 3.5 Flash と Gemini Omni 解説 - Argent × Gemma 4 — オンデバイス AI エージェント - Qwen3.5-9B 完全ガイド(既存) 注記: 本コラムのベンチマークスコアは2026年5月時点の各社公開値・第三者リーダーボードを整理した目安です。測定条件(few-shot 数、量子化レベル、評価ハーネス)の違いがあるため、最終判定は社内データでの A/B テストを推奨します。3か月ごとに各社が新バージョンを出しているため、本記事の数値は 継続的にアップデート する前提でご利用ください。
お気軽にご相談ください
お問い合わせ