AI2026-05-25

Gemma 4 性能徹底比較 — Llama 4 / Qwen / Mistral / DeepSeek とベンチマーク・速度・コスパで比べた【2026年版オープンウェイトLLM決定版】

Gemma 4（E2B / E4B / 26B MoE / 31B Dense）の性能を、同じくオープンウェイトの Llama 4 / Qwen 3.5 / Mistral / DeepSeek と公開ベンチマーク（MMLU-Pro / GPQA / HumanEval / MATH-500 / MT-Bench）で比較。さらに推論速度（tok/s）、メモリ効率（VRAM あたりの精度）、コスト効率（1M トークンあたりの円換算）、日本語性能、function calling 対応、Apache 2.0 / MIT / 商用利用条件まで2026年5月時点の最新情報で整理しました。社内 LLM・エッジ AI・コーディングアシスタント・RAG 用途別の推奨選定マトリクス付き。

Gemma 4 Llama 4 Qwen Mistral DeepSeek LLM Benchmark Local AI Performance Comparison

TL;DR — 2026年5月時点のオープンウェイト LLM 序列

Gemma 4 ファミリーは、2026年5月時点のオープンウェイト LLM ランドスケープにおいて 「同サイズ帯で精度トップ級・推論速度はやや控えめ・ライセンスは最も自由」 という位置取りです。

結論を先にまとめると次の通り（詳細はそれぞれのセクションで一次ソースを引用しながら解説します）:

観点	勝者 / 推奨
総合精度（同サイズ）	Gemma 4 31B Dense（汎用） / DeepSeek V3.5（推論特化）
推論速度（tok/s）	Mistral Small 3 / Qwen 3.5 Turbo
メモリ効率（精度/GB）	Gemma 4 E4B、Gemma 4 26B MoE
コスト効率（自社運用）	Gemma 4 E4B、Qwen 3.5 4B
日本語性能	Qwen 3.5 / Gemma 4（拮抗）
function calling 標準対応	Gemma 4（ネイティブ） / Llama 4（要設定）
ライセンスの自由度	Gemma 4（Apache 2.0） / Mistral（Apache 2.0）
エッジ・モバイル動作	Gemma 4 E2B / E4B が圧倒

つまり 「同じ VRAM で最大の総合スコアを出したい」「商用利用に確実なライセンスが欲しい」「エッジで動かしたい」 の3つが揃う案件では、2026年5月時点で Gemma 4 がデフォルト選択 になります。一方、推論速度を最優先する大量バッチ処理 や、最先端の推論能力（コード生成・数学）を最優先する ケースでは Mistral / DeepSeek を併用する構成が現実解です。

本コラムは Gemma 4 必要スペック早見表と Gemma 4 + AI Studio 大型更新の続編として、性能・コスト・選定軸を一次ソースで整理します。

比較対象モデルの2026年5月時点ラインナップ

比較対象として2026年5月時点で オープンウェイト（重み公開）かつ実運用可能なモデル を以下に絞ります。

ファミリー	提供	主要サイズ	ライセンス	リリース
Gemma 4	Google DeepMind	E2B / E4B / 26B MoE / 31B Dense	Apache 2.0	2026年4月
Llama 4	Meta	8B / 70B / 405B	Llama 4 Community License（商用可、>7億 MAU 制限）	2026年Q1
Qwen 3.5	Alibaba	0.5B〜72B	Apache 2.0（一部 Qwen License）	2026年Q1〜Q2
Mistral	Mistral AI	Small 3 / Medium 3 / Large 3	一部 Apache 2.0、一部商用ライセンス	2026年Q1〜Q2
DeepSeek V3.5	DeepSeek	16B / 671B MoE	カスタム（商用利用可）	2026年Q1
Phi-5	Microsoft	3.8B / 14B	MIT	2026年Q1

Gemma 4 の派生で本コラムが特に注目するのは E4B（4B 相当・エッジ向け） と 26B MoE（推論時 4B 相当） と 31B Dense（フラッグシップ） の3つです。

標準ベンチマーク比較（MMLU-Pro / GPQA / HumanEval / MATH-500）

公開ベンチマークスコアを横並びにします。値は各社の公式発表・モデルカード・標準的なリーダーボード（lmarena.ai 等）の2026年5月時点の集計に基づきます。同サイズ帯（4B クラス、Dense 30B クラス）で見るのが公平です。

4B クラス（エッジ・コンシューマ GPU 向け）

モデル	MMLU-Pro	GPQA	HumanEval	MATH-500
Gemma 4 E4B	約60点台前半	約30点台前半	約70点台前半	約55点台
Llama 4 8B	約55点台	約25点台	約65点台	約45点台
Qwen 3.5 4B	約58点台	約28点台	約72点台	約50点台
Mistral Small 3	約57点台	約27点台	約68点台	約48点台
Phi-5 14B	約62点台	約32点台	約74点台	約58点台

Dense 30B クラス（業務用ローカル LLM）

モデル	MMLU-Pro	GPQA	HumanEval	MATH-500
Gemma 4 31B Dense	約78点台	約48点台	約82点台	約75点台
Llama 4 70B	約76点台	約50点台	約80点台	約72点台
Qwen 3.5 32B	約77点台	約47点台	約83点台	約73点台
Mistral Medium 3	約74点台	約45点台	約79点台	約70点台

観察: 30B クラスでは 4社が拮抗 しており、ベンチマーク 1〜3点の差は実用上ほぼ誤差。むしろ後述する 推論速度、メモリ要件、ライセンス、function calling 対応 で選ぶべきです。

重要な注記: 上記スコアは2026年5月時点の各社公開値を整理したもので、ベンチマークごとに測定条件（few-shot 数、量子化レベル、評価ハーネス）が異なる場合があります。最新の確定値は Open LLM Leaderboard や Chatbot Arena で必ず確認してください。

推論速度比較（tok/s）— ハードウェア別

ベンチマーク精度が拮抗する場合、次に効くのが 推論速度（tok/s）。同じ VRAM・同じ量子化レベルで比較した代表値です。

RTX 4090（VRAM 24GB） / Q4 量子化

モデル	tok/s	体感
Gemma 4 E4B	約 100〜140	即応
Qwen 3.5 4B	約 110〜150	即応
Mistral Small 3	約 130〜170	最速
Llama 4 8B	約 80〜110	やや遅
Gemma 4 26B MoE	約 50〜75	実用速度
Gemma 4 31B Dense	約 25〜40	業務OK
Qwen 3.5 32B	約 30〜45	業務OK
Llama 4 70B (Q4)	約 18〜28	やや遅

Apple Silicon M3 Max 64GB / MLX / Q4

モデル	tok/s
Gemma 4 E4B	約 35〜50
Gemma 4 26B MoE	約 18〜28
Gemma 4 31B Dense	約 8〜14
Qwen 3.5 32B	約 9〜15
Llama 4 70B	約 4〜7（M4 Max 推奨）

観察: 4B クラスは Mistral Small 3 が一歩抜きん出て速い。一方 Gemma 4 26B MoE は 31B より小さい計算量（4B 相当）で 26B 規模の知識を引き出せる ため、メモリと速度のバランスが非常に良いことが分かります。

メモリ効率（精度/GB VRAM）

「同じ VRAM 予算で最も賢いモデル」を選ぶ観点です。MMLU-Pro スコア ÷ VRAM 要件（Q4）で正規化します。

モデル	MMLU-Pro	VRAM (Q4)	精度/GB
Gemma 4 E4B	~62	~3GB	約 20.7
Gemma 4 26B MoE	~73	~10GB	約 7.3
Gemma 4 31B Dense	~78	~24GB	約 3.3
Qwen 3.5 4B	~58	~3GB	約 19.3
Llama 4 8B	~55	~6GB	約 9.2
Llama 4 70B	~76	~40GB	約 1.9
Mistral Small 3	~57	~3GB	約 19.0

観察: Gemma 4 E4B は VRAM 3GB という極小フットプリントで MMLU-Pro 60点台前半。1GB あたりの賢さで オープンウェイト LLM 全体でトップ。エッジ・モバイル・低スペック PC で AI を回したいなら、現時点での合理的な第一候補です。

コスト効率（自社運用での 1M トークン換算）

クラウド API ではなく 自社運用 した場合の1M トークンあたりのコスト感（GPU 償却 + 電気代）です。RTX 4090 を月額 5,000円相当（クラウドレンタル想定）と仮定。

モデル	tok/s	1M トークンの所要時間	推定コスト（電気代+償却）
Gemma 4 E4B	120	約 2.3 時間	約 5〜15円
Gemma 4 26B MoE	60	約 4.6 時間	約 15〜30円
Gemma 4 31B Dense	32	約 8.7 時間	約 30〜60円
Llama 4 70B (Q4)	22	約 12.6 時間	約 50〜90円

比較参考: OpenAI GPT-4o の API 価格 は約 $2.50/1M（入力）〜 $10.00/1M（出力）= 約 375円〜1,500円/1M。Gemma 4 E4B を自社運用すれば API の 1/100 以下 のランニングコストが実現可能です（精度差は別途検討要）。

日本語性能

日本語性能は JGLUE / JCommonsenseQA / 公開日本語ベンチマーク で評価します。

モデル	JCommonsenseQA	JGLUE 平均	コメント
Qwen 3.5 32B	約 88点	約 80点	日本語特化チューニングあり
Gemma 4 31B Dense	約 86点	約 78点	多言語バランス型
Llama 4 70B	約 82点	約 74点	英語優先設計
Mistral Medium 3	約 78点	約 70点	欧州言語優先
Gemma 4 E4B	約 75点	約 65点	軽量モデルとしては優秀

観察: 日本語業務で使うなら Qwen 3.5 / Gemma 4 が2強。Mistral は欧州寄り、Llama 4 は英語優先で日本語タスクではやや落ちます。日本語 + ライセンスの自由度 + マルチモーダル対応を全部取りたいなら Gemma 4 が現状の最適解です。

function calling とエージェント適性

AI エージェント用途で必須となるのが function calling（ネイティブツール呼出） と マルチステップ推論 の対応状況です。

モデル	function calling	マルチステップ	マルチモーダル
Gemma 4	ネイティブ対応	◯	テキスト + 画像 + 音声
Llama 4	プロンプトテンプレ経由	◯	テキスト + 画像
Qwen 3.5	ネイティブ対応	◯	テキスト + 画像
Mistral	ネイティブ対応	◯	テキストのみ（一部画像）
DeepSeek V3.5	ネイティブ対応	◎（推論強化）	テキスト
Phi-5	プロンプトテンプレ	△	テキスト + 画像

Gemma 4 / Qwen 3.5 / Mistral / DeepSeek が ネイティブ function calling 対応 で、エージェント実装の摩擦が少ない4強。Llama 4 はプロンプトテンプレ経由のため、Claude Code Agent View や Cursor Automations のような MCP ベースのエージェントには直接組み込みづらい構造です。

ライセンス比較 — 商用利用での実務的な差

オープンウェイトでもライセンスの実務的な意味は大きく違います。

モデル	ライセンス	商用利用	制限
Gemma 4	Apache 2.0	完全自由	なし
Mistral Small/Medium	Apache 2.0	完全自由	なし
Mistral Large 3	Mistral Research License	限定	商用は別途契約
Phi-5	MIT	完全自由	なし
Qwen 3.5（一部）	Apache 2.0	完全自由	なし
Qwen 3.5（72B 等）	Qwen License	制限あり	月間 1億 MAU 超で要追加合意
Llama 4	Llama 4 Community License	条件付き可	月間 7億 MAU 超で別契約必須、Meta との競合製品開発に制約
DeepSeek V3.5	DeepSeek License	条件付き可	商用利用条項要確認

Apache 2.0 / MIT は商用・改変・再配布が完全に自由で、社内 LLM・SaaS プロダクトに組み込む際の法務リスクが最も低いライセンスです。Gemma 4 / Mistral Small・Medium / Phi-5 がこの安全圏。Llama 4 は MAU 制限と Meta 競合条項 があるため、グローバル SaaS や金融プロダクトでは要注意です。

用途別選定マトリクス

実務でよくある6つの用途別に、2026年5月時点での推奨を整理します。

用途	第一推奨	第二推奨	理由
エッジ・モバイル AI	Gemma 4 E4B	Qwen 3.5 4B	VRAM 3GB で MMLU-Pro 60点台、Apache 2.0
社内 LLM（汎用業務）	Gemma 4 31B Dense	Qwen 3.5 32B	日本語 + 多モーダル + ライセンス
コーディングアシスタント	Qwen 3.5 32B（Coder 派生）	Gemma 4 31B Dense	HumanEval スコア
RAG / 知識検索	Gemma 4 26B MoE	Mistral Medium 3	メモリ効率 × 推論速度
大量バッチ処理	Mistral Small 3	Gemma 4 E4B	tok/s が最速
数学・科学推論	DeepSeek V3.5	Gemma 4 31B Dense	GPQA・MATH-500 で優位

Gemma 4 の弱点と注意点

Gemma 4 が万能ではない点も率直に押さえます。

- 推論速度はやや控えめ — 同サイズ帯の Mistral / Qwen より tok/s で 10〜20% 遅い場面あり。バッチ処理重視なら Mistral Small 3 が優位
- コーディング特化ベンチで Qwen Coder にやや劣る — HumanEval / MBPP の最上位は Qwen Coder 系
- 長文コンテキスト（128K 以上）の精度低下 — 32K あたりまでは安定、それ以上は他社モデル比で性能劣化が報告されている（第三者観測）
- ベンチマーク値は2026年5月時点 — 月単位で各社がアップデートしているため、本コラムの数値は 2〜3か月ごとに再確認が必要

オブライトの推奨スタック（2026年5月時点）

弊社の AI コンサルティングで日本企業の社内 LLM・エッジ AI 案件を支援する際の デフォルトスタック は以下です。

1. PoC・開発フェーズ: Gemma 4 E4B + Ollama（ローカル動作確認）→ Gemma 4 31B Dense + vLLM（本番想定の性能評価）
2. 本番 / 社内 LLM: Gemma 4 31B Dense（日本語業務） or Qwen 3.5 32B（日本語特化が必須なら）
3. エッジ / モバイル: Gemma 4 E4B（Argent × Gemma 4 のような iOS シミュレータ自律操作シナリオを含む）
4. エージェント基盤: Gemma 4 + MCP（Claude Code Agent View / Cursor Automations と互換）
5. コスト圧縮重視: 自社運用で API の 1/100 以下を実現する設計（GPU 自社償却モデル）

FAQ

Q1. Gemma 4 と Llama 4、どちらを選ぶべき？
A. ライセンスの自由度・日本語性能・マルチモーダル対応で Gemma 4 が現状優位。Llama 4 は MAU 制限と Meta 競合条項があり、グローバル SaaS では法務リスクが上がります。英語特化の研究用途なら Llama 4。

Q2. 日本語業務で Qwen 3.5 と Gemma 4 はどっちが強い？
A. JCommonsenseQA / JGLUE では Qwen 3.5 がわずかに優位、ただし Gemma 4 のマルチモーダル対応・Apache 2.0 ライセンス・エコシステム（Vertex AI / AI Studio）を考慮すると 総合では Gemma 4 をおすすめ。

Q3. RTX 3060 (12GB) で何が動く？
A. Gemma 4 E4B Q4（3GB）、Qwen 3.5 4B、Phi-5 14B Q4、Mistral Small 3 Q4 が快適。26B MoE Q4（10GB）もギリギリ動作。31B Dense は不可。詳細は Gemma 4 必要スペック早見表。

Q4. ベンチマークスコアと実業務性能の乖離は？
A. MMLU-Pro / HumanEval は 一般知識・コード生成の標準テストで、実業務（社内文書 Q&A、メール返信、データ要約）では 追加チューニング・RAG・プロンプト設計 の質のほうが効きます。ベンチマークは「足切り」の参考で、最終判定は社内データでの A/B テスト推奨。

Q5. 2026年後半に向けて何が変わる？
A. Google は Gemini 3.5 Pro を2026年6月リリース予定、Meta は Llama 4 派生の推論強化版、Alibaba は Qwen 4 系の準備を示唆。現時点での選定は半年で見直す前提 で運用ルール（モデル差し替え可能なアーキテクチャ）を組むのが安全です。

Q6. Gemma 4 の商用利用で気をつけることは？
A. Apache 2.0 のため利用条件は非常に緩いですが、Gemma Prohibited Use Policy に明記された禁止用途（武器開発、児童搾取等）には適用不可。一般的な業務利用では制約はありません。

まとめ

2026年5月時点で 「同じ VRAM で最大の総合性能 × Apache 2.0 × ネイティブ function calling × マルチモーダル × 強い日本語性能」 の5条件を揃えるオープンウェイト LLM は、Gemma 4 ファミリーが現状の最適解 です。

ただし用途によっては Mistral（速度）、Qwen（日本語純粋性能）、DeepSeek（数学・推論）、Llama 4（英語研究）の方が優位な場面があるため、「Gemma 4 をデフォルトに置きつつ、用途に応じて補完モデルを併用する」 ハイブリッド構成が現実的な答えです。

オブライトでは社内 LLM 導入支援の中で、お客様のデータでベンチマークを取り直し、用途別に最適なモデルを選定するコンサルティングを提供しています。詳しくは AI コンサルティングをご覧ください。

References

公式・一次ソース:
- Gemma 4 モデルカード（Hugging Face）
- Android Developers Blog — Gemma 4 announcement
- Google Developers Blog — Gemma 4 agentic skills
- Meta — Llama 4
- Qwen 公式ドキュメント
- Mistral 公式
- DeepSeek 公式
- Gemma Prohibited Use Policy

ベンチマーク参照:
- Open LLM Leaderboard (Hugging Face)
- Chatbot Arena (lmarena.ai)
- JGLUE / JCommonsenseQA

関連コラム:
- Gemma 4 必要スペック早見表
- Gemma 4 + Google AI Studio 大型更新
- Gemini 3.5 Flash と Gemini Omni 解説
- Argent × Gemma 4 — オンデバイス AI エージェント
- Qwen3.5-9B 完全ガイド（既存）

注記: 本コラムのベンチマークスコアは2026年5月時点の各社公開値・第三者リーダーボードを整理した目安です。測定条件（few-shot 数、量子化レベル、評価ハーネス）の違いがあるため、最終判定は社内データでの A/B テストを推奨します。3か月ごとに各社が新バージョンを出しているため、本記事の数値は 継続的にアップデート する前提でご利用ください。

お気軽にご相談ください

お問い合わせ

Gemma 4 性能徹底比較 — Llama 4 / Qwen / Mistral / DeepSeek とベンチマーク・速度・コスパで比べた【2026年版 オープンウェイトLLM決定版】