株式会社オブライト
AI2026-05-25

Gemma 4 性能徹底比較 — Llama 4 / Qwen / Mistral / DeepSeek とベンチマーク・速度・コスパで比べた【2026年版 オープンウェイトLLM決定版】

Gemma 4(E2B / E4B / 26B MoE / 31B Dense)の性能を、同じくオープンウェイトの Llama 4 / Qwen 3.5 / Mistral / DeepSeek と公開ベンチマーク(MMLU-Pro / GPQA / HumanEval / MATH-500 / MT-Bench)で比較。さらに推論速度(tok/s)、メモリ効率(VRAM あたりの精度)、コスト効率(1M トークンあたりの円換算)、日本語性能、function calling 対応、Apache 2.0 / MIT / 商用利用条件まで2026年5月時点の最新情報で整理しました。社内 LLM・エッジ AI・コーディングアシスタント・RAG 用途別の推奨選定マトリクス付き。


TL;DR — 2026年5月時点のオープンウェイト LLM 序列

Gemma 4 ファミリーは、2026年5月時点のオープンウェイト LLM ランドスケープにおいて 「同サイズ帯で精度トップ級・推論速度はやや控えめ・ライセンスは最も自由」 という位置取りです。

結論を先にまとめると次の通り(詳細はそれぞれのセクションで一次ソースを引用しながら解説します):

観点勝者 / 推奨
総合精度(同サイズ)Gemma 4 31B Dense(汎用) / DeepSeek V3.5(推論特化)
推論速度(tok/s)Mistral Small 3 / Qwen 3.5 Turbo
メモリ効率(精度/GB)Gemma 4 E4B、Gemma 4 26B MoE
コスト効率(自社運用)Gemma 4 E4B、Qwen 3.5 4B
日本語性能Qwen 3.5 / Gemma 4(拮抗)
function calling 標準対応Gemma 4(ネイティブ) / Llama 4(要設定)
ライセンスの自由度Gemma 4(Apache 2.0) / Mistral(Apache 2.0)
エッジ・モバイル動作Gemma 4 E2B / E4B が圧倒

つまり 「同じ VRAM で最大の総合スコアを出したい」「商用利用に確実なライセンスが欲しい」「エッジで動かしたい」 の3つが揃う案件では、2026年5月時点で Gemma 4 がデフォルト選択 になります。一方、推論速度を最優先する大量バッチ処理 や、最先端の推論能力(コード生成・数学)を最優先する ケースでは Mistral / DeepSeek を併用する構成が現実解です。

本コラムは Gemma 4 必要スペック早見表Gemma 4 + AI Studio 大型更新 の続編として、性能・コスト・選定軸を一次ソースで整理します。

比較対象モデルの2026年5月時点ラインナップ

比較対象として2026年5月時点で オープンウェイト(重み公開)かつ実運用可能なモデル を以下に絞ります。

ファミリー提供主要サイズライセンスリリース
Gemma 4Google DeepMindE2B / E4B / 26B MoE / 31B DenseApache 2.02026年4月
Llama 4Meta8B / 70B / 405BLlama 4 Community License(商用可、>7億 MAU 制限)2026年Q1
Qwen 3.5Alibaba0.5B〜72BApache 2.0(一部 Qwen License)2026年Q1〜Q2
MistralMistral AISmall 3 / Medium 3 / Large 3一部 Apache 2.0、一部 商用ライセンス2026年Q1〜Q2
DeepSeek V3.5DeepSeek16B / 671B MoEカスタム(商用利用可)2026年Q1
Phi-5Microsoft3.8B / 14BMIT2026年Q1

Gemma 4 の派生で本コラムが特に注目するのは E4B(4B 相当・エッジ向け)26B MoE(推論時 4B 相当)31B Dense(フラッグシップ) の3つです。

標準ベンチマーク比較(MMLU-Pro / GPQA / HumanEval / MATH-500)

公開ベンチマークスコアを横並びにします。値は各社の公式発表・モデルカード・標準的なリーダーボード(lmarena.ai 等)の2026年5月時点の集計に基づきます。同サイズ帯(4B クラス、Dense 30B クラス)で見るのが公平です。

4B クラス(エッジ・コンシューマ GPU 向け)

モデルMMLU-ProGPQAHumanEvalMATH-500
Gemma 4 E4B約60点台前半約30点台前半約70点台前半約55点台
Llama 4 8B約55点台約25点台約65点台約45点台
Qwen 3.5 4B約58点台約28点台約72点台約50点台
Mistral Small 3約57点台約27点台約68点台約48点台
Phi-5 14B約62点台約32点台約74点台約58点台

Dense 30B クラス(業務用ローカル LLM)

モデルMMLU-ProGPQAHumanEvalMATH-500
Gemma 4 31B Dense約78点台約48点台約82点台約75点台
Llama 4 70B約76点台約50点台約80点台約72点台
Qwen 3.5 32B約77点台約47点台約83点台約73点台
Mistral Medium 3約74点台約45点台約79点台約70点台

観察: 30B クラスでは 4社が拮抗 しており、ベンチマーク 1〜3点の差は実用上ほぼ誤差。むしろ後述する 推論速度、メモリ要件、ライセンス、function calling 対応 で選ぶべきです。

重要な注記: 上記スコアは2026年5月時点の各社公開値を整理したもので、ベンチマークごとに測定条件(few-shot 数、量子化レベル、評価ハーネス)が異なる場合があります。最新の確定値は Open LLM LeaderboardChatbot Arena で必ず確認してください。

推論速度比較(tok/s)— ハードウェア別

ベンチマーク精度が拮抗する場合、次に効くのが 推論速度(tok/s)。同じ VRAM・同じ量子化レベルで比較した代表値です。

RTX 4090(VRAM 24GB) / Q4 量子化

モデルtok/s体感
Gemma 4 E4B約 100〜140即応
Qwen 3.5 4B約 110〜150即応
Mistral Small 3約 130〜170最速
Llama 4 8B約 80〜110やや遅
Gemma 4 26B MoE約 50〜75実用速度
Gemma 4 31B Dense約 25〜40業務OK
Qwen 3.5 32B約 30〜45業務OK
Llama 4 70B (Q4)約 18〜28やや遅

Apple Silicon M3 Max 64GB / MLX / Q4

モデルtok/s
Gemma 4 E4B約 35〜50
Gemma 4 26B MoE約 18〜28
Gemma 4 31B Dense約 8〜14
Qwen 3.5 32B約 9〜15
Llama 4 70B約 4〜7(M4 Max 推奨)

観察: 4B クラスは Mistral Small 3 が一歩抜きん出て速い。一方 Gemma 4 26B MoE は 31B より小さい計算量(4B 相当)で 26B 規模の知識を引き出せる ため、メモリと速度のバランスが非常に良いことが分かります。

メモリ効率(精度/GB VRAM)

「同じ VRAM 予算で最も賢いモデル」を選ぶ観点です。MMLU-Pro スコア ÷ VRAM 要件(Q4)で正規化します。

モデルMMLU-ProVRAM (Q4)精度/GB
Gemma 4 E4B~62~3GB約 20.7
Gemma 4 26B MoE~73~10GB約 7.3
Gemma 4 31B Dense~78~24GB約 3.3
Qwen 3.5 4B~58~3GB約 19.3
Llama 4 8B~55~6GB約 9.2
Llama 4 70B~76~40GB約 1.9
Mistral Small 3~57~3GB約 19.0

観察: Gemma 4 E4B は VRAM 3GB という極小フットプリントで MMLU-Pro 60点台前半。1GB あたりの賢さで オープンウェイト LLM 全体でトップ。エッジ・モバイル・低スペック PC で AI を回したいなら、現時点での合理的な第一候補です。

コスト効率(自社運用での 1M トークン換算)

クラウド API ではなく 自社運用 した場合の1M トークンあたりのコスト感(GPU 償却 + 電気代)です。RTX 4090 を月額 5,000円相当(クラウドレンタル想定)と仮定。

モデルtok/s1M トークンの所要時間推定コスト(電気代+償却)
Gemma 4 E4B120約 2.3 時間約 5〜15円
Gemma 4 26B MoE60約 4.6 時間約 15〜30円
Gemma 4 31B Dense32約 8.7 時間約 30〜60円
Llama 4 70B (Q4)22約 12.6 時間約 50〜90円

比較参考: OpenAI GPT-4o の API 価格 は約 $2.50/1M(入力)〜 $10.00/1M(出力)= 約 375円〜1,500円/1M。Gemma 4 E4B を自社運用すれば API の 1/100 以下 のランニングコストが実現可能です(精度差は別途検討要)。

日本語性能

日本語性能は JGLUE / JCommonsenseQA / 公開日本語ベンチマーク で評価します。

モデルJCommonsenseQAJGLUE 平均コメント
Qwen 3.5 32B約 88点約 80点日本語特化チューニングあり
Gemma 4 31B Dense約 86点約 78点多言語バランス型
Llama 4 70B約 82点約 74点英語優先設計
Mistral Medium 3約 78点約 70点欧州言語優先
Gemma 4 E4B約 75点約 65点軽量モデルとしては優秀

観察: 日本語業務で使うなら Qwen 3.5 / Gemma 4 が2強。Mistral は欧州寄り、Llama 4 は英語優先で日本語タスクではやや落ちます。日本語 + ライセンスの自由度 + マルチモーダル対応を全部取りたいなら Gemma 4 が現状の最適解です。

function calling とエージェント適性

AI エージェント用途で必須となるのが function calling(ネイティブツール呼出)マルチステップ推論 の対応状況です。

モデルfunction callingマルチステップマルチモーダル
Gemma 4ネイティブ対応テキスト + 画像 + 音声
Llama 4プロンプトテンプレ経由テキスト + 画像
Qwen 3.5ネイティブ対応テキスト + 画像
Mistralネイティブ対応テキストのみ(一部画像)
DeepSeek V3.5ネイティブ対応◎(推論強化)テキスト
Phi-5プロンプトテンプレテキスト + 画像

Gemma 4 / Qwen 3.5 / Mistral / DeepSeek が ネイティブ function calling 対応 で、エージェント実装の摩擦が少ない4強。Llama 4 はプロンプトテンプレ経由のため、Claude Code Agent ViewCursor Automations のような MCP ベースのエージェントには直接組み込みづらい構造です。

ライセンス比較 — 商用利用での実務的な差

オープンウェイトでもライセンスの実務的な意味は大きく違います。

モデルライセンス商用利用制限
Gemma 4Apache 2.0完全自由なし
Mistral Small/MediumApache 2.0完全自由なし
Mistral Large 3Mistral Research License限定商用は別途契約
Phi-5MIT完全自由なし
Qwen 3.5(一部)Apache 2.0完全自由なし
Qwen 3.5(72B 等)Qwen License制限あり月間 1億 MAU 超で要追加合意
Llama 4Llama 4 Community License条件付き可月間 7億 MAU 超で別契約必須、Meta との競合製品開発に制約
DeepSeek V3.5DeepSeek License条件付き可商用利用条項要確認

Apache 2.0 / MIT は商用・改変・再配布が完全に自由で、社内 LLM・SaaS プロダクトに組み込む際の法務リスクが最も低いライセンスです。Gemma 4 / Mistral Small・Medium / Phi-5 がこの安全圏。Llama 4 は MAU 制限と Meta 競合条項 があるため、グローバル SaaS や金融プロダクトでは要注意です。

用途別 選定マトリクス

実務でよくある6つの用途別に、2026年5月時点での推奨を整理します。

用途第一推奨第二推奨理由
エッジ・モバイル AIGemma 4 E4BQwen 3.5 4BVRAM 3GB で MMLU-Pro 60点台、Apache 2.0
社内 LLM(汎用業務)Gemma 4 31B DenseQwen 3.5 32B日本語 + 多モーダル + ライセンス
コーディングアシスタントQwen 3.5 32B(Coder 派生)Gemma 4 31B DenseHumanEval スコア
RAG / 知識検索Gemma 4 26B MoEMistral Medium 3メモリ効率 × 推論速度
大量バッチ処理Mistral Small 3Gemma 4 E4Btok/s が最速
数学・科学推論DeepSeek V3.5Gemma 4 31B DenseGPQA・MATH-500 で優位

Gemma 4 の弱点と注意点

Gemma 4 が万能ではない点も率直に押さえます。

- 推論速度はやや控えめ — 同サイズ帯の Mistral / Qwen より tok/s で 10〜20% 遅い場面あり。バッチ処理重視なら Mistral Small 3 が優位 - コーディング特化ベンチで Qwen Coder にやや劣る — HumanEval / MBPP の最上位は Qwen Coder 系 - 長文コンテキスト(128K 以上)の精度低下 — 32K あたりまでは安定、それ以上は他社モデル比で性能劣化が報告されている(第三者観測) - ベンチマーク値は2026年5月時点 — 月単位で各社がアップデートしているため、本コラムの数値は 2〜3か月ごとに再確認が必要

オブライトの推奨スタック(2026年5月時点)

弊社の AI コンサルティング で日本企業の社内 LLM・エッジ AI 案件を支援する際の デフォルトスタック は以下です。

1. PoC・開発フェーズ: Gemma 4 E4B + Ollama(ローカル動作確認)→ Gemma 4 31B Dense + vLLM(本番想定の性能評価) 2. 本番 / 社内 LLM: Gemma 4 31B Dense(日本語業務) or Qwen 3.5 32B(日本語特化が必須なら) 3. エッジ / モバイル: Gemma 4 E4B(Argent × Gemma 4 のような iOS シミュレータ自律操作シナリオを含む) 4. エージェント基盤: Gemma 4 + MCP(Claude Code Agent View / Cursor Automations と互換) 5. コスト圧縮重視: 自社運用で API の 1/100 以下を実現する設計(GPU 自社償却モデル)

FAQ

Q1. Gemma 4 と Llama 4、どちらを選ぶべき? A. ライセンスの自由度・日本語性能・マルチモーダル対応で Gemma 4 が現状優位。Llama 4 は MAU 制限と Meta 競合条項があり、グローバル SaaS では法務リスクが上がります。英語特化の研究用途なら Llama 4。 Q2. 日本語業務で Qwen 3.5 と Gemma 4 はどっちが強い? A. JCommonsenseQA / JGLUE では Qwen 3.5 がわずかに優位、ただし Gemma 4 のマルチモーダル対応・Apache 2.0 ライセンス・エコシステム(Vertex AI / AI Studio)を考慮すると 総合では Gemma 4 をおすすめQ3. RTX 3060 (12GB) で何が動く? A. Gemma 4 E4B Q4(3GB)、Qwen 3.5 4B、Phi-5 14B Q4、Mistral Small 3 Q4 が快適。26B MoE Q4(10GB)もギリギリ動作。31B Dense は不可。詳細は Gemma 4 必要スペック早見表Q4. ベンチマークスコアと実業務性能の乖離は? A. MMLU-Pro / HumanEval は 一般知識・コード生成の標準テストで、実業務(社内文書 Q&A、メール返信、データ要約)では 追加チューニング・RAG・プロンプト設計 の質のほうが効きます。ベンチマークは「足切り」の参考で、最終判定は社内データでの A/B テスト推奨。 Q5. 2026年後半に向けて何が変わる? A. Google は Gemini 3.5 Pro を2026年6月リリース予定、Meta は Llama 4 派生の推論強化版、Alibaba は Qwen 4 系の準備を示唆。現時点での選定は半年で見直す前提 で運用ルール(モデル差し替え可能なアーキテクチャ)を組むのが安全です。 Q6. Gemma 4 の商用利用で気をつけることは? A. Apache 2.0 のため利用条件は非常に緩いですが、[Gemma Prohibited Use Policy](https://ai.google.dev/gemma/prohibited_use_policy) に明記された禁止用途(武器開発、児童搾取等)には適用不可。一般的な業務利用では制約はありません。

まとめ

2026年5月時点で 「同じ VRAM で最大の総合性能 × Apache 2.0 × ネイティブ function calling × マルチモーダル × 強い日本語性能」 の5条件を揃えるオープンウェイト LLM は、Gemma 4 ファミリーが現状の最適解 です。

ただし用途によっては Mistral(速度)、Qwen(日本語純粋性能)、DeepSeek(数学・推論)、Llama 4(英語研究)の方が優位な場面があるため、「Gemma 4 をデフォルトに置きつつ、用途に応じて補完モデルを併用する」 ハイブリッド構成が現実的な答えです。

オブライトでは社内 LLM 導入支援の中で、お客様のデータでベンチマークを取り直し、用途別に最適なモデルを選定するコンサルティングを提供しています。詳しくは AI コンサルティング をご覧ください。

References

公式・一次ソース: - Gemma 4 モデルカード(Hugging Face) - Android Developers Blog — Gemma 4 announcement - Google Developers Blog — Gemma 4 agentic skills - Meta — Llama 4 - Qwen 公式ドキュメント - Mistral 公式 - DeepSeek 公式 - Gemma Prohibited Use Policy ベンチマーク参照: - Open LLM Leaderboard (Hugging Face) - Chatbot Arena (lmarena.ai) - JGLUE / JCommonsenseQA 関連コラム: - Gemma 4 必要スペック早見表 - Gemma 4 + Google AI Studio 大型更新 - Gemini 3.5 Flash と Gemini Omni 解説 - Argent × Gemma 4 — オンデバイス AI エージェント - Qwen3.5-9B 完全ガイド(既存) 注記: 本コラムのベンチマークスコアは2026年5月時点の各社公開値・第三者リーダーボードを整理した目安です。測定条件(few-shot 数、量子化レベル、評価ハーネス)の違いがあるため、最終判定は社内データでの A/B テストを推奨します。3か月ごとに各社が新バージョンを出しているため、本記事の数値は 継続的にアップデート する前提でご利用ください。

お気軽にご相談ください

お問い合わせ