株式会社オブライト
AI2026-06-11

DiffusionGemma 徹底解説 — Google DeepMind が2026年6月10日に公開した『業界初のオープン重み大規模テキスト拡散 LLM』、Gemma 4 26B (A4B MoE) と同バックボーンで AR 版比 最大4倍速、Apache 2.0、品質は AR に劣るという公式明言まで

Google DeepMind が2026年6月10日に NVIDIA との同時アナウンスで公開した DiffusionGemma(`google/diffusiongemma-26B-A4B-it`、25.2B 総 / 3.8B アクティブ MoE)を、Google 公式ブログai.google.dev モデルカードHugging FaceNVIDIA 公式 を一次ソースに整理。自己回帰(AR)モデルが左から右へ1トークンずつ生成するのに対し、Diffusion 言語モデル(DLM)はマスク/ノイズに満たされた256トークンキャンバスを並列に脱ノイズして文章へ変換する。1 forward あたり15-20トークン確定、最大48 denoising steps、H100 で 1,000+ tok/sec、RTX 5090 で 700+ tok/sec、AR 版 Gemma 4 比 約 3.5-4 倍。一方で MMLU Pro 77.6 vs 82.6、GPQA 73.2 vs 82.3、MMMU Pro 54.3 vs 73.8 と公式は AR 版に対する 品質劣後を率直に明言。Apache 2.0、Hugging Face / Vertex AI / NVIDIA NIM 提供、業界初のオープン重み大規模拡散 LLM。日本企業のオンプレ社内エージェント・コード補完・低レイテンシ業務での意義と、Mercury(Inception Labs)/ LLaDA / Gemini Diffusion との位置づけまで整理しています。


TL;DR — 何が起きたか

Google DeepMind は 2026年6月10日、NVIDIA との同時アナウンスで DiffusionGemma(`google/diffusiongemma-26B-A4B-it`)を公開しました。これは 業界初のオープン重み・大規模・テキスト拡散 LLM であり、Gemma 4 ファミリーの26B (A4B MoE) と同じバックボーンに『拡散ヘッド』を載せ替えた派生モデルです。

ポイントを4点で:

1. アーキテクチャ: 自己回帰(AR)ではなく 離散拡散(Discrete Diffusion)。256トークンのキャンバスを並列に脱ノイズして生成 2. 速度: H100 で 1,000+ tok/sec、RTX 5090 で 700+ tok/sec、AR 版 Gemma 4 比 約3.5-4倍 3. 品質: MMLU Pro / GPQA / MMMU Pro いずれも AR 版に劣後(公式明言)。速度特化 の位置づけ 4. ライセンス: Apache 2.0(Gemma License ではなくより緩い)。Hugging Face / Vertex AI / NVIDIA NIM / vLLM / Unsloth / MLX が day-zero 対応

本コラムは Gemma 4 12B encoder-free 解説Gemma 4 性能徹底比較Gemma 4 必要スペック早見表 の続編として、DiffusionGemma の 技術的革新性と品質トレードオフ を整理します。

Diffusion 言語モデル(DLM)とは何か

従来の 自己回帰(Autoregressive、AR)モデル(GPT / Claude / Llama / 通常の Gemma)は、テキストを 左から右へ1トークンずつ逐次生成 します。次のトークンは前のトークンに依存するため、原理的に並列化できません。

Diffusion 言語モデル(DLM) は、画像生成の Stable Diffusion を文字列に応用したアプローチです。

1. 出力すべき長さ分の 「キャンバス」をマスク/ノイズで満たす 2. 複数の denoising step を経て、キャンバス全体を並列に refinement 3. ステップごとに 確定したトークンをコミット、未確定部分を再度精緻化 4. 全トークンが確定したら完了

DiffusionGemma は Discrete(離散)Diffusion の系譜で、技術的には Block-Autoregressive Multi-Canvas Sampling と呼ばれる方式を採用します。256トークンのキャンバスを並列脱ノイズし、確定した語をコミット → KV キャッシュへ書き出し → 次キャンバスへ、という流れです。

学術的背景は Stanford SEDD(Score Entropy Discrete Diffusion、2024)LLaDA(8B、2025)Mercury(Inception Labs、2025/06)、そして Google Gemini Diffusion(2025、非公開) に連なる系譜です。DiffusionGemma は その中で初めてオープン重み × 大規模 × Apache 2.0 を達成 したモデルです。

Gemma 4 ファミリーにおける位置づけ

2026年の Gemma 4 ラインナップ:

モデル構成公開
Gemma 4 E2B / E4B軽量2026-04-02
Gemma 4 26B (A4B MoE)128 expert / 8 active / 3.8B active2026-04-02
Gemma 4 31B DenseArena 3位2026-04-02
Gemma 4 12B(encoder-free)マルチモーダル、ノートPC向け2026-06-03
DiffusionGemma 26B A4B拡散ヘッド版、Apache 2.02026-06-10

DiffusionGemma は Gemma 4 26B (A4B MoE) と完全に同じバックボーン に拡散ヘッドを載せ替えた派生で、AR 版26Bと直接比較できる設計です。つまり 「同じ品質目標で、AR と DLM を両立する」 ことが可能な、業界初の対象モデルです。

技術仕様(公式モデルカード)

項目
総パラメータ25.2B
アクティブパラメータ3.8B(推論時)
Expert 構成128 中 8 active
レイヤ数30
語彙262K
キャンバス長256 トークン
最大デノイズステップ48(adaptive early stopping あり)
1 forward pass あたり確定15-20 トークン
コンテキスト長最大 256K トークン
Vision encoder約 550M(別途)
マルチモーダルテキスト + 画像 + 動画60秒(音声非対応

重要な注記: Google 公式ブログでは「Text only」と簡略表記されていますが、Hugging Face モデルカードと ai.google.dev のモデルカードには 画像・動画60秒入力が明記 されています。公式間で記述差があるため、最新仕様は ai.google.dev / HF を一次情報とすべきです。

生成速度(公式ベンチ)

Google と NVIDIA の合同発表で公表された速度ベンチマーク:

環境速度
NVIDIA H100 (FP8)1,000+ tokens/sec
GeForce RTX 5090(VRAM 18GB 量子化版)700+ tokens/sec
DGX Spark約 150 tokens/sec
DGX Station最大 2,000 tokens/sec

AR 版 Gemma 4 26B 比で約 3.5-4 倍 の高速化。NVIDIA は NVFP4 量子化版(`nvidia/diffusiongemma-26B-A4B-it-NVFP4`)を同時公開し、ローカル GPU 推論を強く推しています。

ベンチマーク — 公式は『品質劣後』を率直に明言

公式公表のベンチマーク値:

ベンチDiffusionGemmaGemma 4 26B (AR)
MMLU Pro77.6%82.6%
GPQA Diamond73.2%82.3%
MMMU Pro (vision)54.3%73.8%

公式の注釈は明快です: 『全ての公開ベンチで標準 Gemma 4 を下回る』(Google blog)。

つまり DiffusionGemma は 速度特化 であり、品質第一の用途には AR 版が推奨されますGSM8K / HumanEval / Chatbot Arena スコアは公式未公開 のため、第三者検証待ちの状態です。

この『品質劣後を率直に明言する』姿勢 は、研究側の誠実さの表れでもあり、業務適用判断の精度を高める情報として歓迎されるべきです。多くのモデルカードが選別的なベンチを並べる中、Google が 「Diffusion はまだ AR には及ばないが、速度は明確な勝ち筋」 と整理してリリースした意義は大きいと言えます。

ライセンスと提供チャネル

- ライセンス: Apache 2.0(Gemma License ではなく、より緩い) - 配布: - Hugging Face: `google/diffusiongemma-26B-A4B-it` - Gemini Enterprise Agent Platform Model Garden - NVIDIA NIM / NeMo - Day-zero 対応: Hugging Face Transformers、vLLM、Unsloth、MLX - llama.cpp は対応予定 - GGUF 版: `unsloth/diffusiongemma-26B-A4B-it-GGUF` - NVFP4 量子化版: `nvidia/diffusiongemma-26B-A4B-it-NVFP4`

Apache 2.0 は商用利用・改変・再配布が完全に自由で、Gemma License より法務リスクが低いライセンスです。これは Gemma 4 12B と同様の Apache 2.0 路線で、Google の オープン化への明確な意思 が読み取れます。

Diffusion 言語モデル系譜と競合

モデル提供元規模特徴
SEDD (Score Entropy Discrete Diffusion)Stanford (2024)学術離散拡散の基礎理論
LLaDA (Large Language Diffusion with mAsking)20258B8Bスケールで AR と MMLU 5pt 差まで縮める
Mercury / Mercury CoderInception Labs (2025/06)商用H100 で 737-1,109 tok/sec、コード特化
Gemini DiffusionGoogle (2025)非公開DiffusionGemma の前身相当、社内検証で先行
DiffusionGemmaGoogle DeepMind (2026/06)25.2B MoE業界初のオープン重み大規模拡散 LLM

DiffusionGemma は 「オープン重み × 大規模 MoE × Apache 2.0」 という3拍子が初めて揃った点で、業界の節目となるモデルです。Mercury が商用クローズドだったのに対し、DiffusionGemma は 誰でもダウンロード・改変・商用利用可能 という決定的な違いがあります。

想定ユースケースと業務適用

Google と NVIDIA が公式に挙げる用途:

- インタラクティブチャット — 低レイテンシ単一ユーザ - エージェントループ — 多段ツール呼び出しで応答速度が支配的になる場面 - オンデバイスアシスタント — DGX Spark / RTX 5090 で完結 - コードのインライン編集・穴埋め — 双方向文脈が活きる(次行予測ではなく『穴埋め』が得意) - 長文書 OCR・マルチモーダル文書解析 — 256K コンテキスト - 制約付き生成 — 数独タスクで 0% → 80% へ fine-tuning で改善する例も公表

弱点と注意点

- 品質は AR に劣る(公式明言)— ベンチで5〜20pt の差 - GSM8K / HumanEval / Chatbot Arena の公式スコアが未公開 — 第三者検証待ち - 音声入力非対応Gemma 4 12B encoder-free は音声対応) - 学習データカットオフは2025年1月 - 拡散モデル特有の挙動: キャンバス長を超える長文生成は再キャンバスが必要、長文整合性は AR より弱い可能性

日本企業から見た意義

1. オンプレ/ローカル GPU での実用速度

Apache 2.0 かつ RTX 5090 単機で 700 tok/sec を達成できるため、機密データを外部 API に出せない 金融・医療・製造業の社内 RAG / エージェント に好相性です。改正個人情報保護法・経済安保推進法・各業界ガイドラインのデータ越境制約下でも、完全オンデバイス完結が可能。

2. エージェント時代の鍵 — 品質より速度を取る選択肢

「LLM 呼び出し回数の増加 × レイテンシ」が UX を支配する エージェントワークロード では、品質を多少落としても速度をとる選択肢が現実解になります。Claude Code Agent ViewCursor Automations のような多段エージェント実行で、各ステップが Gemma 4 比4倍速で動けば、全体のスループットが大幅改善します。MoE で 3.8B アクティブのため電力コストも抑えやすい点も日本のデータセンター事情に合います。

3. 品質と速度の使い分け設計が可能

AR 版 Gemma 4 26B(高品質)と DiffusionGemma(高速)を 同じバックボーン で揃えられるため、同一プロンプト体系で品質/速度のトレードオフを切替 できます。ハイブリッド構成のコンサル提案がしやすいのも実務メリット。

4. 拡散 LLM が『実プロダクト級』に到達した第一例

2025年は Mercury と Gemini Diffusion(クローズド)が話題だったが、2026年は オープン重み × Apache 2.0 × 大規模 MoE という三拍子が揃いました。日本でも 「拡散 LLM PoC」を本格化させる潮目 です。

オブライトの AI コンサルティング では、こうした 「AR と DLM のハイブリッド設計」Forward Deployed Engineer 型 の現場伴走で支援します。

公式に確認できなかった事項

2026年6月11日時点で公式に明示されていない事項:

- GSM8K / HumanEval / Chatbot Arena 公式スコア - 訓練トークン総数 - Gemini Diffusion との重み継承関係(DiffusionGemma が Gemini Diffusion から派生したか、独立か) - 日本語特化ベンチマーク(JCommonsenseQA / JGLUE 等) - Google 公式ブログと HF/ai.google.dev のモダリティ記述差(前者は Text only、後者は画像・動画60秒入力可と明示)— HF/ai.google.dev のモデルカードを一次とすべき

本格採用前に ai.google.dev モデルカードHF モデルカード で最新情報を再確認してください。

FAQ

Q1. 自己回帰モデル(AR)と Diffusion 言語モデル(DLM)の根本的な違いは? A. AR は 左から右へ1トークンずつ逐次生成(並列化不可、品質高い)。DLM は キャンバス全体を並列に脱ノイズ(並列化可、速度高い、品質はまだ AR に劣る)。画像生成の Stable Diffusion を文字列に応用したアプローチです。

Q2. DiffusionGemma は Gemma 4 26B(AR 版)の置き換えになりますか? A. 置き換えではなく補完 です。Google 自身が「全公開ベンチで AR 版に劣る」と明言。速度が UX を支配する用途(エージェントループ・インタラクティブチャット・コード補完)でのみ AR 版より優位です。

Q3. 商用利用してもいいですか? A. はい。Apache 2.0 で完全自由です。Gemma License よりも法務リスクが低いです。ただし Gemma Prohibited Use Policy の禁止用途(武器開発・児童搾取等)は引き続き適用不可。

Q4. ノート PC で動きますか? A. 3.8B アクティブパラメータで MoE 構成のため、RTX 5090 単機(18GB VRAM 量子化版)で 700 tok/sec、DGX Spark で 150 tok/sec を達成。Apple Silicon MLX 対応 も day-zero でアナウンス済みなので、M3 Max 64GB 等の Mac でも動作見込み。

Q5. なぜ品質が AR に劣るのですか? A. 学術的にも拡散言語モデルはまだ AR に追いついていない 状況です。LLaDA(8B)が AR と MMLU 5pt 差まで縮めましたが、26B クラスでも完全な逆転は未達成。訓練時の損失関数設計の難しさ離散トークン空間での拡散の理論的成熟度 が主要因。今後 1〜2年で差が縮まる可能性は高いです。

Q6. Mercury と何が違いますか? A. Mercury(Inception Labs、2025/06)は 商用クローズド、DiffusionGemma は オープン重み × Apache 2.0。これが最大の違い。Mercury Coder はコード特化、DiffusionGemma は汎用テキスト+画像+動画60秒入力対応のマルチモーダル。

Q7. Apple AFM Core Advanced との比較は? A. Apple AFM Core Advanced20B Sparse MoE(IFP)で AR 系、prefill 時にエキスパートを選択・ロックする独自設計。DiffusionGemma は 拡散方式 で別系統。両者は 「速度を出すための別アプローチ」 であり、Apple は AR の最適化、Google は拡散方式という違いです。

Q8. 日本語性能はどの程度? A. 日本語特化ベンチマークは公式未公開 です。Gemma 4 ファミリーは140言語対応で日本語にも対応していますが、DiffusionGemma の日本語精度は社内 PoC での実測が必要です。AR 版 Gemma 4 26B が JCommonsenseQA で約86点なので、DiffusionGemma は4〜5割の品質劣後で 70点台前半 が予測される(あくまで推測)。

まとめ

DiffusionGemma は、「拡散言語モデルが研究の段階から実プロダクト級に到達した」 ことを示す業界のマイルストーンです。Mercury と Gemini Diffusion(クローズド)が話題になった2025年に対し、2026年は オープン重み・Apache 2.0・大規模 MoE という三拍子 が揃った最初の年として記録されることになります。

ただし Google 自身が 「品質は AR に劣る」 と率直に明言している通り、これは 置き換えではなく補完 のモデルです。日本企業にとっての要点は次の3つに集約されます: (1) エージェントループ・インタラクティブチャット・コード補完で速度を取る、(2) AR 版 Gemma 4 26B との同一バックボーンを活かしてハイブリッド設計、(3) Apache 2.0 + RTX 5090 単機で 700 tok/sec のオンプレ実用速度 で、データ越境制約下の業務に投入可能。

2026年中盤から後半にかけて、「速度の最先端」を語る際の参照点 として DiffusionGemma は外せないモデルになるでしょう。

References

公式(一次ソース): - Google blog — DiffusionGemma: faster text generation - ai.google.dev — DiffusionGemma model card - Hugging Face — google/diffusiongemma-26B-A4B-it - NVIDIA blog — Local Gemma Diffusion on RTX AI Garage - NVIDIA — diffusiongemma-26B-A4B-it-NVFP4 - Unsloth — diffusiongemma-26B-A4B-it-GGUF - Gemma 4 12B encoder-free 公式 - Gemma Prohibited Use Policy 第三者: - MarkTechPost — DiffusionGemma 解説(2026-06-10) - The Decoder — DiffusionGemma 解説 - The New Stack — Google DiffusionGemma - Mercury 論文 (arXiv:2506.17298) - Inception Labs — Introducing Mercury - LLaDA OpenReview - Gemma (language model) — Wikipedia) 関連コラム: - Gemma 4 12B encoder-free multimodal - Gemma 4 性能徹底比較 - Gemma 4 必要スペック早見表 - Argent × Gemma 4 — オンデバイス AI エージェント - Apple AFM Core Advanced - Liquid AI 日本語特化2モデル - Hermes Desktop - Claude Code Agent View - Forward Deployed Engineer (FDE) 注記: GSM8K / HumanEval / Chatbot Arena 公式スコア、訓練トークン総数、Gemini Diffusion との重み継承関係、日本語特化ベンチマーク、Google 公式ブログと HF / ai.google.dev のモダリティ記述差は2026年6月11日時点で公式未確認。本格採用前に最新ドキュメントで再確認してください。

お気軽にご相談ください

お問い合わせ