本文へスキップ

株式会社オブライト

「DiffusionGemma」のコラム

1件の記事

DiffusionGemma 徹底解説 — Google DeepMind が2026年6月10日に公開した『業界初のオープン重み大規模テキスト拡散 LLM』、Gemma 4 26B (A4B MoE) と同バックボーンで AR 版比最大4倍速、Apache 2.0、品質は AR に劣るという公式明言まで

Google DeepMind が2026年6月10日に NVIDIA との同時アナウンスで公開した **DiffusionGemma**（`google/diffusiongemma-26B-A4B-it`、25.2B 総 / 3.8B アクティブ MoE）を、[Google 公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/)・[ai.google.dev モデルカード](https://ai.google.dev/gemma/docs/diffusiongemma/model_card)・[Hugging Face](https://huggingface.co/google/diffusiongemma-26B-A4B-it)・[NVIDIA 公式](https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion/) を一次ソースに整理。**自己回帰（AR）モデルが左から右へ1トークンずつ生成するのに対し、Diffusion 言語モデル（DLM）はマスク／ノイズに満たされた256トークンキャンバスを並列に脱ノイズして文章へ変換する**。1 forward あたり15-20トークン確定、最大48 denoising steps、H100 で 1,000+ tok/sec、RTX 5090 で 700+ tok/sec、AR 版 Gemma 4 比約 3.5-4 倍。一方で **MMLU Pro 77.6 vs 82.6、GPQA 73.2 vs 82.3、MMMU Pro 54.3 vs 73.8** と公式は AR 版に対する **品質劣後を率直に明言**。Apache 2.0、Hugging Face / Vertex AI / NVIDIA NIM 提供、業界初のオープン重み大規模拡散 LLM。日本企業のオンプレ社内エージェント・コード補完・低レイテンシ業務での意義と、Mercury（Inception Labs）/ LLaDA / Gemini Diffusion との位置づけまで整理しています。

Google DeepMindGemma 4DiffusionGemma