「Google DeepMind」のコラム

5件の記事

AI2026-07-14

[Cerebras Inference 上のマルチモーダル Gemma 4 31B](https://www.cerebras.ai/blog/gemma-4-on-cerebras-the-fastest-inference-is-now-multimodal) 徹底解説（2026-06-29 発表）— GPU エンドポイントの 35 倍・1,851 tok/s、Cerebras 初のマルチモーダル対応で画像 / スクリーンショット / チャート / UI 状態を投入可能、Google DeepMind 初モデル + Apache 2.0 オープンウェイト、Claude Haiku 4.5 の 18 倍速で Intelligence Index 29 の同等品質『computer use / 画像駆動エージェント / UI デバッグ / ダッシュボード分析』の実用領域を wafer-scale で解禁

**Cerebras が 2026-06-29 に [Gemma 4 31B を Cerebras Inference で公開](https://www.cerebras.ai/blog/gemma-4-on-cerebras-the-fastest-inference-is-now-multimodal)**、同社プラットフォームで **初のマルチモーダル対応**、Google DeepMind の **初モデル** となる公開プレビュー。**パフォーマンス**: **1,851 output tokens/秒**（一般的な GPU エンドポイントの **35 倍**）、**first token 1.5 秒以下**（推論込み）、[Artificial Analysis Intelligence Index で 29](https://artificialanalysis.ai/) を記録（Claude Haiku 4.5 の 30 と同等）、**Cerebras 上で Haiku の 18 倍速**。**モデル仕様**: **[Gemma 4 31B](../columns/gemma-4-technical-report-2026-07) dense アーキテクチャ**（MoE ではない）、**Apache 2.0 オープンウェイト**、long-context 対応、画像理解（スクリーンショット・チャート・ドキュメント・UI 状態・図面・スキャンページ・フォーム）。**独自価値**: これまで GPU 上では実用不可能だったマルチモーダルワークロード（**computer use / 画像駆動エージェント / UI デバッグ + コードパッチ生成 / ダッシュボードのリアルタイム分析 / 長文ドキュメント要約**）を wafer-scale 速度で解禁。**位置付け**: [Gemma 4 Technical Report](../columns/gemma-4-technical-report-2026-07) で解説した Google DeepMind の open-weights 戦略が、**Cerebras の wafer-scale ハードウェアと組み合わさって『マルチモーダル × 高速推論 × オープンウェイト』の新たなインフラスタック** に到達した事例、[OpenAI GPT-5.6 + ChatGPT Work](../columns/openai-chatgpt-work-launch-2026-07)・[Claude Cowork](../columns/claude-cowork-web-mobile-launch-2026-07) が下地とする **クローズドモデル陣営に対する open-weights + 高速推論陣営の反攻**。[Nous Portal 経由の 300+ モデル中立](../columns/nous-portal-cloud-hermes-agent-2026-07) や [ローカル LLM 展開](../columns/local-llm-landscape-2026-june-update) と組み合わせて **オープンウェイト実用時代の 2026 年後半 AI インフラスタック** を構成。**Cerebras Inference Cloud の公開プレビュー**（期間限定）で提供、[API ドキュメント](https://inference-docs.cerebras.ai/models/gemma-4-31b) 参照。

CerebrasGemma 4Wafer-Scale

AI2026-07-08

Gemma 4 Technical Report 徹底解説 — Google DeepMind の 2.3B〜31B オープンウェイト・マルチモーダル LLM、12B は encoder-free 統一設計、reasoning mode 標準搭載 [arXiv:2607.02770](https://arxiv.org/abs/2607.02770) 2026-07-02 公開、300+ 著者、Dense + MoE 両バリアント

**Google DeepMind の Gemma Team が [arXiv:2607.02770](https://arxiv.org/abs/2607.02770) として 2026-07-02 に Gemma 4 Technical Report を公開**。**2.3B / 12B / 31B のパラメータ範囲**、**Dense と MoE の両バリアント**、**text / image / audio ネイティブマルチモーダル**、**12B は encoder-free 統一設計**（raw audio と image patches を追加エンコーダなしで直接処理）、**reasoning mode（thinking mode）標準搭載**、**改良された vision / audio エンコーダ**、**推論速度・メモリ効率・long context の architectural refinement**、**STEM / multimodal / long-context ベンチで上位オープンモデルと競合**。300 名以上の著者による大規模プロジェクト。オープンウェイトのため商用利用可、Hugging Face・Ollama で配布。位置付けは [Qwen 3.6-35B-A3B](../columns/qwen36-35b-a3b-uncensored-abliterated-2026-07)・[ローカル LLM 2026 年 6 月版](../columns/local-llm-landscape-2026-june-update) と並ぶオープンウェイト最前線の新章。**Google の open-weights 戦略の到達点**、encoder-free unified 設計は Qwen / Llama / DeepSeek のマルチモーダル手法（別途 vision encoder + projection）と一線を画す。**reasoning mode** は Anthropic / OpenAI クローズドモデルの extended thinking との対称、オープン側の追随。留保: 商用ライセンスの詳細条件、systemic-risk（EU AI Act 10^25 FLOPs 閾値）該当可能性、Google Cloud Vertex AI との統合エコシステム偏重。

Gemma 4Google DeepMindOpen Weight

AI2026-06-11

DiffusionGemma 徹底解説 — Google DeepMind が2026年6月10日に公開した『業界初のオープン重み大規模テキスト拡散 LLM』、Gemma 4 26B (A4B MoE) と同バックボーンで AR 版比最大4倍速、Apache 2.0、品質は AR に劣るという公式明言まで

Google DeepMind が2026年6月10日に NVIDIA との同時アナウンスで公開した **DiffusionGemma**（`google/diffusiongemma-26B-A4B-it`、25.2B 総 / 3.8B アクティブ MoE）を、[Google 公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/)・[ai.google.dev モデルカード](https://ai.google.dev/gemma/docs/diffusiongemma/model_card)・[Hugging Face](https://huggingface.co/google/diffusiongemma-26B-A4B-it)・[NVIDIA 公式](https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion/) を一次ソースに整理。**自己回帰（AR）モデルが左から右へ1トークンずつ生成するのに対し、Diffusion 言語モデル（DLM）はマスク／ノイズに満たされた256トークンキャンバスを並列に脱ノイズして文章へ変換する**。1 forward あたり15-20トークン確定、最大48 denoising steps、H100 で 1,000+ tok/sec、RTX 5090 で 700+ tok/sec、AR 版 Gemma 4 比約 3.5-4 倍。一方で **MMLU Pro 77.6 vs 82.6、GPQA 73.2 vs 82.3、MMMU Pro 54.3 vs 73.8** と公式は AR 版に対する **品質劣後を率直に明言**。Apache 2.0、Hugging Face / Vertex AI / NVIDIA NIM 提供、業界初のオープン重み大規模拡散 LLM。日本企業のオンプレ社内エージェント・コード補完・低レイテンシ業務での意義と、Mercury（Inception Labs）/ LLaDA / Gemini Diffusion との位置づけまで整理しています。

Google DeepMindGemma 4DiffusionGemma

AI2026-06-04

Gemma 4 12B 徹底解説 — Vision Encoder と Audio Encoder を捨てた『encoder-free マルチモーダル』、16GBノートPCで動く Apache 2.0 ローカル LLM の正体【2026年6月3日発表】

Google DeepMind が2026年6月3日に公開した Gemma 4 12B を、[公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) と [Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) をベースに徹底解説。本モデル最大の特徴は **encoder-free multimodal アーキテクチャ** — Vision Encoder（旧モデルで約5.5億パラメータ）を **35M パラメータの軽量 embedder + 行列乗算1回** に置換し、Audio Encoder（12層 Conformer）は完全削除して raw 音声を直接 LLM の埋め込み空間に投影する設計。16GB VRAM のノート PC（Copilot+ PC / Apple Silicon Mac）で動作、Apache 2.0 ライセンス、Hugging Face / Ollama / LM Studio / MLX / Vertex AI で即利用可能。本コラムは技術的背景、26B MoE に迫るベンチマーク主張、Gemma 4 ファミリー（E2B/E4B/26B/31B）の中での位置づけ、Llama 4 / Qwen 3.5 / Phi-5 との競合関係、日本企業のオンプレ AI / 音声業務 / データ主権要件への適合性までを公式情報ベースで整理しました。

Gemma 4Gemma 4 12BGoogle DeepMind

AI2026-04-24

Gemini 3.1 Pro × Deep Research / Deep Research Max 解説 — Google が公開した自律リサーチエージェント【2026年4月版】

Google が 2026年4月21日に発表した Deep Research / Deep Research Max（Gemini 3.1 Pro 搭載）の概要。MCPサポート、ネイティブビジュアライゼーション、長時間リサーチワークフロー、DeepSearchQA 93.3% / Humanity's Last Exam 54.6% のベンチマーク、Gemini API 経由の有料プレビュー提供などを公式情報ベースで整理します。

Gemini 3.1 ProDeep ResearchDeep Research Max