Gemma 4 12B 徹底解説 — Vision Encoder と Audio Encoder を捨てた『encoder-free マルチモーダル』、16GBノートPCで動く Apache 2.0 ローカル LLM の正体【2026年6月3日発表】
Google DeepMind が2026年6月3日に公開した Gemma 4 12B を、公式ブログ と Developer Guide をベースに徹底解説。本モデル最大の特徴は encoder-free multimodal アーキテクチャ — Vision Encoder(旧モデルで約5.5億パラメータ)を 35M パラメータの軽量 embedder + 行列乗算1回 に置換し、Audio Encoder(12層 Conformer)は完全削除して raw 音声を直接 LLM の埋め込み空間に投影する設計。16GB VRAM のノート PC(Copilot+ PC / Apple Silicon Mac)で動作、Apache 2.0 ライセンス、Hugging Face / Ollama / LM Studio / MLX / Vertex AI で即利用可能。本コラムは技術的背景、26B MoE に迫るベンチマーク主張、Gemma 4 ファミリー(E2B/E4B/26B/31B)の中での位置づけ、Llama 4 / Qwen 3.5 / Phi-5 との競合関係、日本企業のオンプレ AI / 音声業務 / データ主権要件への適合性までを公式情報ベースで整理しました。
TL;DR — Gemma 4 12B の正体
Google DeepMind が2026年6月3日に公開した Gemma 4 12B は、Gemma 4 ファミリー(E2B / E4B / 26B MoE / 31B Dense)に約2か月遅れで加わった ノート PC 向けミッドサイズモデル です。公式 X 発表の文言は次のとおり:
> Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to your laptop, and released under an Apache 2.0 license. Bridging the gap between edge efficiency and advanced reasoning.
ポイントを4点にまとめると:
1. encoder-free multimodal — Vision Encoder と Audio Encoder を捨てた新アーキテクチャ。LLM 本体が画像も音声も「同じ埋め込み空間」で直接処理する 2. 16GB VRAM のノート PC で動く — Copilot+ PC や Apple Silicon Mac の統合メモリで完結 3. Apache 2.0 — Gemma 3 までの『Gemma License』から大幅に緩和、商用利用・再配布・派生作成が完全自由 4. 26B MoE に迫る性能を半分以下のメモリで — 公式が主張する相対ベンチ(具体的な数値表は12B単体では非公開)
本コラムは Gemma 4 必要スペック早見表、Gemma 4 + AI Studio 大型更新、Gemma 4 性能徹底比較 の続編として、12B の アーキテクチャ的な特異性 と 業務適用の現実度 を整理します。
Gemma 4 ファミリーにおける位置づけ
| サイズ | リリース | 想定環境 |
|---|---|---|
| E2B | 2026年4月 | エッジ・モバイル(VRAM 2-3GB) |
| E4B | 2026年4月 | 軽量ノート PC(VRAM 3-5GB) |
| 12B | 2026年6月3日(新規) | ノート PC(VRAM 16GB) |
| 26B MoE | 2026年4月 | ワークステーション(VRAM 16GB、推論時4B相当) |
| 31B Dense | 2026年4月 | ワークステーション・サーバ(VRAM 24-62GB) |
12B は「E4B では性能が物足りない、しかし 26B MoE / 31B Dense は重すぎる」というユーザー層に向けた ミッドサイズの埋め合わせ です。
今回の最大の特徴 — Encoder-Free Multimodal とは何か
Gemma 4 12B 最大のアーキテクチャ的革新が encoder-free multimodal 設計です。これを理解するには、まず従来のマルチモーダル LLM の構造を知る必要があります。
従来のマルチモーダル LLM(2024〜2025の主流):
- 画像処理: ViT / SigLIP / CLIP などの Vision Encoder(数百M〜数Bパラメータ)で画像を特徴ベクトルに変換 → LLM 本体に投影 - 音声処理: Conformer / Whisper Encoder などの Audio Encoder で音声を特徴ベクトルに変換 → LLM に投影 - → 結果として、LLM 本体に 「画像専用前処理器」と「音声専用前処理器」 が外付けされた構造になる
Gemma 4 12B の encoder-free 設計(公式記載):
- 画像: 旧 Gemma で使われていた 約 5.5億パラメータの Vision Encoder を、35M パラメータの軽量 embedder(行列乗算1回 + 位置埋め込み + 正規化のみ)に置換。画像は 48×48 パッチに分割し、行列乗算1回で LLM の埋め込み空間へ直接投影。位置情報は学習済み X 行列・Y 行列による因数分解座標ルックアップ - 音声: 旧 Gemma の 12層 Conformer ベース Audio Encoder を完全に削除。16 kHz の raw 音声を 40ms フレーム(640値)に切り、線形投影でテキストトークンと同じ次元に射影。時系列は既存の RoPE(Rotary Position Embedding)で扱う
公式(blog.google)の原文:
> We replaced Gemma 4's vision encoder with a lightweight embedding module consisting of a single matrix multiplication, positional embedding and normalizations. > We removed the audio encoder entirely and projected the raw audio signal into the same dimensional space as text tokens.
実装上の利点:
- レイテンシ削減 — 別エンコーダの推論を経由しないため、トークン1個生成までの時間が短縮 - メモリ使用量削減 — Vision/Audio Encoder ぶんのパラメータが不要 - アーキテクチャの単純化 — 「統一デコーダのみ」構造になり、量子化・蒸留・ファインチューニングの設計が簡素化 - 学習効率 — テキスト/画像/音声を同じ損失関数で同時に学ぶ end-to-end 学習が可能
学術的には Fuyu-8B、EVE、Chameleon 等の「encoder-free / native multimodal」系譜に連なる設計です(BREEN: arxiv.org/pdf/2503.12446 など)。Google が 主要プロダクションモデルでこの方向に踏み込んだことは業界的に大きなシグナル で、2026年後半には他社(Meta / Alibaba / Mistral)も追随する可能性が高いと推測されます。
動作環境とインストール
公式が明示する VRAM / 統合メモリ要件は 16GB。これは:
- Apple Silicon Mac: M1/M2/M3/M4 の 16GB 統合メモリモデル以上 で動作 - Windows / Linux + NVIDIA GPU: RTX 4070 Ti(16GB)/ RTX 4080 / RTX 4090 など - Copilot+ PC: Snapdragon X / AMD Strix Halo / Intel Lunar Lake の NPU 統合メモリ16GB+ 機種
量子化対応(第三者観測):
| 量子化 | VRAM | 用途 |
|---|---|---|
| Q4_K_M | 約 8GB | 汎用、品質劣化少(推奨) |
| Q5_K_M | 約 10GB | 品質重視 |
| Q8_0 | 約 14GB | 高品質 |
| BF16(無量子化) | 約 24GB | 研究・ベンチマーク |
提供方法(公式列挙):
- Hugging Face: `google/gemma-4-12B-it` - Kaggle - Ollama: `ollama pull gemma-4:12b` - LM Studio(GGUF GUI) - MLX(Apple Silicon ネイティブ最適化) - llama.cpp - vLLM / SGLang(サーバ推論) - Google Cloud: Vertex AI、Cloud Run、GKE - LiteRT-LM(ローカル OpenAI 互換サーバ) - NVIDIA NVFP4 版(huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4 — 31B 版が先行、12B 版も近日公開予定)
Multi-Token Prediction(MTP)drafter モデルも同時公開 — 推論高速化用の補助モデルが付属します。
ベンチマーク — 公式は12B単体の完全表を出していない
公式ブログには 12B 単体の完全なベンチマーク表は掲載されていません。確実に主張されているのは次の2点のみ:
1. 「12B は 26B MoE に迫る性能 を 半分以下のメモリ で実現」 2. 「旧 Gemma 3 27B を MMLU-Pro / GPQA Diamond / DocVQA 等で上回る」
第三者観測値(再確認推奨):
| ベンチマーク | 12B(第三者観測) | 31B Dense(公式) | 26B MoE |
|---|---|---|---|
| MMLU-Pro | 約 77.2% | 85.2% | ~73% |
| GPQA Diamond | 非公開 | 84.3% | 非公開 |
| AIME 2026 | 非公開 | 89.2% | 非公開 |
| τ2-bench(agentic) | 非公開 | 86.4% | 非公開 |
対応モダリティ
- テキスト: 対応 - 画像: 対応(48×48パッチ) - 音声: 対応(Gemma 系ミッドサイズで初の native audio input、公式明示) - 動画: developer guide 系記事では「313 フレーム、1 FPS、1 フレーム 70 トークン」の例が示されているが公式ブログ本体には動画の明示記載なし(MarkTechPost) - 多言語: ファミリーレベルで 140言語サポート
音声ネイティブ対応の意義は大きい: 従来は Whisper 等で STT(音声→テキスト)してから LLM に渡す必要があったため、レイテンシと精度の両面で劣化していました。12B では raw 音声をそのまま投入できるため、コールセンター、議事録、対面接客などの音声業務で ローカル完結のオンデバイス AI が現実的になります。
ライセンス — Apache 2.0 への移行
Gemma 3 までの 『Gemma License』から、Gemma 4 ファミリー全体で Apache 2.0 へ移行。これは商用利用・改変・再配布・派生モデル作成の制約が大きく緩和されたことを意味します。
実務的なインパクト:
- SaaS 組込み — 自社サービスに gemma-4-12B-it を含めて商用配布可 - ファインチューニング派生モデルの再配布 — 自由(OSS の標準) - 企業内 LLM のオンプレ展開 — 法務リスクが Llama 4(Community License)より低い - 政府・自治体・金融 — ライセンスの明確性が調達要件を満たしやすい
ただし Gemma Prohibited Use Policy に明記された禁止用途(武器開発、児童搾取等)には引き続き適用不可。
Function Calling とエージェント適性
ファミリーレベルで native function calling を公式サポート。31B Dense では τ2-bench で 86.4% を達成しています。12B も同系統の学習レシピを継承していると公式は述べていますが、具体スコアは未公開。
これは Claude Code Agent View、Cursor Automations、Hermes Desktop のような MCP ベースのエージェントハーネスから ローカル実行モデルとして直接接続可能 であることを意味します。クラウド API を経由せずに「自分のノート PC 内でエージェントが完結する」構成が現実的になります。
競合との比較
ローカル実行可能なミッドサイズ帯(7B〜14B)での競合関係(2026年6月時点):
| モデル | サイズ | マルチモーダル | エンコーダ設計 | ライセンス | VRAM (Q4) |
|---|---|---|---|---|---|
| Gemma 4 12B | 12B | テキスト + 画像 + 音声 | Encoder-free | Apache 2.0 | 約 8GB |
| Llama 4 8B | 8B | テキスト + 画像 | Vision Encoder 内蔵 | Llama Community | 約 5GB |
| Qwen 3.5 7B | 7B | テキスト + 画像 | Vision Encoder 内蔵 | Apache 2.0 + Qwen | 約 5GB |
| Mistral Small 3 | 7B | テキスト + 画像 | Vision Encoder 内蔵 | Apache 2.0 | 約 4GB |
| Phi-5 14B | 14B | テキスト + 画像 | Vision Encoder 内蔵 | MIT | 約 8GB |
Gemma 4 12B の差別化点は 「encoder-free 設計」と「native 音声入力」の2点。マルチモーダルを 16GB ノート PC で扱える点で他にない位置取りです。詳細な性能比較は Gemma 4 性能徹底比較コラム もご参照ください。
日本企業から見た意義
1. 業務用ローカル LLM — 16GB ノート PC(Copilot+ PC、Apple Silicon Mac)で動作するため、AI PC 配備でオンプレ AI が現実的に。機密情報・個人情報をクラウドに出さない運用が容易 2. Apache 2.0 — 社内派生モデル作成・商用組み込みの法務ハードルが Gemma 3 比で大幅低下。SIer・受託開発における再配布制約が緩和 3. データ主権 — 改正個人情報保護法・経済安保推進法・各業界ガイドライン下で「日本国内・端末内完結」の要件を満たしやすい 4. 音声ネイティブ対応 — コールセンター・議事録・対面接客等の音声業務に、別 STT を経ずに直接活用可能。Whisper + LLM の2段構成と比べて低レイテンシ 5. コスト — API 課金不要、エンコーダ削減で推論コストもさらに低い 6. エージェント基盤 — ネイティブ function calling 対応で、MCP ベースのオンデバイスエージェントが組みやすい
オブライトの AI コンサルティング では、こうした クラウド to オンデバイスの移行戦略 を Forward Deployed Engineer 型の現場伴走で支援しています。
想定ユースケース
- コールセンター業務 — 音声リアルタイム解析 + 応答補助(オンプレ完結) - 議事録・会議メモ — 録音 → 要約・タスク抽出を端末内で完結 - 対面接客 — 接客中の会話をリアルタイムで CRM に転記、商品提案を生成 - 医療カルテ — 診察中の音声を端末内で構造化(PII 外部送信ゼロ) - 製造現場 — 作業日報の音声入力 → 構造化、写真添付の不備検出 - AI エージェント基盤 — Hermes Desktop / Claude Code 等のフロントエンドを Gemma 4 12B でローカル駆動
公式に確認できなかった事項
2026年6月4日時点で公式に明示されていない事項:
- 12B 単体の完全ベンチマーク表(MMLU-Pro / GPQA / HumanEval / MATH / MMMU の確定値) - コンテキスト長の 12B 個別値(ファミリー上位は256Kと第三者報道、12B での確定値は公式未確認) - Llama 4 / Qwen 3.5 / Mistral / Phi-5 との直接比較表 - 動画入力の正式サポート範囲(developer guide 系記事には例があるが公式ブログ本体には明示記載なし) - NVIDIA NVFP4 版の12B 提供時期
本格採用前に Gemma 4 公式モデルページ と Hugging Face モデルカード で最新値を再確認してください。
FAQ
Q1. Encoder-free とは具体的に何が違いますか? A. 従来のマルチモーダル LLM は ViT / SigLIP(画像)や Conformer(音声)などの 専用前処理器を外付け していました。Gemma 4 12B は画像 Encoder を 35Mパラメータの軽量 embedder に置換、音声 Encoder は 完全削除 して raw 音声を直接 LLM の埋め込み空間に投影します。これによりレイテンシ・メモリ・学習効率が改善されます。
Q2. 16GB のノート PC があれば動きますか? A. はい。M1/M2/M3/M4 Mac の16GB 統合メモリモデル、RTX 4070 Ti以上、Copilot+ PC の16GB+ 構成で動作します。Q4 量子化なら 8GB 程度の VRAM でも動きます。
Q3. Gemma 4 31B Dense と比べてどれくらい劣りますか? A. 公式は「26B MoE に迫る性能を半分以下のメモリで」と表現。31B Dense のフラッグシップ性能とは差がありますが、ノート PC で動くことを考えれば「実用上の打点に最適化されたモデル」と言えます。
Q4. 商用利用してもいいですか? A. はい。Apache 2.0 で完全自由です。ただし Gemma Prohibited Use Policy(武器開発・児童搾取等)には適用不可。通常の業務利用では制約はありません。
Q5. 音声ネイティブ対応で Whisper はもう不要? A. 用途次第。シンプルな音声→テキスト変換だけ なら Whisper のほうが軽量で速い場合があります。一方、音声を理解した上で推論・応答・タスク抽出 までを一気通貫で行うなら Gemma 4 12B のほうが優位です。
Q6. Vertex AI / Google Cloud で使った場合の課金は? A. Vertex AI 経由は Google Cloud の通常従量課金。ローカル実行は 完全無料(自前ハードウェアの償却+電気代のみ)。詳細は Gemma 4 性能徹底比較 の自社運用コスト試算を参照。
Q7. ファインチューニングはできますか? A. Apache 2.0 ライセンスで可能です。LoRA / QLoRA / Full Fine-tuning に対応。Vertex AI / Hugging Face Transformers / unsloth.ai 等の標準ツールチェーンで実施できます。
Q8. 日本語性能はどの程度ですか? A. ファミリー全体で140言語サポート。31B Dense では JCommonsenseQA 約86点、JGLUE 約78点(Gemma 4 性能徹底比較)。12B 単体の日本語ベンチマークは公式未公開のため、PoC での実測を推奨します。
まとめ
Gemma 4 12B は 「encoder-free multimodal × 16GB ノート PC × Apache 2.0 × ネイティブ音声」 という、これまで存在しなかった組み合わせを実現した、2026年中盤のローカル AI 戦線における重要なマイルストーンです。
Google が 主要プロダクションモデルで encoder-free 設計を採用した ことは、業界全体のマルチモーダル LLM 設計思想が次フェーズに移ったことを示しています。2026年後半には Meta / Alibaba / Mistral も同種の設計に追随する可能性が高く、「Vision Encoder を外付けする時代の終わり」 を象徴するモデルとも言えます。
日本企業にとっては、改正個人情報保護法・経済安保・各業界ガイドラインに対応しながら音声業務をオンデバイスで自動化できる初の現実解 として、ローカル AI 戦略の中核に据える価値があります。コールセンター、議事録、医療カルテ、製造現場、対面接客のいずれも、Whisper + クラウド LLM の2段構成を Gemma 4 12B 単体に置き換えられる ことの意味は大きいです。
References
公式(一次ソース): - Google Blog — Introducing Gemma 4 12B (2026-06-03) - Google Developers Blog — Gemma 4 12B the Developer Guide - Google DeepMind — Gemma 4 model page - Google AI — Gemma docs - Hugging Face — google/gemma-4-E2B(ファミリーモデルカード) - Gemma Prohibited Use Policy 第三者: - MarkTechPost — Encoder-free multimodal with native audio on 16GB laptop - GIGAZINE — Gemma 4 12B encoder-free 解説 - GIGAZINE — Google AI Gemma 4 12B - Hacker News discussion - aicybr.com — Gemma 4 12B accurate guide - explainx.ai — Gemma 4 12B multimodal local AI - unsloth.ai — Gemma 4 documentation - arxiv.org — BREEN: encoder-free multimodal 学術背景 関連コラム: - Gemma 4 必要スペック早見表 - Gemma 4 + Google AI Studio 大型更新 - Gemma 4 性能徹底比較 — vs Llama 4 / Qwen / Mistral / DeepSeek - Argent × Gemma 4 — オンデバイス AI エージェント - Hermes Desktop (Nous Research) - Claude Code Agent View - Forward Deployed Engineer (FDE) 注記: 12B 単体の完全ベンチマーク表(MMLU-Pro / GPQA / HumanEval / MATH / MMMU の確定値)、コンテキスト長の12B個別値、Llama 4 / Qwen 3.5 / Mistral / Phi-5 との直接比較、動画入力の正式サポート範囲は2026年6月4日時点で公式に未確認。第三者観測値は再確認推奨。
お気軽にご相談ください
お問い合わせ