本文へスキップ

株式会社オブライト

「Gemma 4 12B」のコラム

1件の記事

Gemma 4 12B 徹底解説 — Vision Encoder と Audio Encoder を捨てた『encoder-free マルチモーダル』、16GBノートPCで動く Apache 2.0 ローカル LLM の正体【2026年6月3日発表】

Google DeepMind が2026年6月3日に公開した Gemma 4 12B を、[公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) と [Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) をベースに徹底解説。本モデル最大の特徴は **encoder-free multimodal アーキテクチャ** — Vision Encoder（旧モデルで約5.5億パラメータ）を **35M パラメータの軽量 embedder + 行列乗算1回** に置換し、Audio Encoder（12層 Conformer）は完全削除して raw 音声を直接 LLM の埋め込み空間に投影する設計。16GB VRAM のノート PC（Copilot+ PC / Apple Silicon Mac）で動作、Apache 2.0 ライセンス、Hugging Face / Ollama / LM Studio / MLX / Vertex AI で即利用可能。本コラムは技術的背景、26B MoE に迫るベンチマーク主張、Gemma 4 ファミリー（E2B/E4B/26B/31B）の中での位置づけ、Llama 4 / Qwen 3.5 / Phi-5 との競合関係、日本企業のオンプレ AI / 音声業務 / データ主権要件への適合性までを公式情報ベースで整理しました。

Gemma 4Gemma 4 12BGoogle DeepMind