本文へスキップ

株式会社オブライト

「Multimodal」のコラム

2件の記事

Gemma 4 12B 徹底解説 — Vision Encoder と Audio Encoder を捨てた『encoder-free マルチモーダル』、16GBノートPCで動く Apache 2.0 ローカル LLM の正体【2026年6月3日発表】

Google DeepMind が2026年6月3日に公開した Gemma 4 12B を、[公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) と [Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) をベースに徹底解説。本モデル最大の特徴は **encoder-free multimodal アーキテクチャ** — Vision Encoder（旧モデルで約5.5億パラメータ）を **35M パラメータの軽量 embedder + 行列乗算1回** に置換し、Audio Encoder（12層 Conformer）は完全削除して raw 音声を直接 LLM の埋め込み空間に投影する設計。16GB VRAM のノート PC（Copilot+ PC / Apple Silicon Mac）で動作、Apache 2.0 ライセンス、Hugging Face / Ollama / LM Studio / MLX / Vertex AI で即利用可能。本コラムは技術的背景、26B MoE に迫るベンチマーク主張、Gemma 4 ファミリー（E2B/E4B/26B/31B）の中での位置づけ、Llama 4 / Qwen 3.5 / Phi-5 との競合関係、日本企業のオンプレ AI / 音声業務 / データ主権要件への適合性までを公式情報ベースで整理しました。

Gemma 4Gemma 4 12BGoogle DeepMind

Gemini 3.5 Flash と Gemini Omni 徹底解説 — Google I/O 2026 が示した「単一マルチモーダル」と「Pro 超え Flash」の戦略転換

Google I/O 2026（2026年5月19日 PT）で発表された Gemini 3.5 Flash と Gemini Omni を徹底解説。Pro クラスを超えるベンチマーク・4倍の速度・100万トークン超のコンテキストを実現した Flash と、Veo・Imagen・Lyria を単一モデルに統合した Omni の戦略的意義、料金体系、日本企業の採用判断ポイントをまとめます。

GoogleGeminiGemini 3.5 Flash