株式会社オブライト
サービス
私たちについて
会社概要
コラム
用語集
お問い合わせ
English
English
メニューを開く
コラム
Multimodal
「Multimodal」のコラム
2件の記事
AI
2026-06-04
Gemma 4 12B 徹底解説 — Vision Encoder と Audio Encoder を捨てた『encoder-free マルチモーダル』、16GBノートPCで動く Apache 2.0 ローカル LLM の正体【2026年6月3日発表】
Google DeepMind が2026年6月3日に公開した Gemma 4 12B を、[公式ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) と [Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) をベースに徹底解説。本モデル最大の特徴は **encoder-free multimodal アーキテクチャ** — Vision Encoder(旧モデルで約5.5億パラメータ)を **35M パラメータの軽量 embedder + 行列乗算1回** に置換し、Audio Encoder(12層 Conformer)は完全削除して raw 音声を直接 LLM の埋め込み空間に投影する設計。16GB VRAM のノート PC(Copilot+ PC / Apple Silicon Mac)で動作、Apache 2.0 ライセンス、Hugging Face / Ollama / LM Studio / MLX / Vertex AI で即利用可能。本コラムは技術的背景、26B MoE に迫るベンチマーク主張、Gemma 4 ファミリー(E2B/E4B/26B/31B)の中での位置づけ、Llama 4 / Qwen 3.5 / Phi-5 との競合関係、日本企業のオンプレ AI / 音声業務 / データ主権要件への適合性までを公式情報ベースで整理しました。
Gemma 4
Gemma 4 12B
Google DeepMind
AI
2026-05-21
Gemini 3.5 Flash と Gemini Omni 徹底解説 — Google I/O 2026 が示した「単一マルチモーダル」と「Pro 超え Flash」の戦略転換
Google I/O 2026(2026年5月19日 PT)で発表された Gemini 3.5 Flash と Gemini Omni を徹底解説。Pro クラスを超えるベンチマーク・4倍の速度・100万トークン超のコンテキストを実現した Flash と、Veo・Imagen・Lyria を単一モデルに統合した Omni の戦略的意義、料金体系、日本企業の採用判断ポイントをまとめます。
Google
Gemini
Gemini 3.5 Flash