Mistral Small 4完全ガイド — 推論×マルチモーダル×コードを統合した119B MoEモデル【2026年版】
2026年3月リリースのMistral Small 4は、推論・マルチモーダル・エージェントコーディングを1モデルに統合した119B MoE。Apache 2.0ライセンスで商用利用可能、日本語を含む11言語対応。スペック・導入手順・比較を完全解説。
Mistral Small 4とは?推論・画像・コードを1モデルに統合した119B MoE(Apache 2.0)
Mistral Small 4は2026年3月16日にMistral AIが公開した大規模言語モデルです。総パラメータ119B(128エキスパート構成)のMoEアーキテクチャを採用し、1回の推論で6.5Bパラメータのみをアクティブ化する高効率設計になっています。推論モード(Magistral)、マルチモーダル視覚理解(Pixtral)、エージェントコーディング(Devstral)という3つの能力を単一モデルに統合したのが最大の特徴です。ライセンスはApache 2.0で、商用利用・改変・再配布が自由に行えます。
3つの能力の統合アーキテクチャ
スペック詳細
以下にMistral Small 4の主要スペックをまとめます。
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 119B |
| アーキテクチャ | MoE(Mixture of Experts) |
| エキスパート数 | 128 |
| アクティブパラメータ | 6.5B(1推論あたり) |
| コンテキスト長 | 256K トークン |
| 推論モード | Configurable(effort調整可) |
| ライセンス | Apache 2.0 |
| リリース日 | 2026年3月16日 |
日本語を含む11言語対応
Mistral Small 4は公式に11言語をサポートしており、日本語(JA)も正式対応言語に含まれます。対応言語は英語(EN)、フランス語(FR)、スペイン語(ES)、ドイツ語(DE)、イタリア語(IT)、ポルトガル語(PT)、オランダ語(NL)、中国語(ZH)、日本語(JA)、韓国語(KO)、アラビア語(AR)です。日本のエンタープライズ環境でも安心して活用できます。
ハードウェア要件
Mistral Small 4を動作させるために必要なハードウェアは以下の通りです。
| 構成 | VRAM / 統一メモリ | 推奨環境 |
|---|---|---|
| フル精度(FP16) | 約240GB | H100×3枚以上 |
| Q4量子化 | 約60GB | A100×1枚、H100×1枚 |
| Q5量子化 | 約70GB | A100×1枚 |
| Mac Studio(Apple Silicon) | 64〜192GB 統一メモリ | M3 Ultra推奨 |
Apple Silicon搭載のMac Studioは統一メモリ最大192GBまで搭載可能なため、Q4/Q5量子化版を快適に動作させられます。
他モデルとの比較
主要なオープンソースモデルとMistral Small 4を比較します。
| モデル | パラメータ(総/アクティブ) | コンテキスト | ライセンス | 特徴 |
|---|---|---|---|---|
| Mistral Small 4 | 119B / 6.5B | 256K | Apache 2.0 | 推論+マルチモーダル+コード統合 |
| Qwen 3.5-9B | 9B / 9B(Dense) | 128K | Apache 2.0 | コンパクト高性能 |
| Gemma 4 26B MoE | 26B / 約6.5B | 128K | Gemma Terms | Googleが開発 |
| Llama 4 Scout | 109B / 17B | 1M | Llama 4 Community | 超長コンテキスト |
Mistral Small 4は256Kコンテキストとマルチモーダル対応の組み合わせが他モデルにない強みです。
導入手順(vLLM / TGI / Ollama)
推奨デプロイ方法はvLLMまたはText Generation Inference(TGI)です。 vLLMでの起動:
pip install vllm
vllm serve mistralai/Mistral-Small-4 \
--tensor-parallel-size 4 \
--max-model-len 65536TGIでの起動:
docker run --gpus all \
-e HF_TOKEN=<TOKEN> \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id mistralai/Mistral-Small-4Ollama(GGUF対応中): OllamaでのGGUFサポートは順次展開中です。対応後は `ollama run mistral-small-4` で動作予定です。
ユースケース:複合タスクの一貫ワークフロー
Mistral Small 4の真価は、複数の能力を1モデルで連鎖させる複合タスクにあります。典型的なユースケースは以下の通りです。 1. 画像分析: UIスクリーンショットやER図の画像をインプットとして受け取る(Pixtral機能) 2. 推論: 画像から読み取った情報を元に問題を分析・深堀する(Magistral機能) 3. コード生成: 分析結果を元に実装コードを自動生成する(Devstral機能) これまでは複数モデルを呼び出す必要があったパイプラインを、Mistral Small 4一本で完結させられます。APIコスト削減・レイテンシー短縮・実装の簡略化が同時に達成できます。
Mistral 3ファミリーの全体像
2026年時点のMistral AIモデルラインアップは以下の通りです。
| モデル | 位置づけ | 特徴 |
|---|---|---|
| Mistral Small 4 | 統合汎用モデル | 推論・マルチモーダル・コーディング |
| Mistral Large 3 | 最高性能フラッグシップ | 大規模タスク向け |
| Devstral 2 | コーディング特化 | エージェントコーディングに最適化 |
| Voxtral TTS | 音声合成 | テキスト→音声変換 |
Small 4はコスト効率と高機能を両立したモデルとして、ファミリー中央に位置します。
よくある質問(FAQ)
Q1. Mistral Small 4は商用利用できますか? はい。Apache 2.0ライセンスのため、商用利用・改変・再配布がすべて自由に行えます。サービスへの組み込みや社内ツールへの統合も問題ありません。 Q2. 推論モード(Magistral)はどのように使いますか? APIリクエスト時に `reasoning_effort` パラメータで「low / medium / high」を指定します。タスクの難易度に応じてコストと精度を調整できます。 Q3. マルチモーダル機能で対応している画像形式は? JPEG・PNG・WebPなど主要フォーマットに対応しています。画像URLまたはBase64エンコード形式でリクエストに含めます。 Q4. 日本語の品質はどの程度ですか? 公式11言語に日本語が含まれるため、自然な日本語テキストの生成・理解が可能です。英語ほどではないものの、実用レベルの精度があります。 Q5. OllamaでGGUFが使えるのはいつですか? 2026年4月時点でOllamaのGGUF対応は展開中です。公式Ollamaライブラリページで最新情報を確認してください。 Q6. Mistral Large 3との使い分けは? Small 4はコスト効率と多機能性を重視する用途向け、Large 3は精度最優先の大規模タスク向けです。まずSmall 4で試し、精度不足を感じたらLarge 3を検討するのが推奨フローです。 Q7. 自社システムへの導入相談はどこでできますか? Oflightでは企業向けのAIモデル選定・導入支援を提供しています。詳しくは `/services/ai-consulting` をご覧ください。
OflightのAI導入支援サービス
Mistral Small 4をはじめとする最新LLMの自社システムへの統合、プロンプト設計、コスト最適化、セキュリティ要件への対応など、AIエンジニアリング全般をOflightがサポートします。エンタープライズ向けのPoC設計から本番運用まで、ワンストップでご支援します。詳細は `/services/ai-consulting` からお問い合わせください。
お気軽にご相談ください
お問い合わせ