株式会社オブライト
AI2026-04-10

Mistral Small 4完全ガイド — 推論×マルチモーダル×コードを統合した119B MoEモデル【2026年版】

2026年3月リリースのMistral Small 4は、推論・マルチモーダル・エージェントコーディングを1モデルに統合した119B MoE。Apache 2.0ライセンスで商用利用可能、日本語を含む11言語対応。スペック・導入手順・比較を完全解説。


Mistral Small 4とは?推論・画像・コードを1モデルに統合した119B MoE(Apache 2.0)

Mistral Small 4は2026年3月16日にMistral AIが公開した大規模言語モデルです。総パラメータ119B(128エキスパート構成)のMoEアーキテクチャを採用し、1回の推論で6.5Bパラメータのみをアクティブ化する高効率設計になっています。推論モード(Magistral)、マルチモーダル視覚理解(Pixtral)、エージェントコーディング(Devstral)という3つの能力を単一モデルに統合したのが最大の特徴です。ライセンスはApache 2.0で、商用利用・改変・再配布が自由に行えます。

3つの能力の統合アーキテクチャ

Loading diagram...

スペック詳細

以下にMistral Small 4の主要スペックをまとめます。

項目
総パラメータ数119B
アーキテクチャMoE(Mixture of Experts)
エキスパート数128
アクティブパラメータ6.5B(1推論あたり)
コンテキスト長256K トークン
推論モードConfigurable(effort調整可)
ライセンスApache 2.0
リリース日2026年3月16日

日本語を含む11言語対応

Mistral Small 4は公式に11言語をサポートしており、日本語(JA)も正式対応言語に含まれます。対応言語は英語(EN)、フランス語(FR)、スペイン語(ES)、ドイツ語(DE)、イタリア語(IT)、ポルトガル語(PT)、オランダ語(NL)、中国語(ZH)、日本語(JA)、韓国語(KO)、アラビア語(AR)です。日本のエンタープライズ環境でも安心して活用できます。

ハードウェア要件

Mistral Small 4を動作させるために必要なハードウェアは以下の通りです。

構成VRAM / 統一メモリ推奨環境
フル精度(FP16)約240GBH100×3枚以上
Q4量子化約60GBA100×1枚、H100×1枚
Q5量子化約70GBA100×1枚
Mac Studio(Apple Silicon)64〜192GB 統一メモリM3 Ultra推奨

Apple Silicon搭載のMac Studioは統一メモリ最大192GBまで搭載可能なため、Q4/Q5量子化版を快適に動作させられます。

他モデルとの比較

主要なオープンソースモデルとMistral Small 4を比較します。

モデルパラメータ(総/アクティブ)コンテキストライセンス特徴
Mistral Small 4119B / 6.5B256KApache 2.0推論+マルチモーダル+コード統合
Qwen 3.5-9B9B / 9B(Dense)128KApache 2.0コンパクト高性能
Gemma 4 26B MoE26B / 約6.5B128KGemma TermsGoogleが開発
Llama 4 Scout109B / 17B1MLlama 4 Community超長コンテキスト

Mistral Small 4は256Kコンテキストとマルチモーダル対応の組み合わせが他モデルにない強みです。

導入手順(vLLM / TGI / Ollama)

推奨デプロイ方法はvLLMまたはText Generation Inference(TGI)です。 vLLMでの起動:

bash
pip install vllm
vllm serve mistralai/Mistral-Small-4 \
  --tensor-parallel-size 4 \
  --max-model-len 65536

TGIでの起動:

bash
docker run --gpus all \
  -e HF_TOKEN=<TOKEN> \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mistral-Small-4

Ollama(GGUF対応中): OllamaでのGGUFサポートは順次展開中です。対応後は `ollama run mistral-small-4` で動作予定です。

ユースケース:複合タスクの一貫ワークフロー

Mistral Small 4の真価は、複数の能力を1モデルで連鎖させる複合タスクにあります。典型的なユースケースは以下の通りです。 1. 画像分析: UIスクリーンショットやER図の画像をインプットとして受け取る(Pixtral機能) 2. 推論: 画像から読み取った情報を元に問題を分析・深堀する(Magistral機能) 3. コード生成: 分析結果を元に実装コードを自動生成する(Devstral機能) これまでは複数モデルを呼び出す必要があったパイプラインを、Mistral Small 4一本で完結させられます。APIコスト削減・レイテンシー短縮・実装の簡略化が同時に達成できます。

Mistral 3ファミリーの全体像

2026年時点のMistral AIモデルラインアップは以下の通りです。

モデル位置づけ特徴
Mistral Small 4統合汎用モデル推論・マルチモーダル・コーディング
Mistral Large 3最高性能フラッグシップ大規模タスク向け
Devstral 2コーディング特化エージェントコーディングに最適化
Voxtral TTS音声合成テキスト→音声変換

Small 4はコスト効率と高機能を両立したモデルとして、ファミリー中央に位置します。

よくある質問(FAQ)

Q1. Mistral Small 4は商用利用できますか? はい。Apache 2.0ライセンスのため、商用利用・改変・再配布がすべて自由に行えます。サービスへの組み込みや社内ツールへの統合も問題ありません。 Q2. 推論モード(Magistral)はどのように使いますか? APIリクエスト時に `reasoning_effort` パラメータで「low / medium / high」を指定します。タスクの難易度に応じてコストと精度を調整できます。 Q3. マルチモーダル機能で対応している画像形式は? JPEG・PNG・WebPなど主要フォーマットに対応しています。画像URLまたはBase64エンコード形式でリクエストに含めます。 Q4. 日本語の品質はどの程度ですか? 公式11言語に日本語が含まれるため、自然な日本語テキストの生成・理解が可能です。英語ほどではないものの、実用レベルの精度があります。 Q5. OllamaでGGUFが使えるのはいつですか? 2026年4月時点でOllamaのGGUF対応は展開中です。公式Ollamaライブラリページで最新情報を確認してください。 Q6. Mistral Large 3との使い分けは? Small 4はコスト効率と多機能性を重視する用途向け、Large 3は精度最優先の大規模タスク向けです。まずSmall 4で試し、精度不足を感じたらLarge 3を検討するのが推奨フローです。 Q7. 自社システムへの導入相談はどこでできますか? Oflightでは企業向けのAIモデル選定・導入支援を提供しています。詳しくは `/services/ai-consulting` をご覧ください。

OflightのAI導入支援サービス

Mistral Small 4をはじめとする最新LLMの自社システムへの統合、プロンプト設計、コスト最適化、セキュリティ要件への対応など、AIエンジニアリング全般をOflightがサポートします。エンタープライズ向けのPoC設計から本番運用まで、ワンストップでご支援します。詳細は `/services/ai-consulting` からお問い合わせください。

お気軽にご相談ください

お問い合わせ