AI2026-04-10

Mistral Small 4完全ガイド — 推論×マルチモーダル×コードを統合した119B MoEモデル【2026年版】

2026年3月リリースのMistral Small 4は、推論・マルチモーダル・エージェントコーディングを1モデルに統合した119B MoE。Apache 2.0ライセンスで商用利用可能、日本語を含む11言語対応。スペック・導入手順・比較を完全解説。

Mistral Small 4 MoE マルチモーダル推論 Apache 2.0

Mistral Small 4とは？推論・画像・コードを1モデルに統合した119B MoE（Apache 2.0）

Mistral Small 4は2026年3月16日にMistral AIが公開した大規模言語モデルです。総パラメータ119B（128エキスパート構成）のMoEアーキテクチャを採用し、1回の推論で6.5Bパラメータのみをアクティブ化する高効率設計になっています。推論モード（Magistral）、マルチモーダル視覚理解（Pixtral）、エージェントコーディング（Devstral）という3つの能力を単一モデルに統合したのが最大の特徴です。ライセンスはApache 2.0で、商用利用・改変・再配布が自由に行えます。

3つの能力の統合アーキテクチャ

Loading diagram...

スペック詳細

以下にMistral Small 4の主要スペックをまとめます。

項目	値
総パラメータ数	119B
アーキテクチャ	MoE（Mixture of Experts）
エキスパート数	128
アクティブパラメータ	6.5B（1推論あたり）
コンテキスト長	256K トークン
推論モード	Configurable（effort調整可）
ライセンス	Apache 2.0
リリース日	2026年3月16日

日本語を含む11言語対応

Mistral Small 4は公式に11言語をサポートしており、日本語（JA）も正式対応言語に含まれます。対応言語は英語（EN）、フランス語（FR）、スペイン語（ES）、ドイツ語（DE）、イタリア語（IT）、ポルトガル語（PT）、オランダ語（NL）、中国語（ZH）、日本語（JA）、韓国語（KO）、アラビア語（AR）です。日本のエンタープライズ環境でも安心して活用できます。

ハードウェア要件

Mistral Small 4を動作させるために必要なハードウェアは以下の通りです。

構成	VRAM / 統一メモリ	推奨環境
フル精度（FP16）	約240GB	H100×3枚以上
Q4量子化	約60GB	A100×1枚、H100×1枚
Q5量子化	約70GB	A100×1枚
Mac Studio（Apple Silicon）	64〜192GB 統一メモリ	M3 Ultra推奨

Apple Silicon搭載のMac Studioは統一メモリ最大192GBまで搭載可能なため、Q4/Q5量子化版を快適に動作させられます。

他モデルとの比較

主要なオープンソースモデルとMistral Small 4を比較します。

モデル	パラメータ（総/アクティブ）	コンテキスト	ライセンス	特徴
Mistral Small 4	119B / 6.5B	256K	Apache 2.0	推論+マルチモーダル+コード統合
Qwen 3.5-9B	9B / 9B（Dense）	128K	Apache 2.0	コンパクト高性能
Gemma 4 26B MoE	26B / 約6.5B	128K	Gemma Terms	Googleが開発
Llama 4 Scout	109B / 17B	1M	Llama 4 Community	超長コンテキスト

Mistral Small 4は256Kコンテキストとマルチモーダル対応の組み合わせが他モデルにない強みです。

導入手順（vLLM / TGI / Ollama）

推奨デプロイ方法はvLLMまたはText Generation Inference（TGI）です。 vLLMでの起動:

bash

pip install vllm
vllm serve mistralai/Mistral-Small-4 \
  --tensor-parallel-size 4 \
  --max-model-len 65536

TGIでの起動:

bash

docker run --gpus all \
  -e HF_TOKEN=<TOKEN> \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mistral-Small-4

Ollama（GGUF対応中）: OllamaでのGGUFサポートは順次展開中です。対応後は `ollama run mistral-small-4` で動作予定です。

ユースケース：複合タスクの一貫ワークフロー

Mistral Small 4の真価は、複数の能力を1モデルで連鎖させる複合タスクにあります。典型的なユースケースは以下の通りです。 1. 画像分析: UIスクリーンショットやER図の画像をインプットとして受け取る（Pixtral機能） 2. 推論: 画像から読み取った情報を元に問題を分析・深堀する（Magistral機能） 3. コード生成: 分析結果を元に実装コードを自動生成する（Devstral機能）これまでは複数モデルを呼び出す必要があったパイプラインを、Mistral Small 4一本で完結させられます。APIコスト削減・レイテンシー短縮・実装の簡略化が同時に達成できます。

Mistral 3ファミリーの全体像

2026年時点のMistral AIモデルラインアップは以下の通りです。

モデル	位置づけ	特徴
Mistral Small 4	統合汎用モデル	推論・マルチモーダル・コーディング
Mistral Large 3	最高性能フラッグシップ	大規模タスク向け
Devstral 2	コーディング特化	エージェントコーディングに最適化
Voxtral TTS	音声合成	テキスト→音声変換

Small 4はコスト効率と高機能を両立したモデルとして、ファミリー中央に位置します。

よくある質問（FAQ）

Q1. Mistral Small 4は商用利用できますか？ はい。Apache 2.0ライセンスのため、商用利用・改変・再配布がすべて自由に行えます。サービスへの組み込みや社内ツールへの統合も問題ありません。 Q2. 推論モード（Magistral）はどのように使いますか？ APIリクエスト時に `reasoning_effort` パラメータで「low / medium / high」を指定します。タスクの難易度に応じてコストと精度を調整できます。 Q3. マルチモーダル機能で対応している画像形式は？ JPEG・PNG・WebPなど主要フォーマットに対応しています。画像URLまたはBase64エンコード形式でリクエストに含めます。 Q4. 日本語の品質はどの程度ですか？ 公式11言語に日本語が含まれるため、自然な日本語テキストの生成・理解が可能です。英語ほどではないものの、実用レベルの精度があります。 Q5. OllamaでGGUFが使えるのはいつですか？ 2026年4月時点でOllamaのGGUF対応は展開中です。公式Ollamaライブラリページで最新情報を確認してください。 Q6. Mistral Large 3との使い分けは？ Small 4はコスト効率と多機能性を重視する用途向け、Large 3は精度最優先の大規模タスク向けです。まずSmall 4で試し、精度不足を感じたらLarge 3を検討するのが推奨フローです。 Q7. 自社システムへの導入相談はどこでできますか？ Oflightでは企業向けのAIモデル選定・導入支援を提供しています。詳しくは `/services/ai-consulting` をご覧ください。

OflightのAI導入支援サービス

Mistral Small 4をはじめとする最新LLMの自社システムへの統合、プロンプト設計、コスト最適化、セキュリティ要件への対応など、AIエンジニアリング全般をOflightがサポートします。エンタープライズ向けのPoC設計から本番運用まで、ワンストップでご支援します。詳細は `/services/ai-consulting` からお問い合わせください。

お気軽にご相談ください

お問い合わせ