AI2026-05-17

MoE（Mixture of Experts）

別名: MoE / Mixture of Experts / 混合エキスパート

複数の専門化したサブネットワーク（エキスパート）を持ち、各トークンの処理に一部のエキスパートだけを選択的に活用するモデルアーキテクチャ。パラメータ数を増やしながら計算量を抑えられる。

概要

MoE（Mixture of Experts）は、モデル内に複数の専門化したFFN（フィードフォワードネットワーク）を持ち、各トークンをルーターが最適なエキスパートにルーティングするアーキテクチャです。GPT-4・Mixtral・Qwen（一部）・Rakuten AI 3.0などがMoEを採用しています。総パラメータ数は大きいが活性化パラメータ数が少ないため、推論コストをDenseモデルより抑えられます。

Dense Modelとの比較

同等の性能のDenseモデルと比べてMoEは学習・推論のFLOPS効率が高い一方、全エキスパートをメモリに載せる必要があるためVRAM要求量が高いというトレードオフがあります。Mistral Small 4（119B MoE）がその典型例です。

楽天が開発した約7000億パラメータのRakuten AI 3.0のMixture of Expertsアーキテクチャを徹底解説。8エキスパート構成、アクティブパラメータ400億の効率性、日本語MT-Benchで8.88を達成した技術的背景を詳しく紹介します。

Mistral Small 4完全ガイド — 推論×マルチモーダル×コードを統合した119B MoEモデル【2026年版】

2026年3月リリースのMistral Small 4は、推論・マルチモーダル・エージェントコーディングを1モデルに統合した119B MoE。Apache 2.0ライセンスで商用利用可能、日本語を含む11言語対応。スペック・導入手順・比較を完全解説。

MiniMax M2.5完全ガイド — Lightning AttentionでSWE-bench 80.2%を達成したMoEモデル【2026年版】

MiniMax M2.5は独自のLightning AttentionによりコーディングベンチマークSWE-bench Verifiedで80.2%を達成したオープンMoEモデル。230B総パラメータ・10Bアクティブ。アーキテクチャ・ライセンス・導入手順を完全解説。

Kimi K2.5完全ガイド — 1兆パラメータMITライセンスのオープンソースLLMの実力【2026年版】

Moonshot AIが2026年1月27日にリリースしたKimi K2.5は、1兆パラメータ（32Bアクティブ）MoEモデル。SWE-bench 76.8%、HumanEval 99.0%、GPQA Diamond 87.6%を達成しMITライセンスで公開。アーキテクチャ・ハードウェア要件・Ollama導入・ユースケースを完全解説。

MoE（Mixture of Experts）

概要

Dense Modelとの比較

関連コラム

関連用語