AI2026-06-22

Sakana Fugu 徹底解説 — 2026年6月22日 Sakana AI が公開した『LLM を呼び出すために学習された LLM』、GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro を内部で動的オーケストレーション、ICLR 2026 採択の TRINITY / Conductor が基盤、SWE-Bench Pro 73.7 で Opus 4.8 超え主張、Fugu / Fugu Ultra 2モデル + サブスク $20/$100/$200、EU/EEA は GDPR 対応中で提供外

Sakana AI が2026年6月22日に Sakana Fugu を正式リリース しました（公式 fugu-release / 製品ページ / gihyo.jp / GIGAZINE）。従来想定される『次世代日本語 LLM』ではなく、複数 LLM を内部で動的にオーケストレーションする『指揮者』型モデル で、ユーザーのクエリを受けると Fugu 本体が (1) 自前で解ける場合は直接応答、(2) 複雑なマルチステップタスクは GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro などのエージェントプールから動的にモデルを選定・委任・検証・統合します。学術基盤 は ICLR 2026 採択論文の TRINITY（進化的に最適化された LLM 協調器、Thinker/Worker/Verifier 役割割当） と Conductor（強化学習により自然言語での協調戦略を発見） の2本。2モデル提供: 日常タスク・低レイテンシ用 Fugu と最難問・深い協調用 Fugu Ultra（プール構成固定で除外不可）。ベンチマーク: SWE-Bench Pro 73.7 で Claude Opus 4.8 等のフロンティアモデル超え（XenoSpectrum 報道）、Terminal-Bench 2.1 で Anthropic 最新超え、Charxiv Reasoning で Claude Mythos Preview 超え、ただし Humanity is Last Exam (HLE) では劣後。公式表現は「Fable 5 / Mythos Preview と shoulder-to-shoulder」で慎重。価格: Fugu Ultra 入力 $5/M（標準）・$10/M（272K 超）、出力 $30/M・$45/M（272K 超）、サブスクは Standard $20 / Pro $100 / Max $200 per month（Fugu/Ultra 両方利用可）、エンタープライズは使用量ベース。OpenAI 互換 API（console.sakana.ai）。EU/EEA は GDPR 準拠作業中で提供外、日本リージョン利用可。戦略的価値は性能ではなく構造的レジリエンス — 単一ベンダー依存からの脱却、輸出規制リスク分散（Sakana Marlin 解説の Fable 5 輸出規制 precedent と地続き）。BuildFastWithAI は「export controls を回避するモデル」と評価、Clanker Cloud は「Model Orchestration Is Becoming the Product」と表現。Fugu 本体パラメータ数・日本語ベンチ（ELYZA / JMMLU / JMT-Bench）数値・David Ha / Llion Jones 個別発言は未確認で、API 薄ラッパー批判の余地と独立検証は今後の論点。

Sakana AI Sakana Fugu Multi-Agent Orchestration TRINITY Conductor Model Routing ICLR 2026

TL;DR — Sakana Fugu を一言で

Sakana AI が2026年6月22日に Sakana Fugu を正式リリース しました（公式 fugu-release / 製品ページ）。

最も重要な点: Sakana Fugu は 従来想定される『次世代日本語 LLM』ではなく、複数 LLM を内部で動的にオーケストレーションする『指揮者』型モデル です。「LLM を呼び出すために学習された LLM」（an LLM trained to call other LLMs）という新しいカテゴリです。

4つの要点:

1. オーケストレーション・モデルという新カテゴリ — Fugu 本体がエージェントプール（GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro 等）から動的にモデルを選定・委任・検証・統合 2. ICLR 2026 採択論文が学術基盤 — TRINITY（進化的に最適化された LLM 協調器）+ Conductor（RL で協調戦略を発見） 3. 2モデル提供 — 日常用 Fugu と最難問用 Fugu Ultra 4. 戦略的価値は性能ではなく構造的レジリエンス — 単一ベンダー依存・輸出規制リスクからの脱却

本コラムは Sakana Marlin 自律研究エージェント解説、Claude Fable 5 輸出規制停止、PLaMo 3.0 Prime（同日リリース）と並ぶ「2026年6月22日の Sakana AI × 国産 AI 戦線」整理として位置づけられます。

リリース概要 — 「Fugu = 指揮者」という発想転換

項目	内容
正式発表日	2026年6月22日（GA：正式提供開始）
提供形態	OpenAI 互換 API + サブスクリプション（console.sakana.ai）
モデル構成	Fugu（日常タスク・低レイテンシ用）/ Fugu Ultra（最難問用・深い協調）
学術基盤	ICLR 2026 採択論文 TRINITY および Conductor の2本
Sakana Marlin との関係	Marlin（2026年6月初頭発表の自律研究エージェント）とは別系統。Fugu は「複数モデルを束ねる司令塔」で、Marlin のようなエージェントを内部で呼び出す将来像が示唆

命名理由: 「フグ＝Fugu」について、公式リリース文・GIGAZINE・gihyo いずれも 明示的な説明は載せていません。Sakana AI が継続している「日本の魚名」シリーズ（Sakana、Marlin に続く命名）と整合する点のみが事実として確認できます。

アーキテクチャ — 「LLM を呼び出すために学習された LLM」

Fugu は 「LLM を呼び出すために学習された LLM」 です。ユーザーのクエリを受け取ると、Fugu 本体が以下のいずれかを実行します:

- 自前で解ける場合は直接応答（recursive self-call も可） - 複雑なマルチステップタスクの場合は、エージェントプールから外部 LLM を選定・委任・検証・統合

エージェントプールには以下が含まれます（gihyo 明記）:

- GPT-5.5（OpenAI） - Claude Opus 4.8（Anthropic） - Gemini 3.1 Pro（Google DeepMind） - その他複数のフロンティア・クローズドモデル + オープンモデル

ユーザーは コンプライアンス要件に応じてプールから特定プロバイダ／モデルを除外 可能（例: 中国系モデル除外、EU データ転送制限）。ただし Fugu Ultra はプール構成が固定で除外不可。最大性能を出すための固定構成です。

[Loop Engineering](../columns/loop-engineering-ai-agent-paradigm-2026-06) の文脈: Fugu は Outer Loop の Orchestrator として動作し、Inner Loop は外部 LLM が回す。Maker / Checker の分離（生成と検証を別モデルに）が組み込まれており、Loop Engineering の Maker-Checker パターンを 製品レベルで実装 した例。

学術基盤 — TRINITY と Conductor（ICLR 2026 採択）

TRINITY（ICLR 2026 採択論文）: 進化的に最適化された LLM 協調器。Thinker / Worker / Verifier の役割を複数 LLM に動的に割り当て、コーディング・数学・推論・知識タスクを横断的に分担させる仕組み。

Conductor（ICLR 2026 採択論文）: 強化学習により、自然言語での協調戦略（エージェント間通信パターンと専用プロンプト）を発見させる手法。Sakana AI の Evolutionary Model Merge / DiscoPOP の系譜上にあります。

単体パラメータ数: Fugu 本体は「オーケストレータ LLM」として動作しますが、パラメータ数は公式に未開示。これは「単体性能ではなく協調性能で勝負する」という設計意図を反映しています。

コンテキスト長: API 料金体系で 272K トークン超 に異なるレートが設定されており、272K 超の長文脈に対応することは公式価格表から読み取れます。

ベンチマーク — フロンティア級と shoulder-to-shoulder、ただし全面勝利ではない

公式・二次ソースから確認できた具体数値:

ベンチマーク	Fugu Ultra	比較対象	ソース
SWE-Bench Pro	73.7	Claude Opus 4.8 等のフロンティアモデルを上回ると報じられる	XenoSpectrum
Terminal-Bench 2.1	Anthropic 最新モデル超	コーディング	ビジネス+IT
Charxiv Reasoning	Claude Mythos Preview 超	複雑グラフ読解	ビジネス+IT
Humanity is Last Exam (HLE)	劣後	広範な学術知識	ビジネス+IT

公式の表現は概ね「Fable 5 および Mythos Preview と shoulder-to-shoulder（肩を並べる）」というもので、「全面的圧勝」ではなく「フロンティア級と同等〜一部上回る」という慎重な主張に留まっています。

日本語ベンチ（ELYZA-tasks-100 / JMMLU / Japanese MT-Bench）の数値は、公式・gihyo・GIGAZINE・SBBit のいずれにも掲載されていません。日本語特化を売りにしたモデルではなく、汎用協調モデル としての位置付けと判断するのが妥当。日本特化を求めるなら PLaMo 3.0 Prime や Liquid AI LFM2.5-J と比較すべきです。

配布・ライセンス・価格

配布形態:

- クローズド／API のみ — Hugging Face でのオープンウェイト公開は確認されず - OpenAI 互換エンドポイント — 既存ツール（Claude Code 互換クライアント、Cursor、Aider 等）との接続容易 - コンソール: console.sakana.ai

Fugu Ultra トークン課金:

項目	標準	272K 超
入力	$5 / M tok	$10 / M tok
出力	$30 / M tok	$45 / M tok

サブスクリプション（個人）:

- Standard $20/月 - Pro $100/月 - Max $200/月

いずれも Fugu / Fugu Ultra 両方利用可。Claude Pro / Max と同価格帯ですが、実質的に GPT-5.5 / Opus 4.8 / Gemini 3.1 Pro を $20-200 で束ねて使える という構造になります。

エンタープライズ: 使用量ベース（モデル稼働状況とエージェント数に連動）。

地域制約: EU／EEA 加盟国では提供されない（GDPR 準拠作業中、公式 fugu ページに明記）。日本リージョンは利用可能。

戦略的価値 — 「性能」ではなく「構造的レジリエンス」

本リリースの最も重要な戦略的論点は、Fugu の本質的価値提案が性能ではなく構造的レジリエンス であることです。

輸出規制・地政学リスク回避: 公式・XenoSpectrum・BuildFastWithAI が一致して強調するのが「単一ベンダー依存からの脱却」「export control のリスク分散」。2026年5月の Claude Fable 5 / Mythos 5 が米政府輸出規制で突然停止という事件は、単一ベンダー依存リスクが現実になった precedent。Fugu はこの precedent を直接の motivation として設計されています。

市場ポジショニング: 「単一の最強モデル」競争から降りて「メタ・モデル」のレイヤーで戦う戦略。Clanker Cloud は 「Model Orchestration Is Becoming the Product」 と表現。

David Ha / Llion Jones の発言: 公式リリース文書には署名コメントは載っていますが、調査範囲のソース（gihyo・GIGAZINE・SBBit・XenoSpectrum）には引用可能な具体発言は抽出できませんでした。X 公式（@hardmaru、@lliondj）は要追加確認。

GENIAC・NEDO・経産省・SoftBank ラウンド: 今回の Fugu リリース告知では明示的言及なし。SoftBank の $1.5B ラウンドに関する更新情報も本リリースでは触れられていません。

リスク・批判・留保

1. 「外部 API への薄いラッパー」批判の余地 — Fugu はオーケストレーション層であり、エンドのコストは結局 GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro のトークン課金に依存する可能性が高い。サブスク $20/月で Opus 4.8 級の出力が常時得られるなら破格だが、レート制限・公平利用ポリシーの実態は GA 後の検証待ち。 2. 独立ベンチ検証 — 公開直後（リリースから本稿執筆まで数日）であり、第三者による再現ベンチは ClassMethod の試用レポート程度に留まる。 3. HLE での劣後 — 広範な学術知識タスクではフロンティアモデルに及ばず、得意分野（コーディング・推論協調）と不得意分野の差が明瞭。 4. 「進化的マージ」系の再現性論争 — 過去の Evolutionary Model Merge への学術界からの懐疑は依然として残り、TRINITY の "evolved" 部分への独立検証は今後の論点。 5. EU/EEA 提供外 — GDPR 準拠作業完了まで、EU 拠点組織は利用不可。 6. 日本語ベンチ未公開 — 日本特化を売りにしないので想定通りだが、国産 LLM としての訴求は弱い。

推奨運用パターン（オブライト視点）

オブライトの AI コンサルティング / ソフトウェア開発で日本企業に推奨するのは、性能ではなく構造的レジリエンスを買う という視点での導入:

ユースケース1: マルチベンダー戦略の単一ゲートウェイ 複数の海外 LLM をすでに併用している組織で、契約・課金・モニタリングを Fugu に集約。輸出規制・APIキー漏洩・ベンダーロックインのリスクを Fugu の OpenAI 互換 API レイヤーで吸収。

ユースケース2: Loop Engineering の Maker-Checker を製品で実装 Loop Engineering の Maker-Checker パターンを自前で組まずに Fugu に任せる。Thinker / Worker / Verifier が論文ベースで実装済み。

ユースケース3: コーディング特化案件で Fugu Ultra SWE-Bench Pro 73.7 / Terminal-Bench 2.1 で Opus 4.8 超えと主張されている領域。実プロジェクトで PoC を回して数値を確認することが必須。

避けるべき用途: - 学術知識タスク（HLE で劣後） - EU 拠点組織（GDPR 提供外） - 機微情報を伴う日本国内案件（エージェントプール経由で海外モデルが呼ばれるため、データ越境論点は PLaMo 3.0 Prime と同水準の精査が必要）

FAQ

Q1. Sakana Fugu は日本語特化 LLM ですか？ A. 違います。汎用オーケストレーション・モデルで、日本語特化を売りにしていません。日本語特化が必要なら PLaMo 3.0 Prime や Liquid AI LFM2.5-J を選ぶべきです。

Q2. 「LLM を呼び出すために学習された LLM」とはどういう意味ですか？ A. Fugu 自身も LLM ですが、その学習目的が「ユーザークエリに直接答える」のではなく「どの外部 LLM をどう呼び出して問題を解かせるかを決める」ことに最適化されています。TRINITY 論文で Thinker / Worker / Verifier の役割を動的に割り当てる仕組みが学術的根拠。

Q3. サブスク $20/月で Claude Opus 4.8 並みの性能が出るって本当？ A. 構造的にはエージェントプールが Opus 4.8 を含むので可能。ただし レート制限・公平利用ポリシー の実態が公開直後で不透明。$20/月で Opus 4.8 を無制限に使えるわけではなく、Fugu の判断で「Opus 4.8 を呼ぶべきか、自分で答えるか、もっと軽いモデルに任せるか」が決まる。実コストの肌感は GA 後の検証待ち。

Q4. プールから特定モデルを除外できますか？ A. Fugu（通常版）では可能 — コンプライアンス要件（中国モデル除外、EU データ転送制限等）に応じて除外設定可。Fugu Ultra ではプール構成固定で除外不可。最大性能のための固定構成です。

Q5. EU で使えますか？ A. 使えません。GDPR 準拠作業中のため EU/EEA 提供外。日本リージョン・米国・APAC は利用可能。

Q6. Claude Fable 5 の輸出規制停止との関係は？ A. 直接的な precedent / motivation です。2026年5月に Claude Fable 5 / Mythos 5 が米政府輸出規制で突然停止した事件で「単一ベンダー依存のリスク」が現実化。Fugu は「もし Claude が止まっても自動的に GPT / Gemini に切り替わる」設計になっており、輸出規制・APIキー無効化・障害への構造的耐性が訴求点。

Q7. Sakana Marlin との関係は？ A. 別系統。Sakana Marlin は自律研究エージェント、Fugu はモデル指揮者。両者は補完関係で、Fugu の将来像として「Marlin のようなエージェントを Fugu のプール内で呼び出す」連携が示唆されています。

Q8. PLaMo 3.0 Prime（同日リリース）との関係は？ A. コンセプトが全く異なる — PLaMo 3.0 Prime は単体の国産日本語 LLM、Fugu は複数 LLM を束ねるオーケストレーション・モデル。直接競合ではない — むしろ将来的に Fugu のプールに PLaMo を組み込むという連携可能性もあり得ます。2026年6月22日に同日リリースとなったのは偶然と思われます。

まとめ

Sakana Fugu は 2026年6月22日にリリースされた、AI 業界の新カテゴリ『オーケストレーション・モデル』 の最先端例です。「LLM を呼び出すために学習された LLM」 という新しい設計思想で、ICLR 2026 採択論文 TRINITY / Conductor を学術基盤に、GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro を内部で動的に呼び出します。SWE-Bench Pro 73.7 で Opus 4.8 超えを主張する一方、HLE では劣後、と慎重な公式表現。

最も重要な戦略的論点は、Fugu の本質的価値が性能ではなく構造的レジリエンス にある点。2026年5月の Claude Fable 5 輸出規制停止 precedent を直接の motivation として、単一ベンダー依存・輸出規制・APIキー漏洩のリスクを構造的に分散 する設計です。Clanker Cloud の 「Model Orchestration Is Becoming the Product」 という表現が本質を捉えています。

日本企業の実務では、(1) マルチベンダー戦略の単一ゲートウェイ、(2) [Loop Engineering](../columns/loop-engineering-ai-agent-paradigm-2026-06) の Maker-Checker を製品で実装、(3) コーディング特化案件で Fugu Ultra の PoC という3つのユースケースが現実解。一方で 「外部 API への薄いラッパー」批判の余地、レート制限実態の不透明性、HLE 劣後、EU/EEA 提供外 といった留保があり、PoC での実測が必須です。

References

公式（一次ソース）: - Sakana AI 公式 fugu-release - Sakana AI 公式製品ページ - Sakana AI コンソール - Sakana AI 公式 - Sakana AI Blog - Hugging Face SakanaAI - David Ha X - Llion Jones X 第三者報道: - gihyo.jp — Sakana Fugu 解説 - GIGAZINE — Sakana Fugu Multi-Agent System - ビジネス+IT（SBBit） - XenoSpectrum — オーケストレーション解説 - Dealroom - ClassMethod DevelopersIO - StartupHub.ai - BuildFastWithAI — Routes Around Export Controls - Clanker Cloud — Model Orchestration Is Becoming the Product - talentcloud.jp 関連コラム: - PLaMo 3.0 Prime（同日リリース） - Sakana Marlin 自律研究エージェント - Claude Fable 5 輸出規制停止 - Loop Engineering - Kimi K2.7-Code - Liquid AI 日本語特化2モデル注記: Fugu 本体パラメータ数、日本語ベンチ（ELYZA / JMMLU / JMT-Bench）数値、David Ha / Llion Jones / Yi Tay 本人発言、GENIAC / NEDO 関連、追加調達ラウンドの公式情報は2026年6月22日時点で公式・第三者ともに確認できず。本格採用前に Sakana AI 公式ブログで最新情報を再確認してください。

お気軽にご相談ください

お問い合わせ