株式会社オブライト
AI2026-06-22

Sakana Fugu 徹底解説 — 2026年6月22日 Sakana AI が公開した『LLM を呼び出すために学習された LLM』、GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro を内部で動的オーケストレーション、ICLR 2026 採択の TRINITY / Conductor が基盤、SWE-Bench Pro 73.7 で Opus 4.8 超え主張、Fugu / Fugu Ultra 2モデル + サブスク $20/$100/$200、EU/EEA は GDPR 対応中で提供外

Sakana AI が2026年6月22日に Sakana Fugu を正式リリース しました(公式 fugu-release / 製品ページ / gihyo.jp / GIGAZINE)。従来想定される『次世代日本語 LLM』ではなく、複数 LLM を内部で動的にオーケストレーションする『指揮者』型モデル で、ユーザーのクエリを受けると Fugu 本体が (1) 自前で解ける場合は直接応答、(2) 複雑なマルチステップタスクは GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro などのエージェントプールから動的にモデルを選定・委任・検証・統合 します。学術基盤 は ICLR 2026 採択論文の TRINITY(進化的に最適化された LLM 協調器、Thinker/Worker/Verifier 役割割当)Conductor(強化学習により自然言語での協調戦略を発見) の2本。2モデル提供: 日常タスク・低レイテンシ用 Fugu と最難問・深い協調用 Fugu Ultra(プール構成固定で除外不可)。ベンチマーク: SWE-Bench Pro 73.7 で Claude Opus 4.8 等のフロンティアモデル超え(XenoSpectrum 報道)、Terminal-Bench 2.1 で Anthropic 最新超え、Charxiv Reasoning で Claude Mythos Preview 超え、ただし Humanity is Last Exam (HLE) では劣後。公式表現は「Fable 5 / Mythos Preview と shoulder-to-shoulder」で慎重。価格: Fugu Ultra 入力 $5/M(標準)・$10/M(272K 超)、出力 $30/M・$45/M(272K 超)、サブスクは Standard $20 / Pro $100 / Max $200 per month(Fugu/Ultra 両方利用可)、エンタープライズは使用量ベース。OpenAI 互換 API(console.sakana.ai)。EU/EEA は GDPR 準拠作業中で提供外、日本リージョン利用可。戦略的価値は性能ではなく構造的レジリエンス — 単一ベンダー依存からの脱却、輸出規制リスク分散(Sakana Marlin 解説の Fable 5 輸出規制 precedent と地続き)。BuildFastWithAI は「export controls を回避するモデル」と評価、Clanker Cloud は「Model Orchestration Is Becoming the Product」と表現。Fugu 本体パラメータ数・日本語ベンチ(ELYZA / JMMLU / JMT-Bench)数値・David Ha / Llion Jones 個別発言は未確認で、API 薄ラッパー批判の余地と独立検証は今後の論点。


TL;DR — Sakana Fugu を一言で

Sakana AI が2026年6月22日に Sakana Fugu を正式リリース しました(公式 fugu-release / 製品ページ)。

最も重要な点: Sakana Fugu は 従来想定される『次世代日本語 LLM』ではなく、複数 LLM を内部で動的にオーケストレーションする『指揮者』型モデル です。「LLM を呼び出すために学習された LLM」(an LLM trained to call other LLMs)という新しいカテゴリです。

4つの要点:

1. オーケストレーション・モデルという新カテゴリ — Fugu 本体がエージェントプール(GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro 等)から動的にモデルを選定・委任・検証・統合 2. ICLR 2026 採択論文が学術基盤 — TRINITY(進化的に最適化された LLM 協調器)+ Conductor(RL で協調戦略を発見) 3. 2モデル提供 — 日常用 Fugu と最難問用 Fugu Ultra 4. 戦略的価値は性能ではなく構造的レジリエンス — 単一ベンダー依存・輸出規制リスクからの脱却

本コラムは Sakana Marlin 自律研究エージェント解説Claude Fable 5 輸出規制停止PLaMo 3.0 Prime(同日リリース) と並ぶ「2026年6月22日の Sakana AI × 国産 AI 戦線」整理として位置づけられます。

リリース概要 — 「Fugu = 指揮者」という発想転換

項目内容
正式発表日2026年6月22日(GA:正式提供開始)
提供形態OpenAI 互換 API + サブスクリプション(console.sakana.ai
モデル構成Fugu(日常タスク・低レイテンシ用)/ Fugu Ultra(最難問用・深い協調)
学術基盤ICLR 2026 採択論文 TRINITY および Conductor の2本
Sakana Marlin との関係Marlin(2026年6月初頭発表の自律研究エージェント)とは別系統。Fugu は「複数モデルを束ねる司令塔」で、Marlin のようなエージェントを内部で呼び出す将来像が示唆

命名理由: 「フグ=Fugu」について、公式リリース文・GIGAZINE・gihyo いずれも 明示的な説明は載せていません。Sakana AI が継続している「日本の魚名」シリーズ(Sakana、Marlin に続く命名)と整合する点のみが事実として確認できます。

アーキテクチャ — 「LLM を呼び出すために学習された LLM」

Fugu は 「LLM を呼び出すために学習された LLM」 です。ユーザーのクエリを受け取ると、Fugu 本体が以下のいずれかを実行します:

- 自前で解ける場合は直接応答(recursive self-call も可) - 複雑なマルチステップタスクの場合は、エージェントプールから外部 LLM を選定・委任・検証・統合

エージェントプールには以下が含まれます(gihyo 明記):

- GPT-5.5(OpenAI) - Claude Opus 4.8(Anthropic) - Gemini 3.1 Pro(Google DeepMind) - その他複数のフロンティア・クローズドモデル + オープンモデル

ユーザーは コンプライアンス要件に応じてプールから特定プロバイダ/モデルを除外 可能(例: 中国系モデル除外、EU データ転送制限)。ただし Fugu Ultra はプール構成が固定で除外不可。最大性能を出すための固定構成です。

[Loop Engineering](../columns/loop-engineering-ai-agent-paradigm-2026-06) の文脈: Fugu は Outer Loop の Orchestrator として動作し、Inner Loop は外部 LLM が回す。Maker / Checker の分離(生成と検証を別モデルに)が組み込まれており、Loop Engineering の Maker-Checker パターンを 製品レベルで実装 した例。

学術基盤 — TRINITY と Conductor(ICLR 2026 採択)

TRINITY(ICLR 2026 採択論文): 進化的に最適化された LLM 協調器。Thinker / Worker / Verifier の役割を複数 LLM に動的に割り当て、コーディング・数学・推論・知識タスクを横断的に分担させる仕組み。

Conductor(ICLR 2026 採択論文): 強化学習により、自然言語での協調戦略(エージェント間通信パターンと専用プロンプト)を発見させる手法。Sakana AI の Evolutionary Model Merge / DiscoPOP の系譜上にあります。

単体パラメータ数: Fugu 本体は「オーケストレータ LLM」として動作しますが、パラメータ数は公式に未開示。これは「単体性能ではなく協調性能で勝負する」という設計意図を反映しています。

コンテキスト長: API 料金体系で 272K トークン超 に異なるレートが設定されており、272K 超の長文脈に対応することは公式価格表から読み取れます。

ベンチマーク — フロンティア級と shoulder-to-shoulder、ただし全面勝利ではない

公式・二次ソースから確認できた具体数値:

ベンチマークFugu Ultra比較対象ソース
SWE-Bench Pro73.7Claude Opus 4.8 等のフロンティアモデルを上回ると報じられるXenoSpectrum
Terminal-Bench 2.1Anthropic 最新モデル超コーディングビジネス+IT
Charxiv ReasoningClaude Mythos Preview 超複雑グラフ読解ビジネス+IT
Humanity is Last Exam (HLE)劣後広範な学術知識ビジネス+IT

公式の表現は概ね「Fable 5 および Mythos Preview と shoulder-to-shoulder(肩を並べる)」というもので、「全面的圧勝」ではなく「フロンティア級と同等〜一部上回る」という慎重な主張に留まっています。

日本語ベンチ(ELYZA-tasks-100 / JMMLU / Japanese MT-Bench)の数値は、公式・gihyo・GIGAZINE・SBBit のいずれにも掲載されていません。日本語特化を売りにしたモデルではなく、汎用協調モデル としての位置付けと判断するのが妥当。日本特化を求めるなら PLaMo 3.0 PrimeLiquid AI LFM2.5-J と比較すべきです。

配布・ライセンス・価格

配布形態:

- クローズド/API のみ — Hugging Face でのオープンウェイト公開は確認されず - OpenAI 互換エンドポイント — 既存ツール(Claude Code 互換クライアント、Cursor、Aider 等)との接続容易 - コンソール: console.sakana.ai

Fugu Ultra トークン課金:

項目標準272K 超
入力$5 / M tok$10 / M tok
出力$30 / M tok$45 / M tok

サブスクリプション(個人):

- Standard $20/月 - Pro $100/月 - Max $200/月

いずれも Fugu / Fugu Ultra 両方利用可。Claude Pro / Max と同価格帯ですが、実質的に GPT-5.5 / Opus 4.8 / Gemini 3.1 Pro を $20-200 で束ねて使える という構造になります。

エンタープライズ: 使用量ベース(モデル稼働状況とエージェント数に連動)。

地域制約: EU/EEA 加盟国では提供されない(GDPR 準拠作業中、公式 fugu ページに明記)。日本リージョンは利用可能

戦略的価値 — 「性能」ではなく「構造的レジリエンス」

本リリースの最も重要な戦略的論点は、Fugu の本質的価値提案が性能ではなく構造的レジリエンス であることです。

輸出規制・地政学リスク回避: 公式・XenoSpectrum・BuildFastWithAI が一致して強調するのが「単一ベンダー依存からの脱却」「export control のリスク分散」。2026年5月の Claude Fable 5 / Mythos 5 が米政府輸出規制で突然停止 という事件は、単一ベンダー依存リスクが現実になった precedent。Fugu はこの precedent を直接の motivation として設計されています。

市場ポジショニング: 「単一の最強モデル」競争から降りて「メタ・モデル」のレイヤーで戦う戦略。Clanker Cloud「Model Orchestration Is Becoming the Product」 と表現。

David Ha / Llion Jones の発言: 公式リリース文書には署名コメントは載っていますが、調査範囲のソース(gihyo・GIGAZINE・SBBit・XenoSpectrum)には引用可能な具体発言は抽出できませんでした。X 公式(@hardmaru@lliondj)は要追加確認。

GENIAC・NEDO・経産省・SoftBank ラウンド: 今回の Fugu リリース告知では明示的言及なし。SoftBank の $1.5B ラウンドに関する更新情報も本リリースでは触れられていません。

リスク・批判・留保

1. 「外部 API への薄いラッパー」批判の余地 — Fugu はオーケストレーション層であり、エンドのコストは結局 GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro のトークン課金に依存する可能性が高い。サブスク $20/月で Opus 4.8 級の出力が常時得られるなら破格だが、レート制限・公平利用ポリシーの実態は GA 後の検証待ち。 2. 独立ベンチ検証 — 公開直後(リリースから本稿執筆まで数日)であり、第三者による再現ベンチは ClassMethod の試用レポート程度に留まる。 3. HLE での劣後 — 広範な学術知識タスクではフロンティアモデルに及ばず、得意分野(コーディング・推論協調)と不得意分野の差が明瞭。 4. 「進化的マージ」系の再現性論争 — 過去の Evolutionary Model Merge への学術界からの懐疑は依然として残り、TRINITY の "evolved" 部分への独立検証は今後の論点。 5. EU/EEA 提供外 — GDPR 準拠作業完了まで、EU 拠点組織は利用不可。 6. 日本語ベンチ未公開 — 日本特化を売りにしないので想定通りだが、国産 LLM としての訴求は弱い。

推奨運用パターン(オブライト視点)

オブライトの AI コンサルティング / ソフトウェア開発 で日本企業に推奨するのは、性能ではなく構造的レジリエンスを買う という視点での導入:

ユースケース1: マルチベンダー戦略の単一ゲートウェイ 複数の海外 LLM をすでに併用している組織で、契約・課金・モニタリングを Fugu に集約。輸出規制・APIキー漏洩・ベンダーロックインのリスクを Fugu の OpenAI 互換 API レイヤーで吸収。

ユースケース2: Loop Engineering の Maker-Checker を製品で実装 Loop Engineering の Maker-Checker パターンを自前で組まずに Fugu に任せる。Thinker / Worker / Verifier が論文ベースで実装済み。

ユースケース3: コーディング特化案件で Fugu Ultra SWE-Bench Pro 73.7 / Terminal-Bench 2.1 で Opus 4.8 超えと主張されている領域。実プロジェクトで PoC を回して数値を確認することが必須。

避けるべき用途: - 学術知識タスク(HLE で劣後) - EU 拠点組織(GDPR 提供外) - 機微情報を伴う日本国内案件(エージェントプール経由で海外モデルが呼ばれるため、データ越境論点は PLaMo 3.0 Prime と同水準の精査が必要)

FAQ

Q1. Sakana Fugu は日本語特化 LLM ですか? A. 違います。汎用オーケストレーション・モデルで、日本語特化を売りにしていません。日本語特化が必要なら PLaMo 3.0 PrimeLiquid AI LFM2.5-J を選ぶべきです。

Q2. 「LLM を呼び出すために学習された LLM」とはどういう意味ですか? A. Fugu 自身も LLM ですが、その学習目的が「ユーザークエリに直接答える」のではなく「どの外部 LLM をどう呼び出して問題を解かせるかを決める」ことに最適化されています。TRINITY 論文で Thinker / Worker / Verifier の役割を動的に割り当てる仕組みが学術的根拠。

Q3. サブスク $20/月で Claude Opus 4.8 並みの性能が出るって本当? A. 構造的にはエージェントプールが Opus 4.8 を含むので可能。ただし レート制限・公平利用ポリシー の実態が公開直後で不透明。$20/月で Opus 4.8 を無制限に使えるわけではなく、Fugu の判断で「Opus 4.8 を呼ぶべきか、自分で答えるか、もっと軽いモデルに任せるか」が決まる。実コストの肌感は GA 後の検証待ち。

Q4. プールから特定モデルを除外できますか? A. Fugu(通常版)では可能 — コンプライアンス要件(中国モデル除外、EU データ転送制限等)に応じて除外設定可。Fugu Ultra ではプール構成固定で除外不可。最大性能のための固定構成です。

Q5. EU で使えますか? A. 使えません。GDPR 準拠作業中のため EU/EEA 提供外。日本リージョン・米国・APAC は利用可能。

Q6. Claude Fable 5 の輸出規制停止との関係は? A. 直接的な precedent / motivation です。2026年5月に Claude Fable 5 / Mythos 5 が米政府輸出規制で突然停止 した事件で「単一ベンダー依存のリスク」が現実化。Fugu は「もし Claude が止まっても自動的に GPT / Gemini に切り替わる」設計になっており、輸出規制・APIキー無効化・障害への構造的耐性が訴求点。

Q7. Sakana Marlin との関係は? A. 別系統Sakana Marlin は自律研究エージェント、Fugu はモデル指揮者。両者は補完関係で、Fugu の将来像として「Marlin のようなエージェントを Fugu のプール内で呼び出す」連携が示唆されています。

Q8. PLaMo 3.0 Prime(同日リリース)との関係は? A. コンセプトが全く異なるPLaMo 3.0 Prime は単体の国産日本語 LLM、Fugu は複数 LLM を束ねるオーケストレーション・モデル。直接競合ではない — むしろ将来的に Fugu のプールに PLaMo を組み込むという連携可能性もあり得ます。2026年6月22日に同日リリースとなったのは偶然と思われます。

まとめ

Sakana Fugu は 2026年6月22日にリリースされた、AI 業界の新カテゴリ『オーケストレーション・モデル』 の最先端例です。「LLM を呼び出すために学習された LLM」 という新しい設計思想で、ICLR 2026 採択論文 TRINITY / Conductor を学術基盤に、GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro を内部で動的に呼び出します。SWE-Bench Pro 73.7 で Opus 4.8 超えを主張する一方、HLE では劣後、と慎重な公式表現。

最も重要な戦略的論点は、Fugu の本質的価値が性能ではなく構造的レジリエンス にある点。2026年5月の Claude Fable 5 輸出規制停止 precedent を直接の motivation として、単一ベンダー依存・輸出規制・APIキー漏洩のリスクを構造的に分散 する設計です。Clanker Cloud の 「Model Orchestration Is Becoming the Product」 という表現が本質を捉えています。

日本企業の実務では、(1) マルチベンダー戦略の単一ゲートウェイ(2) [Loop Engineering](../columns/loop-engineering-ai-agent-paradigm-2026-06) の Maker-Checker を製品で実装(3) コーディング特化案件で Fugu Ultra の PoC という3つのユースケースが現実解。一方で 「外部 API への薄いラッパー」批判の余地、レート制限実態の不透明性、HLE 劣後、EU/EEA 提供外 といった留保があり、PoC での実測が必須です。

References

公式(一次ソース): - Sakana AI 公式 fugu-release - Sakana AI 公式 製品ページ - Sakana AI コンソール - Sakana AI 公式 - Sakana AI Blog - Hugging Face SakanaAI - David Ha X - Llion Jones X 第三者報道: - gihyo.jp — Sakana Fugu 解説 - GIGAZINE — Sakana Fugu Multi-Agent System - ビジネス+IT(SBBit) - XenoSpectrum — オーケストレーション解説 - Dealroom - ClassMethod DevelopersIO - StartupHub.ai - BuildFastWithAI — Routes Around Export Controls - Clanker Cloud — Model Orchestration Is Becoming the Product - talentcloud.jp 関連コラム: - PLaMo 3.0 Prime(同日リリース) - Sakana Marlin 自律研究エージェント - Claude Fable 5 輸出規制停止 - Loop Engineering - Kimi K2.7-Code - Liquid AI 日本語特化2モデル 注記: Fugu 本体パラメータ数、日本語ベンチ(ELYZA / JMMLU / JMT-Bench)数値、David Ha / Llion Jones / Yi Tay 本人発言、GENIAC / NEDO 関連、追加調達ラウンドの公式情報は2026年6月22日時点で公式・第三者ともに確認できず。本格採用前に Sakana AI 公式ブログ で最新情報を再確認してください。

お気軽にご相談ください

お問い合わせ