株式会社オブライト
AI2026-06-10

Apple AFM Core Advanced 完全解説 — 20B Sparse MoEがiPhoneをオンデバイスAIの最前線へ

WWDC 2026で発表されたApple第3世代Foundation Models(AFM 3)のフラッグシップ、AFM Core Advanced。20Bパラメータ Sparse MoEとApple独自のIFP技術により、iPhone 17 Proでフロンティア級の推論がオフライン完結。アーキテクチャの革新点、A19 Pro仕様、対応デバイスの制限、Gemini distillationをめぐる「完全Apple製」論争まで、ITコンサルの視点から徹底解説します。


TL;DR

Apple は 2026年6月8〜9日の WWDC 2026 で第3世代 Apple Foundation Models(AFM 3)を正式発表した。ファミリー中のフラッグシップ、AFM 3 Core Advanced は 20B 総パラメータの Sparse MoE モデルで、推論時にアクティブになるのは 1〜4B のみ。独自技術 IFP(Instruction-Following Pruning)によって prefill 時にエキスパートを選択・ロックし、モデル全体を NAND フラッシュに置きつつ選択済みエキスパートだけを DRAM に展開する。12GB RAM を搭載した iPhone 17 Pro / Pro Max(A19 Pro)、iPad(M4 以降)、Mac(M3 以降)、Apple Vision Pro(M5)でのみ動作し、iPhone 16・iPhone 15 Pro は非対応。アーキテクチャと推論ランタイムは完全 Apple 独自設計だが、事後訓練では Gemini フロンティアモデルの出力をティーチャー信号として使用していることが Amar Subramanya 副社長により認められている。詳しくは Apple ML Research の公式解説 を参照のこと。

WWDC 2026 で発表された第3世代 AFM ファミリー全体

第3世代 AFM は 5 モデル構成で、用途に応じてオンデバイスとサーバ側に分かれる。 オンデバイス系 - AFM 3 Core(約 3B Dense)— iPhone 16 以降・M シリーズ iPad/Mac に広く対応 - AFM 3 Core Advanced(20B Sparse MoE)— 本コラムの主題 サーバ系 - AFM 3 Cloud — 汎用テキスト処理 - AFM 3 Cloud (Image) — 画像理解対応 - AFM 3 Cloud Pro — 高度な推論タスク向けフラッグシップ オンデバイス 2 モデルは Private Cloud Compute を経由せずデバイス単体で完結し、サーバ系 3 モデルは Apple のプライベートクラウド、もしくは後述の Google Cloud 上 NVIDIA GPU で処理される。Craig Federighi(SVP Software Engineering)と Amar Subramanya(VP AI)が陣頭指揮を執り、今回の世代交代を発表した。

AFM Core Advanced の革新 — 20B Sparse MoE

AFM 3 Core Advanced が従来のオンデバイスモデルと一線を画す最大の要因は Sparse Mixture-of-Experts(Sparse MoE) アーキテクチャの採用だ。総パラメータ数は 20B だが、1 リクエストにつきアクティブになるのは 1〜4B のみ であり、密な 20B モデルを動かすのに必要な計算資源の 5〜20 分の 1 しか消費しない。 これにより、モデルの「知識容量」は大型モデル相当に保ちながら、推論レイテンシと発熱をスマートフォンが許容できる水準に抑えることを可能にした。さらにネイティブ・マルチモーダル対応(音声・Visual・ディクテーション)を最初から組み込んでいる点も AFM 3 Core(テキスト中心)との大きな差別化ポイントである。詳細は Apple ML Research 公式ページ で公開されている。

IFP(Instruction-Following Pruning)の技術的意味

Apple が AFM 3 Core Advanced に組み込んだ独自技術が IFP(Instruction-Following Pruning) だ。一般的なモデル枝刈りはランダムまたは勾配ベースでパラメータを削除するが、IFP は『命令への追従能力』を保護基準として枝刈りを行う。 具体的には、指示文(Instruction)に対するモデルの応答精度が劣化しないよう監視しながらエキスパートを選択的に刈り込む。結果として、一般的知識の再現よりも『ユーザーの意図を正確に汲む』能力を優先したコンパクトなエキスパート構成が得られる。Siri の応答品質や Writing Tools の文脈理解がシームレスに感じられる設計的根拠はここにある。

通常 MoE との違い — NAND 常駐から DRAM ロックへ

Mixtral などで知られる一般的な MoE は トークンごとにゲートネットワークがエキスパートを動的選択 する。このアプローチはサーバ環境では有効だが、スマートフォンでは数ミリ秒おきにエキスパートを DRAM へ出し入れする I/O コストが致命的になる。 AFM 3 Core Advanced はこれを根本から変えた。 1. モデル全体(20B)は NAND フラッシュ に常駐する 2. プロンプトの prefill フェーズ でタスク特性を解析し、使用するエキスパートセット(1〜4B 分)を一度だけ選択・ロック 3. 選択済みエキスパートを DRAM に展開し、トークン生成が完了するまでそのまま保持 この『prefill ロック』戦略により、推論中の NAND-DRAM 間転送がゼロになり、A19 Pro の DRAM 帯域(76.8 GB/s)を余すところなくトークン生成に充てられる。MacStories の技術解説 でもこの点は詳しく取り上げられている。

対応デバイス — 12GB RAM が必須ライン

AFM 3 Core Advanced の動作要件として Apple が明示しているのは 12GB RAM だ。これを満たすデバイスは現時点で以下の通り。 - iPhone 17 Pro / Pro Max(A19 Pro、12GB RAM) - iPhone Air(詳細は Apple 発表準拠) - iPad(M4 以降) - Mac(M3 以降) - Apple Vision Pro(M5) 一方、iPhone 16(8GB RAM)と iPhone 15 Pro(8GB RAM)は非対応 となっている。2024〜2025 年に業務端末を iPhone 16 Pro に統一した企業は、AFM Core Advanced を活用するためには iPhone 17 Pro への再刷新が必要になる。この点は日本企業にとって予算・調達サイクル両面で無視できない制約だ。Appleosophy の詳報 も参照されたい。

A19 Pro チップ仕様

AFM 3 Core Advanced の性能を支えるのが iPhone 17 Pro に搭載された A19 Pro だ。主な仕様は以下の通り。 - プロセスノード: TSMC N3P(3nm) - CPU: 6 コア(パフォーマンスコア最大 4.26 GHz) - GPU: 6 コア(Neural Accelerators 内蔵、A18 Pro 比 最大 4× GPU 演算性能) - Neural Engine: 16 コア - RAM: 12GB LPDDR5X(メモリ帯域 76.8 GB/s) 特筆すべきは GPU に内蔵された Neural Accelerators だ。専用のニューラルエンジンとは別に GPU コア自体が AI 演算を加速する構造で、Sparse MoE の並列エキスパート計算に対して高い相性を持つ。Apple iPhone 17 Pro 公式仕様 および Notebookcheck の A19 Pro 詳細 も参照のこと。

'Fully Apple Designed' の実態 — アーキテクチャは独自、訓練は Gemini Distillation

WWDC 2026 の基調講演で Craig Federighi は 'Google Assistant の使用量はゼロ' と明言し、AFM が完全 Apple 独自設計であることを強調した。アーキテクチャ(モデル構造)と推論ランタイム(デバイス側の実行基盤)については確かに Apple 独自 であり、これは公式確認済みの事実だ。 しかし Amar Subramanya 副社長は、事後訓練(post-training)において Gemini フロンティアモデルの出力をティーチャー信号として使用する knowledge distillation を行っていることを認めた。これは LLM 開発では一般的な手法で、大型モデルの応答をラベルとして小型モデルを訓練することで、限られたパラメータ数でも高品質な応答が得られる。MacRumors の報道 および MacObserver の詳報 が事実関係を整理している。 要約すると「モデル設計・推論コードは Apple 独自。ただし訓練データの一部は Gemini 出力由来」という構図だ。9to5Mac の Federighi インタビュー も合わせて参照されたい。

NVIDIA GPU 採用 — Google TPU 不使用を強調

AFM 3 Cloud Pro など、サーバ側の高度推論タスクは Google Cloud 上の NVIDIA GPU で処理される。Apple と Google の多年契約(2026年1月12日締結)に基づく提携だが、Apple は Google TPU ではなく NVIDIA GPU を使用している点を明確にしている。これは Google 自身の AI インフラへの依存ではなく、クラウドリソースとしての Google Cloud を選択したことを意味する。 CNBC の報道 によれば、この構成はベンダーロックインを最小化しつつ NVIDIA の高 TFLOPS GPU でサーバ推論を最適化する狙いがあるとされている。オンデバイス処理(AFM 3 Core / Core Advanced)はもちろん Google Cloud とは完全に独立しており、プライバシーへの影響はない。

対応 Apple Intelligence 機能

AFM 3 Core Advanced が稼動することで解放される主な Apple Intelligence 機能は以下の通り。 - Expressive Voices(表情豊かな合成音声): 感情のニュアンスを持つカスタマイズ可能な音声合成 - 高精度ディクテーション: 長文・専門用語に強い音声入力 - 新 Siri(iOS 27 の Siri AI): コンテキスト保持・マルチステップ指示に対応した次世代アシスタント - Visual Intelligence の強化: 画像・動画をリアルタイムに解析するオンデバイス視覚理解 - Writing Tools 強化版: より長い文脈での文章生成・リライト - 将来のエージェント機能: アプリをまたいだタスク自動化(ロードマップ段階) これらの機能は AFM 3 Core では部分的にしか動作せず、Core Advanced があって初めてフルスペックで利用できる。

競合との比較 — Gemma 4 / LFM2.5 / Phi-5 との位置づけ

Apple の公式ベンチマークでは、AFM 3 Core(3B Dense)が Qwen-2.5-3B・Gemma-3-4B・Gemma-3n-E4B を MMLU・MMMLU で上回る と主張している。 一方、AFM 3 Core Advanced(20B Sparse MoE)と他のオンデバイス系モデルとの直接比較は 公式ドキュメントに記載がない。比較対象として挙げられることが多い Gemma 4 12B(Google DeepMind のエンコーダーフリーマルチモーダルモデル)、Liquid AI の LFM2.5(日本語特化モデル含む)、Microsoft Phi-5 などとの比較は独立した第三者ベンチマーク待ちの状況だ。Gemma 4 性能比較コラム も参照されたい。 Sparse MoE の構造的利点として、20B の知識容量を保ちながら 4B 相当の計算コストで推論できる点は他の競合モデルにはない強みであり、デバイス制約さえクリアできれば質・速度のバランスは優れている。

日本企業の業務利用での意義

AFM 3 Core Advanced がオンデバイスで完結することは、日本の企業にとって以下の実務的意義を持つ。 プライバシー・法令対応 改正個人情報保護法や医療情報保護ガイドラインでは PII(個人識別情報)の外部送信に高いハードルが課される。AFM 3 Core Advanced はテキスト・音声・画像をクラウドに送ることなく処理できるため、医療記録の音声入力、法務文書の要約、金融ヒアリングのリアルタイム文字起こしといったユースケースを法的リスクなく実現しやすくなる。 業務端末刷新サイクルの課題 ただし動作要件が iPhone 17 Pro(12GB RAM)以上である点は無視できない。多くの日本企業が 2024〜2025 年に iPhone 16 Pro へ移行したばかりであり、わずか 1〜2 世代でさらなる刷新を求められることになる。フィールドワーカー向けツールの導入を検討している場合は、端末調達計画と AFM Core Advanced 活用の ROI を慎重に試算する必要がある。 日本語対応の不確実性 公式には日本語サポートの展開時期が明記されていない。英語圏での先行ローンチ後に他言語が段階的に追加される Apple のパターンから、日本語対応は 2026 年秋〜2027 年春になる可能性が高い。IT コンサルとして自社クライアントに提案する際は、この時間軸も考慮したロードマップ作成を推奨する。詳しくは AI コンサルティングサービス もご参照いただきたい。

公式に確認できなかった事項

本コラム執筆時点(2026年6月10日)において、以下の情報は公式ソースで確認できていない。 - AFM 3 Core Advanced と Gemma 4 12B / LFM2.5 / Phi-5 との直接ベンチマーク比較 - 日本語での AFM 3 Core Advanced の展開時期 - AFM 3 Cloud Pro の詳細なアーキテクチャ仕様 - iOS 27 以外のプラットフォーム(macOS 16 / iPadOS 20)における Core Advanced 機能の段階的公開スケジュール - IFP(Instruction-Following Pruning)の学術論文または詳細な技術文書 これらは今後の Apple のリリースノート・ML Research ブログ・WWDC セッション動画で順次公開されると考えられる。

FAQ

Q1. iPhone 16 Pro でも AFM 3 Core Advanced は使えますか? A. 使えません。iPhone 16 Pro の RAM は 8GB であり、12GB という動作要件を満たしません。iPhone 17 Pro / Pro Max(12GB)以上が必須です。 Q2. AFM 3 Core Advanced はオフラインで完全に動作しますか? A. オンデバイスモデルなので対応デバイス単体でテキスト・音声・Visual 処理が可能です。ただし AFM 3 Cloud Pro などサーバモデルを使う機能はネットワーク接続が必要です。 Q3. Gemini が学習に使われているなら Apple 独自とは言えないのでは? A. モデルのアーキテクチャ・推論ランタイムは Apple 独自設計です。Gemini フロンティアモデルの出力は knowledge distillation のティーチャー信号として使われているに過ぎず、Gemini のコードや重みが AFM に含まれているわけではありません。ただし Apple が 'Fully Apple Designed' と強調する際は、この訓練手法の存在に言及していないという批判は一定程度妥当です。 Q4. 20B のうち 1〜4B しかアクティブにならないなら、モデル品質は落ちませんか? A. Sparse MoE はエキスパートの専門化によって総パラメータ数よりも少ない計算量で高品質な出力を得る設計です。IFP によって命令追従能力を優先したエキスパートが選択されるため、汎用 3B Dense モデルより高い品質を実現できると Apple は主張しています。 Q5. 医療・法務用途でのデータ漏洩リスクはゼロですか? A. AFM 3 Core Advanced でオンデバイス処理する限り、テキスト・音声データは外部に送信されません。ただしアプリが自社サーバにデータを送信する場合はアプリ側の実装によります。また AFM 3 Cloud Pro を使う機能はクラウド処理になる点に注意が必要です。 Q6. 日本語での利用はいつから可能になりますか? A. 公式には未発表です。Apple Intelligence の日本語対応は過去にも英語から数ヶ月〜1年遅延する傾向があり、AFM 3 Core Advanced の日本語サポートは 2026 年秋〜2027 年春になる可能性が高いと見ています。 Q7. 企業として AFM を活用した iOS アプリを開発できますか? A. Apple Intelligence 関連の API は現時点で一般公開されていません。将来的に Apple が開発者向け API を提供する可能性はありますが、2026 年 6 月時点では Apple 自身のシステムアプリ(Siri・Writing Tools 等)への組み込みが中心です。Forward Deployed Engineer の視点からも将来の展開を見守る必要があります。 Q8. Sparse MoE を社内 LLM に採用するメリットはありますか? A. エンタープライズでオンプレミス LLM を運用する場合、Sparse MoE は同等の Dense モデルより低コストで高品質な推論を実現できます。Argent × Gemma 4 のオンデバイスエージェント事例 も参考にしてください。

まとめ

AFM 3 Core Advanced は、オンデバイス AI の質・速度・プライバシーを同時に追求した Apple の技術的回答だ。20B Sparse MoE + IFP + prefill ロック戦略という組み合わせは、サーバ専用と思われていたフロンティア級の推論体験をスマートフォンに持ち込む設計哲学の結晶と言える。 ただし日本企業の視点では、12GB RAM 必須という制約が既存端末フリートを一部陳腐化させること、日本語対応の展開時期が未確定であること、IFP を含む訓練技術の詳細が未公開であることなど、注意すべき不確実性も多い。 AFM 3 Core Advanced を業務活用する際は、端末刷新コスト・日本語対応の時間軸・クラウド処理が必要な機能との使い分けを整理した上で投資判断を行うことを推奨する。詳細な導入検討については AI コンサルティングサービス にご相談いただきたい。

References

お気軽にご相談ください

お問い合わせ