AI2026-06-23

ローカル LLM 2026年6月最新版 — 4月版からの差分整理：GLM-5.2 が OSS 首位（Intelligence Index v4.1 で 51 点）、MiniMax M3 が 1M context + SWE-Bench Pro 59%、NVIDIA Nemotron 3 Ultra 550B、Blackwell ネイティブ MXFP4 で RTX 5090 が 30-70B 実用域、日本ではインテック ¥5M〜の SI、リコーオンプレ LLM スターターキットが日経最優秀賞、PFN PLaMo + デジタル庁『源内』採用、EU AI Act 2026-08-02 施行迫る

2026年4月に公開したローカル LLM 徹底比較コラムから2ヶ月、何が変わったか を一次ソース中心に整理した最新版です。3つの大変化: (1) OSS 性能がクローズドと肉薄 — GLM-5.2（Z.ai、MIT、2026-06-16）が Intelligence Index v4.1 で 51 点（MiniMax M3 44 / DeepSeek V4 Pro 44 / Kimi K2.6 43 を抜いて OSS 首位）、MiniMax M3 が 1M context・ネイティブマルチモーダル・SWE-Bench Pro 59.0%・Terminal-Bench 2.1 66.0%・MCP Atlas 74.2%、NVIDIA Nemotron 3 Ultra（Computex 2026 で Jensen Huang 発表、550B パラメータ、米国 OSS 首位）、VibeThinker-3B（WeiboAI、MIT、Qwen2.5-Coder-3B fine-tune、3B で frontier reasoner 並み）。(2) Blackwell でコンシューマ GPU が 30-70B 実用域 — RTX 5090 は 32GB GDDR7・1,792 GB/s 帯域（4090 比 +77%）・ネイティブ MXFP4 で GGUF Q4 を emulation 0 で実行可、Qwen 2.5-Coder-7B で 5,841 tok/s（batch 8、A100 80GB の 2.6 倍）、RTX PRO 6000 Blackwell は 30B モデルで ~8,425 tok/s、B200 は 192GB HBM3e・8 TB/s・H100 比 4-5 倍。(3) 日本企業の SI 化が本格化 — インテック（TIS グループ）が2026-01-29 から ローカル LLM 導入支援 SI、最短1ヶ月・参考価格 ¥5,000,000〜、リコー「RICOH オンプレ LLM スターターキット」が2025年日経優秀製品・サービス賞最優秀賞受賞（Qwen2.5-VL-32B-Instruct ベース）、PFN PLaMo 3.0 Prime がデジタル庁『源内』採用、Mizuho / Lion の Qwen 国内ファインチューン precedent と並ぶ。さらに Kimi K2.7-Code・Sakana Fugu・DiffusionGemma・Liquid AI LFM2.5-J など同時期の動きも整理。推論エンジン選定（AWQ + vLLM = GPU 最速、GGUF + llama.cpp = CPU/エッジ、SGLang = エージェント、TensorRT-LLM = NVIDIA クラスタ）、量子化（BitNet 1.58-bit / MXFP4 / AWQ）、規制動向（EU AI Act 2026-08-02 施行・systemic risk threshold 10^25 FLOPs、米輸出規制 Fable 5 precedent、中国系のデータ越境）、典型 GPU 構成、オブライト視点の3ステップ導入論まで。記事末尾に ローカル LLM 導入・構築・保守の3つの問い合わせ導線 を設置しています。

Local LLM Open Weight Self-hosted RTX 5090 Blackwell Enterprise AI GLM-5.2 MiniMax M3 Nemotron 3

TL;DR — 2026年4月版から2ヶ月で起きた3つの変化

2026年4月に公開したローカル LLM 徹底比較コラムから2ヶ月、ローカル LLM 市場は大きく動きました。本コラムはその差分整理の最新版です。

3つの大変化:

1. OSS 性能がクローズドと肉薄 — GLM-5.2（Z.ai、2026-06-16、MIT）が Intelligence Index v4.1 で 51 点を獲得し OSS 首位。MiniMax M3 が 1M context + SWE-Bench Pro 59.0%。NVIDIA Nemotron 3 Ultra 550B が米国 OSS の旗手に。 2. Blackwell でコンシューマ GPU が 30-70B 実用域 — RTX 5090 のネイティブ MXFP4 サポートで GGUF Q4 が emulation 0、Qwen 2.5-Coder-7B で 5,841 tok/s。コンシューマ機材で本番に近い性能が出る時代に。 3. 日本企業の SI 市場が本格化 — インテック ¥5M〜の本格 SI、リコーオンプレ LLM スターターキットが日経最優秀賞、PFN PLaMo 3.0 Prime がデジタル庁『源内』採用。

本コラム末尾に、ローカル LLM の導入・構築・保守を弊社へご相談いただくための3つの問い合わせ導線 を用意しています。

2026年4月版からの差分マップ

観点	2026年4月版	2026年6月版
OSS 首位	GLM-5.1 / Kimi K2.5	GLM-5.2（Intelligence Index v4.1 = 51）
長文・マルチモーダル	Gemma 4 E4B / Llama 4 系	MiniMax M3（1M context + ネイティブマルチモーダル）
米国 OSS フラッグシップ	Llama 4 Maverick	NVIDIA Nemotron 3 Ultra（550B）
軽量・推論特化	Gemma 4 E4B	VibeThinker-3B（3B で frontier 並み）
日本語特化	Llama-3.1-Swallow / Stockmark	PLaMo 3.0 Prime（256K、デジタル庁採用）/ Liquid AI LFM2.5-J
コーディング	GLM-5.1 / Kimi K2.5	Kimi K2.7-Code（1T MoE / 32B active）
コンシューマ GPU 上限	RTX 4090（24GB、Q4 で 13B 快適）	RTX 5090（32GB、MXFP4 で 30B 快適、Q3-mixed で 70B）
サーバ GPU	H100 / H200	B200（192GB HBM3e、8 TB/s）/ B300 / GB300 NVL72
日本 SI 市場	黎明期	インテック ¥5M〜、リコー、PFN がメインプレイヤー化
新カテゴリ	—	オーケストレーション・モデル（Sakana Fugu）

2026年6月の主要新リリース

GLM-5.2（Z.ai、2026-06-16、MIT）— OSS 首位を奪取

Z.ai が2026年6月13日にコーディングプラン契約者向けに先行公開、6月16日に MIT ライセンスでオープンウェイト公開（Simon Willison 2026-06-17）。Intelligence Index v4.1 で 51 点を獲得し、MiniMax M3（44）/ DeepSeek V4 Pro（44）/ Kimi K2.6（43）を抜いて OSS 首位。コーディング・エージェント能力が GLM-5.1 から大幅向上し、Nous Research の Hermes Agent には公開数日で統合されました。

重要な意味: 「OSS でクローズドと闘えるのは中国系」というトレンドの強化。MIT ライセンスは商用・改変・再配布が完全自由で、日本企業の自社運用にも法務障壁が低い。一方、Z.ai は北京拠点のためデータ越境論点は中国系 LLM 共通の精査が必要（詳細は Kimi K2.7-Code コラムを参照）。

MiniMax M3（2026年6月）— 1M context + ネイティブマルチモーダル

MiniMax の最新オープンウェイト・モデル（kilo.ai 2026 比較）。1M トークンのコンテキスト、ネイティブマルチモーダル、SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、MCP Atlas 74.2%。前モデル MiniMax M2.5 から大幅進化。

強み: コンテキスト長と画像・動画ネイティブ対応で、社内ドキュメント横断 RAG・長期プロジェクト管理エージェント に適する。GPU メモリ要件は高いが、Blackwell B200 や RTX PRO 6000 + 量子化で実用域。

NVIDIA Nemotron 3 Ultra（2026-06-01、Computex 2026）— 米国 OSS の旗手

Computex 2026 で Jensen Huang が発表（NVIDIA 公式 PDF、NVIDIA Research）。550B パラメータ、米国 OSS では現時点最高性能。Sebastian Raschka は「ultra impressive capability:efficiency ratio（凄まじい性能対効率比）」と評価。

意義: 米国・欧州系の法務調達フレームワークでは「中国系 OSS は使えないが OSS で本番運用したい」需要が根強く、Nemotron 3 Ultra は 米国製 OSS という調達上の安全パイ を提供。輸出規制（後述）の precedent もあり、日本企業の重要案件で 第一候補化 する可能性が高い。

VibeThinker-3B（WeiboAI、2026年6月、MIT）— 3B で frontier 推論並み

arXiv 2606.16140。MIT ライセンス、Qwen2.5-Coder-3B fine-tune、3B パラメータで frontier reasoner 並みの数学・コード性能。

意義: 「small is the new big」が現実化。Apple M5 Mac / RTX 5060・5070 / Snapdragon X Elite Gen 2 等のエッジ機材で frontier 級の推論が動く時代 に入った。コンシューマ用途・組み込み用途・オフライン業務でのインパクトが大きい。

同時期の弊社既出コラムで追える主要新モデル

- Kimi K2.7-Code（2026-06-12、Moonshot AI、1T MoE / 32B active、Modified MIT） - Sakana Fugu（2026-06-22、Sakana AI、オーケストレーション・モデル） - PLaMo 3.0 Prime（2026-06-22、PFN、256K context、Reasoning 2系統、Standard ¥60/¥250） - DiffusionGemma（2026-06、Google、テキスト拡散モデル） - Liquid AI LFM2.5-J（2026-06、日本語特化2モデル）

Intelligence Index v4.1 ランキング — OSS 首位は GLM-5.2

順位	モデル	スコア	ライセンス
1	GLM-5.2	51	MIT
2	MiniMax M3	44	OSS（要詳細確認）
2	DeepSeek V4 Pro	44	DeepSeek License
4	Kimi K2.6	43	Modified MIT
...	...	...	...

観察: 上位はすべて中国系 OSS。米国・欧州系 OSS（Nemotron 3 Ultra、Llama 4、Mistral 系）はベンチでまだ中国勢に半歩遅れ。一方、コーディング特化（SWE-Bench Pro / Terminal-Bench 2.1）の上位 = Kimi K2.7-Code / MiniMax M3 / Sakana Fugu Ultra、長文（LongBench v2）= PLaMo 3.0 Prime / MiniMax M3、推論・数学（AIME 2024 / GPQA-Diamond）= DeepSeek V4 / VibeThinker-3B など、汎用ベンチ1位とユースケース別1位は別 という点が実務上重要。

クローズドとの差: Claude Opus 4.8 / GPT-5.5 / Gemini 3.1 Pro の Intelligence Index は依然として 55-60 点台で、OSS 首位（51）との差は 4-9 点。半年前の差（15 点超）から大幅に縮小。

ハードウェア大変化 — Blackwell が普及して全てが変わった

RTX 5090 — ネイティブ MXFP4 で 30B が実用域

RTX 5090 のスペック: 32GB GDDR7、1,792 GB/s メモリ帯域（RTX 4090 の 1,008 GB/s から +77%）、Blackwell アーキテクチャ。

ネイティブ MXFP4 サポート が革命的（runyard.dev RTX 5090 ガイド）。GGUF Q4 / similar 4-bit 形式が emulation 0 で実行 され、Qwen 2.5-Coder-7B で 5,841 tok/s（batch 8、A100 80GB の 2.6 倍） を達成。LLM 生成はメモリ帯域 bound のため、帯域の向上がそのままトークン/秒に直結。

実用感: 30B クラス（Qwen3.5-30B、Gemma 4 31B、Mistral Small 4）が Q4 量子化でリアルタイム会話速度、70B クラスも mixed quant（Q3-Q4 mix）で実用域。コンシューマ機材で本番に近い性能 が出る時代に。

RTX PRO 6000 Blackwell — シングル GPU 最強

Yotta Labs ベンチによると、RTX PRO 6000 Blackwell は 30B モデルで ~8,425 tok/s（vLLM）、RTX 5090 の約 1.8 倍。VRAM 96GB で 70B を非量子化、120B クラスも Q4 で動かせる。個人 / SMB の本格セルフホストの defacto 標準 になりつつあります。

B200 / B300 / GB300 NVL72 — エンタープライズ標準

B200 は 192GB HBM3e、8 TB/s、H100 比 4-5 倍スループット（最適化時 15 倍）。Llama 3.1 70B が FP16 でシングル GPU に乗り、KV キャッシュ大量保持も可能。

B300（拡張版）と GB300 NVL72（72 GPU rack）が2026年に流通開始。ハイパースケーラーから日本の大手ベンダーへの提供も進行中。

AMD MI350 / Apple M5 / エッジ SoC

AMD Instinct MI350 系がデータセンター向けに出荷開始。コストパフォーマンスで NVIDIA に対抗。

Apple M5 Ultra + on-device Apple Intelligence で macOS でのローカル LLM 体験が大きく向上。MLX の進化で M5 上で 30B モデルが快適。

エッジ SoC: Qualcomm Snapdragon X Elite Gen 2 / Intel Lunar Lake・Panther Lake / NVIDIA Jetson Thor で VibeThinker-3B / Gemma 4 E4B / Liquid AI LFM2.5-J クラスがオフライン動作。

推論エンジン選定マトリクス（2026年6月時点）

エンジン	最適用途	強み
vLLM	GPU サーバ・本番	AWQ + vLLM が最速（Marlin-AWQ 741 tok/s、Pass@1 51.8%）
llama.cpp（GGUF）	CPU / エッジ / Apple Silicon	1.58-bit 〜 8-bit 全対応、軽量、依存最小
SGLang	エージェント・ツールユース	RadixAttention で共有 prefix 再計算削減
TensorRT-LLM	NVIDIA クラスタ	NVIDIA 最適化、本番 SLA 重視
MLX	Apple Silicon	M シリーズ最適化、Mac でのローカル開発
Ollama	個人・PoC	セットアップ簡単、GGUF ベース
LM Studio / Jan	デスクトップ GUI	非エンジニア向け

量子化の進化:

- MXFP4（Blackwell ネイティブ）: 4-bit、ハードウェア支援で emulation 0 - AWQ: 4-bit、GPU サーバ最速（Marlin カーネル） - GGUF: 1.5-bit〜8-bit 全対応、CPU/エッジの標準 - BitNet 1.58-bit: {-1, 0, +1} の3値、全精度並み性能を 1/10 のメモリで 実現可能（次世代の本命） - GPTQ: 旧世代、AWQ に置き換わりつつある - INT8 / INT4: 一般的、品質劣化最小

日本企業の SI 市場が本格化 — 黎明期から実装期へ

インテック（TIS グループ）— ¥5M〜の本格 SI

インテックプレス（2026-01-29）によると、2026年1月29日からオンプレミス環境で生成 AI を活用できるローカル LLM の導入支援 SI を開始。最短1ヶ月、参考価格 ¥5,000,000〜（税別）、製造業・金融業がメインターゲット。IT Leaders 報道。

意義: 「ローカル LLM が SIer の主力商品ライン」になった precedent。SMB 〜中堅企業の調達ルートが整い始めた。

リコー — オンプレ LLM スターターキットが日経最優秀賞

リコー公式で、「RICOH オンプレ LLM スターターキット」が 2025年日経優秀製品・サービス賞最優秀賞 を受賞。さらに日経 2026-01 報道によれば、Qwen2.5-VL-32B-Instruct ベースのマルチモーダル LLM をリコー自身が開発・搭載予定。日本企業の図表入りドキュメント読み取りに最適化。

意義: 大手 OA メーカーがローカル LLM をパッケージ化。中小企業の調達ルートが「複合機を入れるついでに」という形に拡張された。

PFN — PLaMo 3.0 Prime + デジタル庁『源内』採用

PLaMo 3.0 Prime コラム既述の通り、PFN は2026-06-22 に PLaMo 3.0 Prime を GA。デジタル庁の生成 AI 共通基盤『源内』で試用モデル選定。国産フルスクラッチ + 公共調達 precedent という位置取り。

日立ソリューションズ、Mizuho、Lion 等

- 日立ソリューションズ: 活文ローカル LLM ソリューションでオンプレ提供 - Mizuho / Lion Corp: Qwen を国内 GPU クラウドにファインチューンする pattern を採用（既出） - NTT / KDDI / SoftBank / 富士通 / NEC: 各社が独自 LLM もしくは OSS ファインチューン路線

規制動向 — 2026-08-02 が業界の節目

EU AI Act — GPAI 義務化が 2026-08-02 開始

欧州委員会デジタル戦略によると、2026年8月2日から欧州委員会の執行権が発動。GPAI（General Purpose AI Model）提供者に対する義務遵守の強制が始まり、調査・評価・市場制限・罰金の権限が付与されます。

OSS GPAI への影響（軽減）:

- パラメータ・重み・アーキテクチャ・使用方法が公開された 自由オープンライセンス GPAI は、著作権遵守と訓練データ要約の義務のみ - ただし systemic risk 認定モデル（累積訓練 FLOPs > 10^25）は例外 で全義務適用 - 既存モデル（2025-08-02 以前公開）は 2027-08-02 まで猶予 - 提供者は基準を満たした場合、2週間以内に欧州委員会に通知義務

日本企業への影響: EU 域内顧客向けにモデルを提供 / 利用する場合、EU AI Act の対象に。Sakana Fugu が EU/EEA 提供外（Fugu コラム）の背景もここ。

米国輸出規制 — Fable 5 precedent の重み

2026年5月の Claude Fable 5 / Mythos 5 の米政府輸出規制による一時停止は、単一ベンダー依存リスクが現実になった precedent。Sakana Fugu のオーケストレーション・モデル誕生（Fugu コラム）の直接 motivation でもある。日本企業はこの precedent を踏まえ、「重要案件はオンプレ + 米国製 OSS（Nemotron 3 Ultra 等）」または「日本製 OSS（PLaMo / Liquid AI）」を選ぶ流れが強まる。

中国系のデータ越境論点 — 同水準のデューデリジェンスが必要

GLM-5.2 / MiniMax M3 / DeepSeek V4 / Kimi K2.7-Code 等、性能トップの OSS は中国系が多い一方、中国国家情報法第7条 compelled disclosure リスク が API 利用時には消えない。詳細は Kimi K2.7-Code コラムを参照。自社オンプレ運用が唯一の確実な解 という結論は変わらない。

典型ユースケース別 GPU 構成（2026年6月実態）

ユースケース	推奨モデル	推奨 GPU	月額目安
社内チャット / 簡易 RAG	Liquid AI LFM2.5-J / Gemma 4 E4B / VibeThinker-3B	Mac M5 / RTX 5070 Ti / RTX 5080	自社所有
コーディング支援（個人）	Kimi K2.7-Code（Q4）/ GLM-5.2 / Qwen3.6-30B	RTX 5090（32GB）	¥40 万円〜（買い切り）
コーディング支援（チーム）	Kimi K2.7-Code / GLM-5.2 / Nemotron 3 Ultra	RTX PRO 6000 Blackwell（96GB）	¥150 万円〜（買い切り）
長文 / マルチモーダル（社内ナレッジ）	MiniMax M3 / PLaMo 3.0 Prime	B200 ×1（192GB）	¥30 万円〜/月（クラウド）
本番サーバ・大規模（金融・医療）	Nemotron 3 Ultra / GLM-5.2（自社運用）	H200 ×8 or B200 ×4	¥150-300 万円/月（クラウド）
エッジ・組み込み	VibeThinker-3B / Liquid AI LFM2.5-J	Jetson Thor / Snapdragon X Elite Gen 2	自社所有

オブライト視点 — ローカル LLM 導入の3ステップ

オブライトの AI コンサルティングの現場で日本企業に推奨している3ステップ:

ステップ1: 導入診断・要件定義（1〜2週間、¥198K〜）

業務分析・コンプライアンス確認・データ越境論点整理・モデル候補の絞り込み・GPU 構成の概算見積もり。ローカル LLM 本当に必要か、それともクラウド API（Sakana Fugu 等）で十分かの判断材料を揃える フェーズ。

ステップ2: PoC 構築（4〜8週間、¥498K〜）

選定モデル（Nemotron 3 Ultra / Kimi K2.7-Code / GLM-5.2 / PLaMo 3.0 Prime 等）の 自社データでのファインチューン or プロンプト調整、推論エンジン選定（vLLM / SGLang / llama.cpp）、量子化（MXFP4 / AWQ / GGUF）、自社業務での ROI 実測。クラウド GPU（さくら高火力、GMO GPU、AWS Tokyo p5）か、自社 GPU 購入かの判断もここで。

ステップ3: 本番構築・継続保守（個別見積もり）

本番 GPU 環境構築（オンプレ or 国内クラウド）、社員研修、運用設計、継続保守契約（モデル更新追従、量子化見直し、KPI モニタ、社員向け FAQ メンテ）。

ローカル LLM のご相談 — 3つの導線

ローカル LLM の 導入・構築・継続保守 について、オブライトでは以下の3つのご相談導線をご用意しています。お気軽にお問い合わせください。

① 導入相談・要件定義（¥198,000〜）

「自社にローカル LLM が必要か」「どのモデルが合うか」「どのくらいの GPU で足りるか」を整理する AI 導入診断フェーズ。1〜2週間でレポートをお渡しします。

👉 導入相談のお問い合わせ（AI コンサルティング）

② オンプレ構築・PoC（¥498,000〜）

選定モデルでの PoC 構築・ファインチューン・推論エンジン設定・量子化 までを4〜8週間で。ROI 実測まで含めて。本番フル SI は ¥5,000,000 ± が業界相場（インテック等）です。

👉 PoC 構築・本番 SI のお問い合わせ

③ 継続保守・運用（¥9,800〜¥80,000/月）

ローカル LLM は モデル更新・量子化見直し・新モデル評価・KPI モニタ・社員研修 が継続的に発生します。月額保守契約で対応します。

- [OpenClaw 構築済みの方](../services/openclaw-setup): ライト ¥9,800/月 / スタンダード ¥19,800/月 / プレミアム ¥49,800/月 — LLM API 更新・OS/セキュリティ更新・設定変更対応 - AI コンサル継続支援: ライト ¥30,000/月（月1回定例 + 新モデル追従）/ スタンダード ¥80,000/月（月2回定例 + プロンプト改善 + 月次 KPI レビュー + 社員研修・FAQ 更新）/ プレミアム要相談

👉 継続保守のお問い合わせ（OpenClaw 保守）

FAQ

Q1. ローカル LLM とクラウド API、どちらが安いですか？ A. ユースケース次第。月数百万トークン以下なら API（Claude / GPT / Kimi K2.7-Code 等）が安い。月数億トークン超 or 機密データ扱いなら オンプレが圧倒的に安く・安全。境界は 月 1,000-5,000 万トークン 付近。

Q2. RTX 5090 1枚でどこまで動きますか？ A. 30B モデル（Qwen3.5-30B、Gemma 4 31B、Mistral Small 4）が Q4 量子化でリアルタイム会話速度（5,000 tok/s 超）、70B クラスも mixed quant で実用域。コーディング支援・社内 RAG の個人用途には十分。

Q3. 中国系モデル（GLM-5.2、Kimi K2.7-Code）は安全に使えますか？ A. オンプレ運用なら安全（Hugging Face から重みを国内インフラにダウンロードして使う）。API 経由は中国国家情報法第7条リスクが残るため機微情報には推奨しない（詳細は Kimi K2.7-Code コラム）。

Q4. EU AI Act の影響は？ A. 2026-08-02 から GPAI 義務発動。OSS は著作権・訓練データ要約義務のみ（systemic risk 認定外なら）。日本国内のみで利用する場合は直接の影響は限定的 ですが、EU 域内顧客向けサービスを提供する場合は要対応。

Q5. 米国輸出規制（Fable 5 precedent）はオンプレに影響しますか？ A. 既にダウンロード済みのオープンウェイトモデルには影響なし。リスクはクラウド API 依存（Claude / GPT / Gemini 等）にあり、Fable 5 / Mythos 5 のように突然停止される precedent は今後も起こり得ます。これが Sakana Fugu のような オーケストレーション・モデル やオンプレ運用の motivation。

Q6. 量子化は何を選べばよいですか？ A. NVIDIA Blackwell（RTX 5090 / B200）= MXFP4（ネイティブ最速）、GPU サーバ（H100 / H200）= AWQ + vLLM、CPU / エッジ = GGUF + llama.cpp、極限の小型化 = BitNet 1.58-bit（実装はまだ限定的）。

Q7. 日本企業の調達ルートはどこですか？ A. インテック ¥5M〜の本格 SI、リコーオンプレ LLM スターターキット、PFN PLaMo 3.0 Prime、日立ソリューションズ、各クラウドベンダー（さくら / GMO / AWS Japan）が現在の主要プレイヤー。SMB 〜中堅企業向けには オブライトのような専門 AI コンサル がコスト効率で勝負できる領域です。

Q8. クラウド LLM API から完全オンプレへの移行は現実的ですか？ A. 2026年6月時点では現実的。OSS 性能がクローズドと肉薄し（GLM-5.2 / Nemotron 3 Ultra / MiniMax M3）、Blackwell でコンシューマ機材でも 30-70B が実用域に。移行の判断軸はコスト・データ主権・継続性（輸出規制リスク）の3点。

まとめ

2026年6月時点のローカル LLM 市場の3つの実態:

1. OSS 性能がクローズドと肉薄（Intelligence Index v4.1 で GLM-5.2 が 51、Opus 4.8 / GPT-5.5 との差は4-9点まで縮小） 2. Blackwell でコンシューマ GPU が 30-70B 実用域（RTX 5090 ネイティブ MXFP4 / RTX PRO 6000 が defacto 標準） 3. 日本企業の SI 市場が本格化（インテック / リコー / PFN / 日立がメインプレイヤー化、調達ルートが整備）

2026年4月版から2ヶ月でこれだけ動きました。次の節目は EU AI Act 施行（2026-08-02）と、その前後で予想される OSS 各社の対応発表。継続的な情報追跡が重要です。

オブライトでは、ローカル LLM の導入相談・PoC 構築・継続保守を一気通貫で支援しています。本コラム末尾の3つの導線からお気軽にご相談ください。

References

新モデル（一次・二次ソース）: - Simon Willison — GLM-5.2 most powerful text-only open weights LLM - Z.ai 公式（GLM-5.2） - Kilo.ai — Best Open-Source & Open-Weight Coding Models 2026 - NVIDIA Nemotron 3 Family - NVIDIA Nemotron 3 Ultra Technical Report - Latent Space — NVIDIA Cosmos 3, Nemotron 3 Ultra, RTX Spark - arXiv 2606.16140 — VibeThinker-3B - Codersera — Open-Source LLMs Landscape May 2026 - HuggingFace — Best Open-Source & Open-Weight LLM Models to Run Locally 2026 ハードウェア: - runyard.dev — RTX 5090 Local LLM Blackwell Guide 2026 - Yotta Labs — Best GPUs for LLM Inference 2026 - VRLA Tech — GPU Benchmark for AI LLM 2026 - Spheron — Best NVIDIA GPUs for LLMs 2026 - knightli — RTX 5090/5080 AI Inference Benchmarks 推論エンジン・量子化: - Meta Intelligence — Quantization Guide 2026 - Jarvis Labs — vLLM Quantization Complete Guide - VRLA Tech — vLLM vs Ollama vs llama.cpp vs SGLang 2026 - Sesame Disk — Local Inference Engines 2026 - GitHub ggml-org/llama.cpp 日本企業: - インテックプレス 2026-01-29 - 日経 — インテックオンプレ LLM SI - IT Leaders — インテックローカル LLM SI - リコー — オンプレ LLM スターターキット最優秀賞 - 日経 — リコー Qwen2.5-VL-32B マルチモーダル - 日立ソリューションズ — ローカル LLM オンプレ - Biton — 日本語に強いローカル LLM 2026年5月規制: - European Commission — Guidelines for GPAI Providers - EU AI Act 公式 - Linux Foundation — What Open Source Developers Need to Know about EU AI Act - HuggingFace — Open Source Developers Guide to EU AI Act 関連弊社コラム: - ローカル LLM 徹底比較 2026年4月版 - Kimi K2.7-Code - Sakana Fugu オーケストレーション・モデル - PLaMo 3.0 Prime - DiffusionGemma - Liquid AI LFM2.5-J - Sakana Marlin - Claude Fable 5 輸出規制停止 - Loop Engineering - Cognition FrontierCode ベンチお問い合わせ: - AI 導入相談・PoC 構築 - OpenClaw 構築・継続保守 - カスタム開発・SI

お気軽にご相談ください

お問い合わせ