ローカル LLM 2026年6月最新版 — 4月版からの差分整理:GLM-5.2 が OSS 首位(Intelligence Index v4.1 で 51 点)、MiniMax M3 が 1M context + SWE-Bench Pro 59%、NVIDIA Nemotron 3 Ultra 550B、Blackwell ネイティブ MXFP4 で RTX 5090 が 30-70B 実用域、日本ではインテック ¥5M〜の SI、リコー オンプレ LLM スターターキットが日経最優秀賞、PFN PLaMo + デジタル庁『源内』採用、EU AI Act 2026-08-02 施行迫る
2026年4月に公開したローカル LLM 徹底比較コラムから2ヶ月、何が変わったか を一次ソース中心に整理した最新版です。3つの大変化: (1) OSS 性能がクローズドと肉薄 — GLM-5.2(Z.ai、MIT、2026-06-16)が Intelligence Index v4.1 で 51 点(MiniMax M3 44 / DeepSeek V4 Pro 44 / Kimi K2.6 43 を抜いて OSS 首位)、MiniMax M3 が 1M context・ネイティブマルチモーダル・SWE-Bench Pro 59.0%・Terminal-Bench 2.1 66.0%・MCP Atlas 74.2%、NVIDIA Nemotron 3 Ultra(Computex 2026 で Jensen Huang 発表、550B パラメータ、米国 OSS 首位)、VibeThinker-3B(WeiboAI、MIT、Qwen2.5-Coder-3B fine-tune、3B で frontier reasoner 並み)。(2) Blackwell でコンシューマ GPU が 30-70B 実用域 — RTX 5090 は 32GB GDDR7・1,792 GB/s 帯域(4090 比 +77%)・ネイティブ MXFP4 で GGUF Q4 を emulation 0 で実行可、Qwen 2.5-Coder-7B で 5,841 tok/s(batch 8、A100 80GB の 2.6 倍)、RTX PRO 6000 Blackwell は 30B モデルで ~8,425 tok/s、B200 は 192GB HBM3e・8 TB/s・H100 比 4-5 倍。(3) 日本企業の SI 化が本格化 — インテック(TIS グループ)が2026-01-29 から ローカル LLM 導入支援 SI、最短1ヶ月・参考価格 ¥5,000,000〜、リコー「RICOH オンプレ LLM スターターキット」が2025年日経優秀製品・サービス賞最優秀賞受賞(Qwen2.5-VL-32B-Instruct ベース)、PFN PLaMo 3.0 Prime がデジタル庁『源内』採用、Mizuho / Lion の Qwen 国内ファインチューン precedent と並ぶ。さらに Kimi K2.7-Code・Sakana Fugu・DiffusionGemma・Liquid AI LFM2.5-J など同時期の動きも整理。推論エンジン選定(AWQ + vLLM = GPU 最速、GGUF + llama.cpp = CPU/エッジ、SGLang = エージェント、TensorRT-LLM = NVIDIA クラスタ)、量子化(BitNet 1.58-bit / MXFP4 / AWQ)、規制動向(EU AI Act 2026-08-02 施行・systemic risk threshold 10^25 FLOPs、米輸出規制 Fable 5 precedent、中国系のデータ越境)、典型 GPU 構成、オブライト視点の3ステップ導入論まで。記事末尾に ローカル LLM 導入・構築・保守の3つの問い合わせ導線 を設置しています。
TL;DR — 2026年4月版から2ヶ月で起きた3つの変化
2026年4月に公開した ローカル LLM 徹底比較コラム から2ヶ月、ローカル LLM 市場は大きく動きました。本コラムはその差分整理の最新版です。
3つの大変化:
1. OSS 性能がクローズドと肉薄 — GLM-5.2(Z.ai、2026-06-16、MIT)が Intelligence Index v4.1 で 51 点を獲得し OSS 首位。MiniMax M3 が 1M context + SWE-Bench Pro 59.0%。NVIDIA Nemotron 3 Ultra 550B が米国 OSS の旗手に。 2. Blackwell でコンシューマ GPU が 30-70B 実用域 — RTX 5090 のネイティブ MXFP4 サポートで GGUF Q4 が emulation 0、Qwen 2.5-Coder-7B で 5,841 tok/s。コンシューマ機材で本番に近い性能が出る時代に。 3. 日本企業の SI 市場が本格化 — インテック ¥5M〜の本格 SI、リコー オンプレ LLM スターターキットが日経最優秀賞、PFN PLaMo 3.0 Prime がデジタル庁『源内』採用。
本コラム末尾に、ローカル LLM の導入・構築・保守を弊社へご相談いただくための3つの問い合わせ導線 を用意しています。
2026年4月版からの差分マップ
| 観点 | 2026年4月版 | 2026年6月版 |
|---|---|---|
| OSS 首位 | GLM-5.1 / Kimi K2.5 | GLM-5.2(Intelligence Index v4.1 = 51) |
| 長文・マルチモーダル | Gemma 4 E4B / Llama 4 系 | MiniMax M3(1M context + ネイティブマルチモーダル) |
| 米国 OSS フラッグシップ | Llama 4 Maverick | NVIDIA Nemotron 3 Ultra(550B) |
| 軽量・推論特化 | Gemma 4 E4B | VibeThinker-3B(3B で frontier 並み) |
| 日本語特化 | Llama-3.1-Swallow / Stockmark | PLaMo 3.0 Prime(256K、デジタル庁採用)/ Liquid AI LFM2.5-J |
| コーディング | GLM-5.1 / Kimi K2.5 | Kimi K2.7-Code(1T MoE / 32B active) |
| コンシューマ GPU 上限 | RTX 4090(24GB、Q4 で 13B 快適) | RTX 5090(32GB、MXFP4 で 30B 快適、Q3-mixed で 70B) |
| サーバ GPU | H100 / H200 | B200(192GB HBM3e、8 TB/s)/ B300 / GB300 NVL72 |
| 日本 SI 市場 | 黎明期 | インテック ¥5M〜、リコー、PFN がメインプレイヤー化 |
| 新カテゴリ | — | オーケストレーション・モデル(Sakana Fugu) |
2026年6月の主要新リリース
GLM-5.2(Z.ai、2026-06-16、MIT)— OSS 首位を奪取
Z.ai が2026年6月13日にコーディングプラン契約者向けに先行公開、6月16日に MIT ライセンスでオープンウェイト公開(Simon Willison 2026-06-17)。Intelligence Index v4.1 で 51 点を獲得し、MiniMax M3(44)/ DeepSeek V4 Pro(44)/ Kimi K2.6(43)を抜いて OSS 首位。コーディング・エージェント能力が GLM-5.1 から大幅向上し、Nous Research の Hermes Agent には公開数日で統合されました。
重要な意味: 「OSS でクローズドと闘えるのは中国系」というトレンドの強化。MIT ライセンスは商用・改変・再配布が完全自由で、日本企業の自社運用にも法務障壁が低い。一方、Z.ai は北京拠点のためデータ越境論点は中国系 LLM 共通の精査が必要(詳細は Kimi K2.7-Code コラム を参照)。
MiniMax M3(2026年6月)— 1M context + ネイティブマルチモーダル
MiniMax の最新オープンウェイト・モデル(kilo.ai 2026 比較)。1M トークンのコンテキスト、ネイティブマルチモーダル、SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、MCP Atlas 74.2%。前モデル MiniMax M2.5 から大幅進化。
強み: コンテキスト長と画像・動画ネイティブ対応で、社内ドキュメント横断 RAG・長期プロジェクト管理エージェント に適する。GPU メモリ要件は高いが、Blackwell B200 や RTX PRO 6000 + 量子化で実用域。
NVIDIA Nemotron 3 Ultra(2026-06-01、Computex 2026)— 米国 OSS の旗手
Computex 2026 で Jensen Huang が発表(NVIDIA 公式 PDF、NVIDIA Research)。550B パラメータ、米国 OSS では現時点最高性能。Sebastian Raschka は「ultra impressive capability:efficiency ratio(凄まじい性能対効率比)」と評価。
意義: 米国・欧州系の法務調達フレームワークでは「中国系 OSS は使えないが OSS で本番運用したい」需要が根強く、Nemotron 3 Ultra は 米国製 OSS という調達上の安全パイ を提供。輸出規制(後述)の precedent もあり、日本企業の重要案件で 第一候補化 する可能性が高い。
VibeThinker-3B(WeiboAI、2026年6月、MIT)— 3B で frontier 推論並み
arXiv 2606.16140。MIT ライセンス、Qwen2.5-Coder-3B fine-tune、3B パラメータで frontier reasoner 並みの数学・コード性能。
意義: 「small is the new big」が現実化。Apple M5 Mac / RTX 5060・5070 / Snapdragon X Elite Gen 2 等のエッジ機材で frontier 級の推論が動く時代 に入った。コンシューマ用途・組み込み用途・オフライン業務でのインパクトが大きい。
同時期の弊社既出コラムで追える主要新モデル
- Kimi K2.7-Code(2026-06-12、Moonshot AI、1T MoE / 32B active、Modified MIT) - Sakana Fugu(2026-06-22、Sakana AI、オーケストレーション・モデル) - PLaMo 3.0 Prime(2026-06-22、PFN、256K context、Reasoning 2系統、Standard ¥60/¥250) - DiffusionGemma(2026-06、Google、テキスト拡散モデル) - Liquid AI LFM2.5-J(2026-06、日本語特化2モデル)
Intelligence Index v4.1 ランキング — OSS 首位は GLM-5.2
| 順位 | モデル | スコア | ライセンス |
|---|---|---|---|
| 1 | GLM-5.2 | 51 | MIT |
| 2 | MiniMax M3 | 44 | OSS(要詳細確認) |
| 2 | DeepSeek V4 Pro | 44 | DeepSeek License |
| 4 | Kimi K2.6 | 43 | Modified MIT |
| ... | ... | ... | ... |
観察: 上位はすべて中国系 OSS。米国・欧州系 OSS(Nemotron 3 Ultra、Llama 4、Mistral 系)はベンチでまだ中国勢に半歩遅れ。一方、コーディング特化(SWE-Bench Pro / Terminal-Bench 2.1)の上位 = Kimi K2.7-Code / MiniMax M3 / Sakana Fugu Ultra、長文(LongBench v2)= PLaMo 3.0 Prime / MiniMax M3、推論・数学(AIME 2024 / GPQA-Diamond)= DeepSeek V4 / VibeThinker-3B など、汎用ベンチ1位とユースケース別1位は別 という点が実務上重要。
クローズドとの差: Claude Opus 4.8 / GPT-5.5 / Gemini 3.1 Pro の Intelligence Index は依然として 55-60 点台で、OSS 首位(51)との差は 4-9 点。半年前の差(15 点超)から大幅に縮小。
ハードウェア大変化 — Blackwell が普及して全てが変わった
RTX 5090 — ネイティブ MXFP4 で 30B が実用域
RTX 5090 のスペック: 32GB GDDR7、1,792 GB/s メモリ帯域(RTX 4090 の 1,008 GB/s から +77%)、Blackwell アーキテクチャ。
ネイティブ MXFP4 サポート が革命的(runyard.dev RTX 5090 ガイド)。GGUF Q4 / similar 4-bit 形式が emulation 0 で実行 され、Qwen 2.5-Coder-7B で 5,841 tok/s(batch 8、A100 80GB の 2.6 倍) を達成。LLM 生成はメモリ帯域 bound のため、帯域の向上がそのままトークン/秒に直結。
実用感: 30B クラス(Qwen3.5-30B、Gemma 4 31B、Mistral Small 4)が Q4 量子化でリアルタイム会話速度、70B クラスも mixed quant(Q3-Q4 mix)で実用域。コンシューマ機材で本番に近い性能 が出る時代に。
RTX PRO 6000 Blackwell — シングル GPU 最強
Yotta Labs ベンチ によると、RTX PRO 6000 Blackwell は 30B モデルで ~8,425 tok/s(vLLM)、RTX 5090 の約 1.8 倍。VRAM 96GB で 70B を非量子化、120B クラスも Q4 で動かせる。個人 / SMB の本格セルフホストの defacto 標準 になりつつあります。
B200 / B300 / GB300 NVL72 — エンタープライズ標準
B200 は 192GB HBM3e、8 TB/s、H100 比 4-5 倍スループット(最適化時 15 倍)。Llama 3.1 70B が FP16 でシングル GPU に乗り、KV キャッシュ大量保持も可能。
B300(拡張版)と GB300 NVL72(72 GPU rack)が2026年に流通開始。ハイパースケーラーから日本の大手ベンダーへの提供も進行中。
AMD MI350 / Apple M5 / エッジ SoC
AMD Instinct MI350 系がデータセンター向けに出荷開始。コストパフォーマンスで NVIDIA に対抗。
Apple M5 Ultra + on-device Apple Intelligence で macOS でのローカル LLM 体験が大きく向上。MLX の進化で M5 上で 30B モデルが快適。
エッジ SoC: Qualcomm Snapdragon X Elite Gen 2 / Intel Lunar Lake・Panther Lake / NVIDIA Jetson Thor で VibeThinker-3B / Gemma 4 E4B / Liquid AI LFM2.5-J クラスがオフライン動作。
推論エンジン選定マトリクス(2026年6月時点)
| エンジン | 最適用途 | 強み |
|---|---|---|
| vLLM | GPU サーバ・本番 | AWQ + vLLM が最速(Marlin-AWQ 741 tok/s、Pass@1 51.8%) |
| llama.cpp(GGUF) | CPU / エッジ / Apple Silicon | 1.58-bit 〜 8-bit 全対応、軽量、依存最小 |
| SGLang | エージェント・ツールユース | RadixAttention で共有 prefix 再計算削減 |
| TensorRT-LLM | NVIDIA クラスタ | NVIDIA 最適化、本番 SLA 重視 |
| MLX | Apple Silicon | M シリーズ最適化、Mac でのローカル開発 |
| Ollama | 個人・PoC | セットアップ簡単、GGUF ベース |
| LM Studio / Jan | デスクトップ GUI | 非エンジニア向け |
量子化の進化:
- MXFP4(Blackwell ネイティブ): 4-bit、ハードウェア支援で emulation 0 - AWQ: 4-bit、GPU サーバ最速(Marlin カーネル) - GGUF: 1.5-bit〜8-bit 全対応、CPU/エッジの標準 - BitNet 1.58-bit: {-1, 0, +1} の3値、全精度並み性能を 1/10 のメモリで 実現可能(次世代の本命) - GPTQ: 旧世代、AWQ に置き換わりつつある - INT8 / INT4: 一般的、品質劣化最小
日本企業の SI 市場が本格化 — 黎明期から実装期へ
インテック(TIS グループ)— ¥5M〜の本格 SI
インテック プレス(2026-01-29) によると、2026年1月29日からオンプレミス環境で生成 AI を活用できるローカル LLM の導入支援 SI を開始。最短1ヶ月、参考価格 ¥5,000,000〜(税別)、製造業・金融業がメインターゲット。IT Leaders 報道。
意義: 「ローカル LLM が SIer の主力商品ライン」になった precedent。SMB 〜中堅企業の調達ルートが整い始めた。
リコー — オンプレ LLM スターターキットが日経最優秀賞
リコー公式 で、「RICOH オンプレ LLM スターターキット」が 2025年日経優秀製品・サービス賞最優秀賞 を受賞。さらに 日経 2026-01 報道 によれば、Qwen2.5-VL-32B-Instruct ベースのマルチモーダル LLM をリコー自身が開発・搭載予定。日本企業の図表入りドキュメント読み取りに最適化。
意義: 大手 OA メーカーがローカル LLM をパッケージ化。中小企業の調達ルートが「複合機を入れるついでに」という形に拡張された。
PFN — PLaMo 3.0 Prime + デジタル庁『源内』採用
PLaMo 3.0 Prime コラム 既述の通り、PFN は2026-06-22 に PLaMo 3.0 Prime を GA。デジタル庁の生成 AI 共通基盤『源内』で試用モデル選定。国産フルスクラッチ + 公共調達 precedent という位置取り。
日立ソリューションズ、Mizuho、Lion 等
- 日立ソリューションズ: 活文ローカル LLM ソリューション でオンプレ提供 - Mizuho / Lion Corp: Qwen を国内 GPU クラウドにファインチューンする pattern を採用(既出) - NTT / KDDI / SoftBank / 富士通 / NEC: 各社が独自 LLM もしくは OSS ファインチューン路線
規制動向 — 2026-08-02 が業界の節目
EU AI Act — GPAI 義務化が 2026-08-02 開始
欧州委員会 デジタル戦略 によると、2026年8月2日から欧州委員会の執行権が発動。GPAI(General Purpose AI Model)提供者に対する義務遵守の強制が始まり、調査・評価・市場制限・罰金の権限が付与されます。
OSS GPAI への影響(軽減):
- パラメータ・重み・アーキテクチャ・使用方法が公開された 自由オープンライセンス GPAI は、著作権遵守と訓練データ要約の義務のみ - ただし systemic risk 認定モデル(累積訓練 FLOPs > 10^25)は例外 で全義務適用 - 既存モデル(2025-08-02 以前公開)は 2027-08-02 まで猶予 - 提供者は基準を満たした場合、2週間以内に欧州委員会に通知義務
日本企業への影響: EU 域内顧客向けにモデルを提供 / 利用する場合、EU AI Act の対象に。Sakana Fugu が EU/EEA 提供外(Fugu コラム)の背景もここ。
米国輸出規制 — Fable 5 precedent の重み
2026年5月の Claude Fable 5 / Mythos 5 の米政府輸出規制による一時停止 は、単一ベンダー依存リスクが現実になった precedent。Sakana Fugu のオーケストレーション・モデル誕生(Fugu コラム)の直接 motivation でもある。日本企業はこの precedent を踏まえ、「重要案件はオンプレ + 米国製 OSS(Nemotron 3 Ultra 等)」または「日本製 OSS(PLaMo / Liquid AI)」を選ぶ流れが強まる。
中国系のデータ越境論点 — 同水準のデューデリジェンスが必要
GLM-5.2 / MiniMax M3 / DeepSeek V4 / Kimi K2.7-Code 等、性能トップの OSS は中国系が多い一方、中国国家情報法第7条 compelled disclosure リスク が API 利用時には消えない。詳細は Kimi K2.7-Code コラム を参照。自社オンプレ運用が唯一の確実な解 という結論は変わらない。
典型ユースケース別 GPU 構成(2026年6月実態)
| ユースケース | 推奨モデル | 推奨 GPU | 月額目安 |
|---|---|---|---|
| 社内チャット / 簡易 RAG | Liquid AI LFM2.5-J / Gemma 4 E4B / VibeThinker-3B | Mac M5 / RTX 5070 Ti / RTX 5080 | 自社所有 |
| コーディング支援(個人) | Kimi K2.7-Code(Q4)/ GLM-5.2 / Qwen3.6-30B | RTX 5090(32GB) | ¥40 万円〜(買い切り) |
| コーディング支援(チーム) | Kimi K2.7-Code / GLM-5.2 / Nemotron 3 Ultra | RTX PRO 6000 Blackwell(96GB) | ¥150 万円〜(買い切り) |
| 長文 / マルチモーダル(社内ナレッジ) | MiniMax M3 / PLaMo 3.0 Prime | B200 ×1(192GB) | ¥30 万円〜/月(クラウド) |
| 本番サーバ・大規模(金融・医療) | Nemotron 3 Ultra / GLM-5.2(自社運用) | H200 ×8 or B200 ×4 | ¥150-300 万円/月(クラウド) |
| エッジ・組み込み | VibeThinker-3B / Liquid AI LFM2.5-J | Jetson Thor / Snapdragon X Elite Gen 2 | 自社所有 |
オブライト視点 — ローカル LLM 導入の3ステップ
オブライトの AI コンサルティング の現場で日本企業に推奨している3ステップ:
ステップ1: 導入診断・要件定義(1〜2週間、¥198K〜)
業務分析・コンプライアンス確認・データ越境論点整理・モデル候補の絞り込み・GPU 構成の概算見積もり。ローカル LLM 本当に必要か、それともクラウド API(Sakana Fugu 等)で十分かの判断材料を揃える フェーズ。
ステップ2: PoC 構築(4〜8週間、¥498K〜)
選定モデル(Nemotron 3 Ultra / Kimi K2.7-Code / GLM-5.2 / PLaMo 3.0 Prime 等)の 自社データでのファインチューン or プロンプト調整、推論エンジン選定(vLLM / SGLang / llama.cpp)、量子化(MXFP4 / AWQ / GGUF)、自社業務での ROI 実測。クラウド GPU(さくら高火力、GMO GPU、AWS Tokyo p5)か、自社 GPU 購入かの判断もここで。
ステップ3: 本番構築・継続保守(個別見積もり)
本番 GPU 環境構築(オンプレ or 国内クラウド)、社員研修、運用設計、継続保守契約(モデル更新追従、量子化見直し、KPI モニタ、社員向け FAQ メンテ)。
ローカル LLM のご相談 — 3つの導線
ローカル LLM の 導入・構築・継続保守 について、オブライトでは以下の3つのご相談導線をご用意しています。お気軽にお問い合わせください。
① 導入相談・要件定義(¥198,000〜)
「自社にローカル LLM が必要か」「どのモデルが合うか」「どのくらいの GPU で足りるか」を整理する AI 導入診断フェーズ。1〜2週間でレポートをお渡しします。
② オンプレ構築・PoC(¥498,000〜)
選定モデルでの PoC 構築・ファインチューン・推論エンジン設定・量子化 までを4〜8週間で。ROI 実測まで含めて。本番フル SI は ¥5,000,000 ± が業界相場(インテック等)です。
③ 継続保守・運用(¥9,800〜¥80,000/月)
ローカル LLM は モデル更新・量子化見直し・新モデル評価・KPI モニタ・社員研修 が継続的に発生します。月額保守契約で対応します。
- [OpenClaw 構築済みの方](../services/openclaw-setup): ライト ¥9,800/月 / スタンダード ¥19,800/月 / プレミアム ¥49,800/月 — LLM API 更新・OS/セキュリティ更新・設定変更対応 - AI コンサル継続支援: ライト ¥30,000/月(月1回定例 + 新モデル追従)/ スタンダード ¥80,000/月(月2回定例 + プロンプト改善 + 月次 KPI レビュー + 社員研修・FAQ 更新)/ プレミアム要相談
FAQ
Q1. ローカル LLM とクラウド API、どちらが安いですか? A. ユースケース次第。月数百万トークン以下なら API(Claude / GPT / Kimi K2.7-Code 等)が安い。月数億トークン超 or 機密データ扱いなら オンプレが圧倒的に安く・安全。境界は 月 1,000-5,000 万トークン 付近。
Q2. RTX 5090 1枚でどこまで動きますか? A. 30B モデル(Qwen3.5-30B、Gemma 4 31B、Mistral Small 4)が Q4 量子化でリアルタイム会話速度(5,000 tok/s 超)、70B クラスも mixed quant で実用域。コーディング支援・社内 RAG の個人用途には十分。
Q3. 中国系モデル(GLM-5.2、Kimi K2.7-Code)は安全に使えますか? A. オンプレ運用なら安全(Hugging Face から重みを国内インフラにダウンロードして使う)。API 経由は中国国家情報法第7条リスクが残るため機微情報には推奨しない(詳細は Kimi K2.7-Code コラム)。
Q4. EU AI Act の影響は? A. 2026-08-02 から GPAI 義務発動。OSS は著作権・訓練データ要約義務のみ(systemic risk 認定外なら)。日本国内のみで利用する場合は直接の影響は限定的 ですが、EU 域内顧客向けサービスを提供する場合は要対応。
Q5. 米国輸出規制(Fable 5 precedent)はオンプレに影響しますか? A. 既にダウンロード済みのオープンウェイトモデルには影響なし。リスクはクラウド API 依存(Claude / GPT / Gemini 等)にあり、Fable 5 / Mythos 5 のように突然停止される precedent は今後も起こり得ます。これが Sakana Fugu のような オーケストレーション・モデル やオンプレ運用の motivation。
Q6. 量子化は何を選べばよいですか? A. NVIDIA Blackwell(RTX 5090 / B200)= MXFP4(ネイティブ最速)、GPU サーバ(H100 / H200)= AWQ + vLLM、CPU / エッジ = GGUF + llama.cpp、極限の小型化 = BitNet 1.58-bit(実装はまだ限定的)。
Q7. 日本企業の調達ルートはどこですか? A. インテック ¥5M〜の本格 SI、リコー オンプレ LLM スターターキット、PFN PLaMo 3.0 Prime、日立ソリューションズ、各クラウドベンダー(さくら / GMO / AWS Japan) が現在の主要プレイヤー。SMB 〜中堅企業向けには オブライトのような専門 AI コンサル がコスト効率で勝負できる領域です。
Q8. クラウド LLM API から完全オンプレへの移行は現実的ですか? A. 2026年6月時点では現実的。OSS 性能がクローズドと肉薄し(GLM-5.2 / Nemotron 3 Ultra / MiniMax M3)、Blackwell でコンシューマ機材でも 30-70B が実用域に。移行の判断軸はコスト・データ主権・継続性(輸出規制リスク)の3点。
まとめ
2026年6月時点のローカル LLM 市場の3つの実態:
1. OSS 性能がクローズドと肉薄(Intelligence Index v4.1 で GLM-5.2 が 51、Opus 4.8 / GPT-5.5 との差は4-9点まで縮小) 2. Blackwell でコンシューマ GPU が 30-70B 実用域(RTX 5090 ネイティブ MXFP4 / RTX PRO 6000 が defacto 標準) 3. 日本企業の SI 市場が本格化(インテック / リコー / PFN / 日立がメインプレイヤー化、調達ルートが整備)
2026年4月版から2ヶ月でこれだけ動きました。次の節目は EU AI Act 施行(2026-08-02)と、その前後で予想される OSS 各社の対応発表。継続的な情報追跡が重要です。
オブライトでは、ローカル LLM の導入相談・PoC 構築・継続保守を一気通貫で支援しています。本コラム末尾の3つの導線からお気軽にご相談ください。
References
新モデル(一次・二次ソース): - Simon Willison — GLM-5.2 most powerful text-only open weights LLM - Z.ai 公式(GLM-5.2) - Kilo.ai — Best Open-Source & Open-Weight Coding Models 2026 - NVIDIA Nemotron 3 Family - NVIDIA Nemotron 3 Ultra Technical Report - Latent Space — NVIDIA Cosmos 3, Nemotron 3 Ultra, RTX Spark - arXiv 2606.16140 — VibeThinker-3B - Codersera — Open-Source LLMs Landscape May 2026 - HuggingFace — Best Open-Source & Open-Weight LLM Models to Run Locally 2026 ハードウェア: - runyard.dev — RTX 5090 Local LLM Blackwell Guide 2026 - Yotta Labs — Best GPUs for LLM Inference 2026 - VRLA Tech — GPU Benchmark for AI LLM 2026 - Spheron — Best NVIDIA GPUs for LLMs 2026 - knightli — RTX 5090/5080 AI Inference Benchmarks 推論エンジン・量子化: - Meta Intelligence — Quantization Guide 2026 - Jarvis Labs — vLLM Quantization Complete Guide - VRLA Tech — vLLM vs Ollama vs llama.cpp vs SGLang 2026 - Sesame Disk — Local Inference Engines 2026 - GitHub ggml-org/llama.cpp 日本企業: - インテック プレス 2026-01-29 - 日経 — インテック オンプレ LLM SI - IT Leaders — インテック ローカル LLM SI - リコー — オンプレ LLM スターターキット 最優秀賞 - 日経 — リコー Qwen2.5-VL-32B マルチモーダル - 日立ソリューションズ — ローカル LLM オンプレ - Biton — 日本語に強いローカル LLM 2026年5月 規制: - European Commission — Guidelines for GPAI Providers - EU AI Act 公式 - Linux Foundation — What Open Source Developers Need to Know about EU AI Act - HuggingFace — Open Source Developers Guide to EU AI Act 関連弊社コラム: - ローカル LLM 徹底比較 2026年4月版 - Kimi K2.7-Code - Sakana Fugu オーケストレーション・モデル - PLaMo 3.0 Prime - DiffusionGemma - Liquid AI LFM2.5-J - Sakana Marlin - Claude Fable 5 輸出規制停止 - Loop Engineering - Cognition FrontierCode ベンチ お問い合わせ: - AI 導入相談・PoC 構築 - OpenClaw 構築・継続保守 - カスタム開発・SI
お気軽にご相談ください
お問い合わせ