株式会社オブライト

「RTX 5090」のコラム

1件の記事

ローカル LLM 2026年6月最新版 — 4月版からの差分整理：GLM-5.2 が OSS 首位（Intelligence Index v4.1 で 51 点）、MiniMax M3 が 1M context + SWE-Bench Pro 59%、NVIDIA Nemotron 3 Ultra 550B、Blackwell ネイティブ MXFP4 で RTX 5090 が 30-70B 実用域、日本ではインテック ¥5M〜の SI、リコーオンプレ LLM スターターキットが日経最優秀賞、PFN PLaMo + デジタル庁『源内』採用、EU AI Act 2026-08-02 施行迫る

2026年4月に公開した[ローカル LLM 徹底比較コラム](../columns/local-llm-landscape-2026-april-comprehensive-comparison)から2ヶ月、**何が変わったか** を一次ソース中心に整理した最新版です。**3つの大変化**: (1) **OSS 性能がクローズドと肉薄** — [GLM-5.2](https://simonwillison.net/2026/Jun/17/glm-52/)（Z.ai、MIT、2026-06-16）が Intelligence Index v4.1 で **51 点**（MiniMax M3 44 / DeepSeek V4 Pro 44 / Kimi K2.6 43 を抜いて OSS 首位）、[MiniMax M3](https://kilo.ai/open-source-models) が **1M context・ネイティブマルチモーダル・SWE-Bench Pro 59.0%・Terminal-Bench 2.1 66.0%・MCP Atlas 74.2%**、[NVIDIA Nemotron 3 Ultra](https://research.nvidia.com/labs/nemotron/Nemotron-3/)（Computex 2026 で Jensen Huang 発表、**550B パラメータ**、米国 OSS 首位）、[VibeThinker-3B](https://arxiv.org/pdf/2606.16140)（WeiboAI、MIT、Qwen2.5-Coder-3B fine-tune、**3B で frontier reasoner 並み**）。**(2) Blackwell でコンシューマ GPU が 30-70B 実用域** — RTX 5090 は **32GB GDDR7・1,792 GB/s 帯域**（4090 比 +77%）・**ネイティブ MXFP4 で GGUF Q4 を emulation 0** で実行可、Qwen 2.5-Coder-7B で **5,841 tok/s**（batch 8、A100 80GB の 2.6 倍）、RTX PRO 6000 Blackwell は 30B モデルで **~8,425 tok/s**、B200 は **192GB HBM3e・8 TB/s・H100 比 4-5 倍**。**(3) 日本企業の SI 化が本格化** — **インテック**（TIS グループ）が2026-01-29 から **ローカル LLM 導入支援 SI、最短1ヶ月・参考価格 ¥5,000,000〜**、**リコー**「**RICOH オンプレ LLM スターターキット**」が**2025年日経優秀製品・サービス賞最優秀賞**受賞（Qwen2.5-VL-32B-Instruct ベース）、PFN [PLaMo 3.0 Prime](../columns/plamo-3-0-prime-pfn-japanese-llm-2026-06) が**デジタル庁『源内』採用**、Mizuho / Lion の Qwen 国内ファインチューン precedent と並ぶ。さらに [Kimi K2.7-Code](../columns/kimi-k2-7-code-moonshot-ai-2026-06)・[Sakana Fugu](../columns/sakana-fugu-orchestration-model-2026-06)・[DiffusionGemma](../columns/diffusiongemma-google-text-diffusion-2026-06)・[Liquid AI LFM2.5-J](../columns/liquid-ai-lfm25-japanese-models-2026-06) など同時期の動きも整理。推論エンジン選定（**AWQ + vLLM = GPU 最速、GGUF + llama.cpp = CPU/エッジ、SGLang = エージェント、TensorRT-LLM = NVIDIA クラスタ**）、量子化（BitNet 1.58-bit / MXFP4 / AWQ）、規制動向（**EU AI Act 2026-08-02 施行・systemic risk threshold 10^25 FLOPs**、米輸出規制 [Fable 5 precedent](../columns/claude-fable-5-export-control-suspension-2026-06)、中国系のデータ越境）、典型 GPU 構成、オブライト視点の3ステップ導入論まで。記事末尾に **ローカル LLM 導入・構築・保守の3つの問い合わせ導線** を設置しています。

Local LLMOpen WeightSelf-hosted