Qwen 3.5 27B Dense&35B-A3B MoE完全ガイド — DFlash高速化で24GB GPUの限界を突破【2026年版】
Qwen 3.5 27B DenseとMoE 35B-A3Bの違い、24GB GPUでの動作要件、DFlash技術による2〜3倍高速化、Ollamaセットアップ手順をわかりやすく解説します。
Qwen 3.5 27B/35B-A3Bとは?RTX 4090(24GB)で動く最大級オープンLLM
Qwen 3.5 27B DenseおよびQwen 3.5-35B-A3B MoEは、Alibaba Qwenチームが2025年後半に公開したQwen 3.5シリーズの上位モデルです。Apache 2.0ライセンスで商用利用も無制限に可能。27B Denseは全27Bパラメータが推論時に常時アクティブとなる密なアーキテクチャで、翻訳・ストーリーテリング・複雑な推論において安定した高品質な出力が特徴です。一方の35B-A3B MoEは総パラメータ35Bながら推論時にアクティブなのは3Bのみのスパース設計で、5倍超の推論速度を実現します。どちらもRTX 3090/4090(24GB VRAM)で快適に動作する、現時点でローカル実行可能な最大級のオープンLLMです。
27B Dense vs 35B-A3B MoE — スペック比較表
| 項目 | Qwen 3.5-27B Dense | Qwen 3.5-35B-A3B MoE |
|---|---|---|
| 総パラメータ | 27B | 35B |
| アクティブパラメータ | 27B(全パラメータ) | 3B(スパース) |
| VRAM(Q4_K_M) | 約16.1GB | 約19.6GB |
| 推論速度 | 30〜50 tok/s | 150以上 tok/s(約5倍) |
| 推論安定性 | 極めて高い | やや劣る |
| 翻訳品質 | 最高クラス | 良好 |
| ストーリーテリング | 最高クラス | 良好 |
| バッチ処理 | 普通 | 優れている |
| 推奨GPU | RTX 3090/4090 (24GB) | RTX 3090/4090 (24GB) |
VRAM別モデル選択フロー
ハードウェア要件詳細
| ハードウェア | 27B Q4 | 27B FP16 | 35B-A3B Q4 | 35B-A3B FP16 |
|---|---|---|---|---|
| RTX 3090 (24GB) | OK(30〜50 tok/s) | NG | OK(高速) | NG |
| RTX 4090 (24GB) | 快適(40〜60 tok/s) | NG | 快適 | NG |
| M4 Pro (24GB) | OK(35〜45 tok/s) | NG | OK | NG |
| M4 Max (48GB) | 快適 | OK | 快適 | OK |
| A100 (80GB) | 最適 | 快適 | 最適 | 快適 |
Ollamaセットアップ手順
Ollamaを使えば数コマンドでQwen 3.5の27B/35B-A3Bを実行できます。まずOllama公式サイト(ollama.com)からインストーラーをダウンロードし、セットアップ後に以下のコマンドを実行してください。
# 27B Dense
ollama run qwen3.5:27b
# 35B-A3B MoE
ollama run qwen3.5:35b-a3b
# 量子化レベル指定(VRAMが限られる場合)
ollama run qwen3.5:27b-q4_K_Mモデルのダウンロードには27Bで約16GB、35B-A3Bで約20GBのディスク容量が必要です。初回起動時はダウンロードに10〜30分程度かかります。
量子化レベル別比較表
| 量子化 | 27B VRAM | 35B-A3B VRAM | 品質(27B基準) | 速度(27B基準) |
|---|---|---|---|---|
| FP16 | 54GB | 70GB | 100% | 1x |
| Q8_0 | 28.6GB | 37GB | 99% | 1.2x |
| Q6_K | 22.1GB | 28.6GB | 98% | 1.4x |
| Q5_K_M | 18.9GB | 24.5GB | 96% | 1.5x |
| Q4_K_M | 16.1GB | 19.6GB | 93% | 1.8x |
24GB VRAMユーザーは27BならQ4_K_M、35B-A3BもQ4_K_Mを選ぶのが定番の選択です。品質と速度のバランスが最も優れています。
DFlash技術とは?従来の自己回帰を超える並列生成
DFlashはブロック拡散ベースの投機的デコーディング(Speculative Decoding)です。従来のLLMは1トークンずつ逐次生成(自己回帰)するのに対し、DFlashは軽量な拡散モデルが複数トークンを並列で生成し、本体モデルが検証・採用するアーキテクチャを採用します。この手法により、従来最強とされていたEAGLE-3を2.5倍上回る高速化性能を実現。特にMoEモデルとの組み合わせでその効果が顕著で、Qwen 3.5-35B-A3BにDFlashを適用すると通常150 tok/sから最大420 tok/sに達するケースも報告されています。
従来手法 vs DFlash — アーキテクチャ比較
DFlash実測スピード比較
| モデル | 通常速度 | DFlash適用後 | 高速化率 |
|---|---|---|---|
| Qwen 3.5-35B-A3B | 150 tok/s | 300〜420 tok/s | 2〜2.8倍 |
| Qwen 3.5-9B | 80 tok/s | 280 tok/s | 3.5倍 |
| Qwen 3.5-27B | 40 tok/s | 80〜100 tok/s | 2〜2.5倍 |
DFlashはモデルが軽いほど(アクティブパラメータが少ないほど)効果が大きく、9Bで最大3.5倍、35B-A3Bでも2〜2.8倍の高速化が期待できます。
DFlashの導入方法と対応状況
現時点でDFlashはvLLMおよびSGLangから利用可能です。llama.cppでは導入に向けた議論が進んでいますが(GitHub Issue #21569)、まだ実装には至っていません。OllamaはllLama.cppを内部で使用しているため、llama.cpp対応が完了するまでOllamaからのDFlash利用は待機が必要な状況です。vLLMを使う場合は以下の手順で導入できます:vLLMをインストール後、`--speculative-model`フラグにDFlash拡散モデルを指定して起動するだけで有効化されます。サーバー用途やバッチ処理では今すぐ恩恵を受けられます。
27B DenseをあえてMoEより選ぶ理由
全パラメータが常時アクティブなDenseアーキテクチャは、推論の「安定感」と「一貫性」において依然として優位性があります。翻訳・ストーリーテリング・複雑な多段推論といったタスクでは、MoEに比べて出力のばらつきが少なく、特に業務文書・技術文書の作成で顕著な差が出ます。速度よりも1回の出力の精度を重視するユーザーや、応答品質のブレを嫌うプロダクション用途では27B Denseが今も最有力候補です。
35B-A3B MoEをあえてDenseより選ぶ理由
3Bアクティブパラメータで実現する約5倍の推論速度は、チャットボット・リアルタイム応答・大量バッチ処理において圧倒的なアドバンテージです。同じ24GB GPUで27B Denseが30〜50 tok/sなのに対し、35B-A3Bは150 tok/s以上を達成。DFlashを適用すれば最大420 tok/sも視野に入り、クラウドAPIに匹敵するスループットをローカルで実現できます。速さが競争力に直結するプロダクトや、複数ユーザーへの同時対応が必要な場面では35B-A3Bが最適解です。
日本語性能 — 201言語対応で業務文書も実用レベル
Qwen 3.5シリーズは201言語に対応しており、日本語のサポートは特に充実しています。27B Denseは日本語翻訳・ビジネス文書・技術文書の作成で9Bを大幅に上回る品質を発揮し、実務投入が十分可能なレベルに達しています。社内ドキュメントの自動作成・英日翻訳・メールドラフト生成などのユースケースでは、クラウドAPIと遜色ない出力品質が得られます。データをクラウドに送りたくない企業にとって、オンプレミスで27Bが動作することは大きな意義を持ちます。
9B → 27B/35B アップグレード判断チェックリスト
| チェック項目 | 9Bで十分 | 27B/35Bにアップグレード |
|---|---|---|
| VRAM | 8GB以下 | 24GB以上 |
| 日本語品質 | 基本的なチャット | 業務文書・翻訳 |
| 推論の複雑さ | 単純なQ&A | 多段推論・分析 |
| 応答速度要件 | 厳しくない | Q4で30〜50 tok/s必要 |
| 予算 | GPU追加不要 | RTX 4090相当が必要 |
1つでも右列に該当するなら、27Bまたは35B-A3Bへのアップグレードを検討する価値があります。
コスト比較 — ローカル27B vs クラウドAPI
| 項目 | ローカル27B(RTX 4090) | Claude Sonnet API |
|---|---|---|
| 初期投資 | GPU 約25万円 | 0円 |
| 月間コスト | 電気代 約1,500円 | 月3〜10万円 |
| 6ヶ月総コスト | 約26万円 | 約18〜60万円 |
| 損益分岐 | 約3ヶ月 | — |
| データセキュリティ | 完全オンプレミス | クラウド送信 |
APIに月3万円以上支払っている場合、RTX 4090一枚(約25万円)の投資は3ヶ月以内に回収できる計算です。機密データ保護の観点でもローカル運用は強力な選択肢です。
今後の展望 — DFlash × llama.cpp統合とQwen 3.6
DFlashのllama.cpp統合が実現すれば、Ollama経由で誰でも簡単に2〜3倍の高速化を享受できるようになります。GitHub上の議論は活発で、2026年中の実装が期待されています。また、AlibaaのQwen 3.6についてはオープンウェイト版の計画が示されており、27B/35Bクラスの次世代モデルがリリースされれば、ローカルLLMの品質はさらに向上します。現時点でのQwen 3.5 27B/35B-A3Bは、オープンモデルの最前線に位置しており、今後も注目すべきシリーズです。
FAQ — よくある7つの質問
Q1: 27Bと35B-A3B、どちらを選べばよいですか? 品質・安定性を重視するなら27B Dense、速度・スループットを重視するなら35B-A3B MoEを選んでください。翻訳や業務文書には27B、チャットボットやバッチ処理には35B-A3Bが向いています。 Q2: RTX 3060(12GB)で動きますか? 27BはQ4_K_Mでも約16.1GBのVRAMが必要なため、12GBのRTX 3060では動作しません。9B(Q4: 約5.1GB)を推奨します。 Q3: Mac mini M4(16GB)で動きますか? 27BはQ4_K_Mで約16.1GB必要なため、16GBモデルではほぼVRAMが限界になり非常に動作が遅くなります。9Bの方が快適です。M4 Pro(24GB)以上であれば27Bも実用的に動作します。 Q4: DFlashは今すぐ使えますか? vLLMまたはSGLangを使っている場合は今すぐ利用可能です。OllamaやCLIのllama.cppはまだ未対応です。 Q5: 9Bから27Bにすると品質はどれくらい上がりますか? 翻訳・複雑な推論・文書生成で体感20〜30%の改善が見込めます。特に日本語の長文翻訳や業務文書では差が顕著です。 Q6: 商用利用は可能ですか? Apache 2.0ライセンスのため完全に自由な商用利用が可能です。プロダクトへの組み込みや社内ツールへの適用に制限はありません。 Q7: Qwen 3.6のオープンウェイト版はいつ出ますか? Alibaba側からはオープンウェイト版の計画中という発表がありましたが、具体的なリリース時期は2026年4月現在まだ未定です。
ローカルLLM導入をプロフェッショナルにサポート
Qwen 3.5 27B/35B-A3BのローカルRAG構築・社内AI基盤の設計・DFlashを活用した高速推論環境の整備など、AIインフラの導入・運用でお困りの場合はOflightのAIコンサルティングサービスにご相談ください。品川区・港区・渋谷区を中心に、全国対応でご支援しています。→ AIコンサルティングサービスを見る
お気軽にご相談ください
お問い合わせ