AI2026-04-10

Qwen 3.5 27B Dense＆35B-A3B MoE完全ガイド — DFlash高速化で24GB GPUの限界を突破【2026年版】

Qwen 3.5 27B DenseとMoE 35B-A3Bの違い、24GB GPUでの動作要件、DFlash技術による2〜3倍高速化、Ollamaセットアップ手順をわかりやすく解説します。

Qwen 3.5 27B Dense 35B-A3B MoE DFlash ローカルLLM

Qwen 3.5 27B/35B-A3Bとは？RTX 4090（24GB）で動く最大級オープンLLM

Qwen 3.5 27B DenseおよびQwen 3.5-35B-A3B MoEは、Alibaba Qwenチームが2025年後半に公開したQwen 3.5シリーズの上位モデルです。Apache 2.0ライセンスで商用利用も無制限に可能。27B Denseは全27Bパラメータが推論時に常時アクティブとなる密なアーキテクチャで、翻訳・ストーリーテリング・複雑な推論において安定した高品質な出力が特徴です。一方の35B-A3B MoEは総パラメータ35Bながら推論時にアクティブなのは3Bのみのスパース設計で、5倍超の推論速度を実現します。どちらもRTX 3090/4090（24GB VRAM）で快適に動作する、現時点でローカル実行可能な最大級のオープンLLMです。

27B Dense vs 35B-A3B MoE — スペック比較表

項目	Qwen 3.5-27B Dense	Qwen 3.5-35B-A3B MoE
総パラメータ	27B	35B
アクティブパラメータ	27B（全パラメータ）	3B（スパース）
VRAM（Q4_K_M）	約16.1GB	約19.6GB
推論速度	30〜50 tok/s	150以上 tok/s（約5倍）
推論安定性	極めて高い	やや劣る
翻訳品質	最高クラス	良好
ストーリーテリング	最高クラス	良好
バッチ処理	普通	優れている
推奨GPU	RTX 3090/4090 (24GB)	RTX 3090/4090 (24GB)

VRAM別モデル選択フロー

Loading diagram...

ハードウェア要件詳細

ハードウェア	27B Q4	27B FP16	35B-A3B Q4	35B-A3B FP16
RTX 3090 (24GB)	OK（30〜50 tok/s）	NG	OK（高速）	NG
RTX 4090 (24GB)	快適（40〜60 tok/s）	NG	快適	NG
M4 Pro (24GB)	OK（35〜45 tok/s）	NG	OK	NG
M4 Max (48GB)	快適	OK	快適	OK
A100 (80GB)	最適	快適	最適	快適

Ollamaセットアップ手順

Ollamaを使えば数コマンドでQwen 3.5の27B/35B-A3Bを実行できます。まずOllama公式サイト（ollama.com）からインストーラーをダウンロードし、セットアップ後に以下のコマンドを実行してください。

bash

# 27B Dense
ollama run qwen3.5:27b

# 35B-A3B MoE
ollama run qwen3.5:35b-a3b

# 量子化レベル指定（VRAMが限られる場合）
ollama run qwen3.5:27b-q4_K_M

モデルのダウンロードには27Bで約16GB、35B-A3Bで約20GBのディスク容量が必要です。初回起動時はダウンロードに10〜30分程度かかります。

量子化レベル別比較表

量子化	27B VRAM	35B-A3B VRAM	品質（27B基準）	速度（27B基準）
FP16	54GB	70GB	100%	1x
Q8_0	28.6GB	37GB	99%	1.2x
Q6_K	22.1GB	28.6GB	98%	1.4x
Q5_K_M	18.9GB	24.5GB	96%	1.5x
Q4_K_M	16.1GB	19.6GB	93%	1.8x

24GB VRAMユーザーは27BならQ4_K_M、35B-A3BもQ4_K_Mを選ぶのが定番の選択です。品質と速度のバランスが最も優れています。

DFlash技術とは？従来の自己回帰を超える並列生成

DFlashはブロック拡散ベースの投機的デコーディング（Speculative Decoding）です。従来のLLMは1トークンずつ逐次生成（自己回帰）するのに対し、DFlashは軽量な拡散モデルが複数トークンを並列で生成し、本体モデルが検証・採用するアーキテクチャを採用します。この手法により、従来最強とされていたEAGLE-3を2.5倍上回る高速化性能を実現。特にMoEモデルとの組み合わせでその効果が顕著で、Qwen 3.5-35B-A3BにDFlashを適用すると通常150 tok/sから最大420 tok/sに達するケースも報告されています。

従来手法 vs DFlash — アーキテクチャ比較

Loading diagram...

DFlash実測スピード比較

モデル	通常速度	DFlash適用後	高速化率
Qwen 3.5-35B-A3B	150 tok/s	300〜420 tok/s	2〜2.8倍
Qwen 3.5-9B	80 tok/s	280 tok/s	3.5倍
Qwen 3.5-27B	40 tok/s	80〜100 tok/s	2〜2.5倍

DFlashはモデルが軽いほど（アクティブパラメータが少ないほど）効果が大きく、9Bで最大3.5倍、35B-A3Bでも2〜2.8倍の高速化が期待できます。

DFlashの導入方法と対応状況

現時点でDFlashはvLLMおよびSGLangから利用可能です。llama.cppでは導入に向けた議論が進んでいますが（GitHub Issue #21569）、まだ実装には至っていません。OllamaはllLama.cppを内部で使用しているため、llama.cpp対応が完了するまでOllamaからのDFlash利用は待機が必要な状況です。vLLMを使う場合は以下の手順で導入できます：vLLMをインストール後、`--speculative-model`フラグにDFlash拡散モデルを指定して起動するだけで有効化されます。サーバー用途やバッチ処理では今すぐ恩恵を受けられます。

27B DenseをあえてMoEより選ぶ理由

全パラメータが常時アクティブなDenseアーキテクチャは、推論の「安定感」と「一貫性」において依然として優位性があります。翻訳・ストーリーテリング・複雑な多段推論といったタスクでは、MoEに比べて出力のばらつきが少なく、特に業務文書・技術文書の作成で顕著な差が出ます。速度よりも1回の出力の精度を重視するユーザーや、応答品質のブレを嫌うプロダクション用途では27B Denseが今も最有力候補です。

35B-A3B MoEをあえてDenseより選ぶ理由

3Bアクティブパラメータで実現する約5倍の推論速度は、チャットボット・リアルタイム応答・大量バッチ処理において圧倒的なアドバンテージです。同じ24GB GPUで27B Denseが30〜50 tok/sなのに対し、35B-A3Bは150 tok/s以上を達成。DFlashを適用すれば最大420 tok/sも視野に入り、クラウドAPIに匹敵するスループットをローカルで実現できます。速さが競争力に直結するプロダクトや、複数ユーザーへの同時対応が必要な場面では35B-A3Bが最適解です。

日本語性能 — 201言語対応で業務文書も実用レベル

Qwen 3.5シリーズは201言語に対応しており、日本語のサポートは特に充実しています。27B Denseは日本語翻訳・ビジネス文書・技術文書の作成で9Bを大幅に上回る品質を発揮し、実務投入が十分可能なレベルに達しています。社内ドキュメントの自動作成・英日翻訳・メールドラフト生成などのユースケースでは、クラウドAPIと遜色ない出力品質が得られます。データをクラウドに送りたくない企業にとって、オンプレミスで27Bが動作することは大きな意義を持ちます。

9B → 27B/35B アップグレード判断チェックリスト

チェック項目	9Bで十分	27B/35Bにアップグレード
VRAM	8GB以下	24GB以上
日本語品質	基本的なチャット	業務文書・翻訳
推論の複雑さ	単純なQ&A	多段推論・分析
応答速度要件	厳しくない	Q4で30〜50 tok/s必要
予算	GPU追加不要	RTX 4090相当が必要

1つでも右列に該当するなら、27Bまたは35B-A3Bへのアップグレードを検討する価値があります。

コスト比較 — ローカル27B vs クラウドAPI

項目	ローカル27B（RTX 4090）	Claude Sonnet API
初期投資	GPU 約25万円	0円
月間コスト	電気代約1,500円	月3〜10万円
6ヶ月総コスト	約26万円	約18〜60万円
損益分岐	約3ヶ月	—
データセキュリティ	完全オンプレミス	クラウド送信

APIに月3万円以上支払っている場合、RTX 4090一枚（約25万円）の投資は3ヶ月以内に回収できる計算です。機密データ保護の観点でもローカル運用は強力な選択肢です。

今後の展望 — DFlash × llama.cpp統合とQwen 3.6

DFlashのllama.cpp統合が実現すれば、Ollama経由で誰でも簡単に2〜3倍の高速化を享受できるようになります。GitHub上の議論は活発で、2026年中の実装が期待されています。また、AlibaaのQwen 3.6についてはオープンウェイト版の計画が示されており、27B/35Bクラスの次世代モデルがリリースされれば、ローカルLLMの品質はさらに向上します。現時点でのQwen 3.5 27B/35B-A3Bは、オープンモデルの最前線に位置しており、今後も注目すべきシリーズです。

FAQ — よくある7つの質問

Q1: 27Bと35B-A3B、どちらを選べばよいですか？ 品質・安定性を重視するなら27B Dense、速度・スループットを重視するなら35B-A3B MoEを選んでください。翻訳や業務文書には27B、チャットボットやバッチ処理には35B-A3Bが向いています。 Q2: RTX 3060（12GB）で動きますか？ 27BはQ4_K_Mでも約16.1GBのVRAMが必要なため、12GBのRTX 3060では動作しません。9B（Q4: 約5.1GB）を推奨します。 Q3: Mac mini M4（16GB）で動きますか？ 27BはQ4_K_Mで約16.1GB必要なため、16GBモデルではほぼVRAMが限界になり非常に動作が遅くなります。9Bの方が快適です。M4 Pro（24GB）以上であれば27Bも実用的に動作します。 Q4: DFlashは今すぐ使えますか？ vLLMまたはSGLangを使っている場合は今すぐ利用可能です。OllamaやCLIのllama.cppはまだ未対応です。 Q5: 9Bから27Bにすると品質はどれくらい上がりますか？ 翻訳・複雑な推論・文書生成で体感20〜30%の改善が見込めます。特に日本語の長文翻訳や業務文書では差が顕著です。 Q6: 商用利用は可能ですか？ Apache 2.0ライセンスのため完全に自由な商用利用が可能です。プロダクトへの組み込みや社内ツールへの適用に制限はありません。 Q7: Qwen 3.6のオープンウェイト版はいつ出ますか？ Alibaba側からはオープンウェイト版の計画中という発表がありましたが、具体的なリリース時期は2026年4月現在まだ未定です。

ローカルLLM導入をプロフェッショナルにサポート

Qwen 3.5 27B/35B-A3BのローカルRAG構築・社内AI基盤の設計・DFlashを活用した高速推論環境の整備など、AIインフラの導入・運用でお困りの場合はOflightのAIコンサルティングサービスにご相談ください。品川区・港区・渋谷区を中心に、全国対応でご支援しています。→ AIコンサルティングサービスを見る

お気軽にご相談ください

お問い合わせ