株式会社オブライト
AI2026-04-10

Qwen 3.5 27B Dense&35B-A3B MoE完全ガイド — DFlash高速化で24GB GPUの限界を突破【2026年版】

Qwen 3.5 27B DenseとMoE 35B-A3Bの違い、24GB GPUでの動作要件、DFlash技術による2〜3倍高速化、Ollamaセットアップ手順をわかりやすく解説します。


Qwen 3.5 27B/35B-A3Bとは?RTX 4090(24GB)で動く最大級オープンLLM

Qwen 3.5 27B DenseおよびQwen 3.5-35B-A3B MoEは、Alibaba Qwenチームが2025年後半に公開したQwen 3.5シリーズの上位モデルです。Apache 2.0ライセンスで商用利用も無制限に可能。27B Denseは全27Bパラメータが推論時に常時アクティブとなる密なアーキテクチャで、翻訳・ストーリーテリング・複雑な推論において安定した高品質な出力が特徴です。一方の35B-A3B MoEは総パラメータ35Bながら推論時にアクティブなのは3Bのみのスパース設計で、5倍超の推論速度を実現します。どちらもRTX 3090/4090(24GB VRAM)で快適に動作する、現時点でローカル実行可能な最大級のオープンLLMです。

27B Dense vs 35B-A3B MoE — スペック比較表

項目Qwen 3.5-27B DenseQwen 3.5-35B-A3B MoE
総パラメータ27B35B
アクティブパラメータ27B(全パラメータ)3B(スパース)
VRAM(Q4_K_M)約16.1GB約19.6GB
推論速度30〜50 tok/s150以上 tok/s(約5倍)
推論安定性極めて高いやや劣る
翻訳品質最高クラス良好
ストーリーテリング最高クラス良好
バッチ処理普通優れている
推奨GPURTX 3090/4090 (24GB)RTX 3090/4090 (24GB)

VRAM別モデル選択フロー

Loading diagram...

ハードウェア要件詳細

ハードウェア27B Q427B FP1635B-A3B Q435B-A3B FP16
RTX 3090 (24GB)OK(30〜50 tok/s)NGOK(高速)NG
RTX 4090 (24GB)快適(40〜60 tok/s)NG快適NG
M4 Pro (24GB)OK(35〜45 tok/s)NGOKNG
M4 Max (48GB)快適OK快適OK
A100 (80GB)最適快適最適快適

Ollamaセットアップ手順

Ollamaを使えば数コマンドでQwen 3.5の27B/35B-A3Bを実行できます。まずOllama公式サイト(ollama.com)からインストーラーをダウンロードし、セットアップ後に以下のコマンドを実行してください。

bash
# 27B Dense
ollama run qwen3.5:27b

# 35B-A3B MoE
ollama run qwen3.5:35b-a3b

# 量子化レベル指定(VRAMが限られる場合)
ollama run qwen3.5:27b-q4_K_M

モデルのダウンロードには27Bで約16GB、35B-A3Bで約20GBのディスク容量が必要です。初回起動時はダウンロードに10〜30分程度かかります。

量子化レベル別比較表

量子化27B VRAM35B-A3B VRAM品質(27B基準)速度(27B基準)
FP1654GB70GB100%1x
Q8_028.6GB37GB99%1.2x
Q6_K22.1GB28.6GB98%1.4x
Q5_K_M18.9GB24.5GB96%1.5x
Q4_K_M16.1GB19.6GB93%1.8x

24GB VRAMユーザーは27BならQ4_K_M、35B-A3BもQ4_K_Mを選ぶのが定番の選択です。品質と速度のバランスが最も優れています。

DFlash技術とは?従来の自己回帰を超える並列生成

DFlashはブロック拡散ベースの投機的デコーディング(Speculative Decoding)です。従来のLLMは1トークンずつ逐次生成(自己回帰)するのに対し、DFlashは軽量な拡散モデルが複数トークンを並列で生成し、本体モデルが検証・採用するアーキテクチャを採用します。この手法により、従来最強とされていたEAGLE-3を2.5倍上回る高速化性能を実現。特にMoEモデルとの組み合わせでその効果が顕著で、Qwen 3.5-35B-A3BにDFlashを適用すると通常150 tok/sから最大420 tok/sに達するケースも報告されています。

従来手法 vs DFlash — アーキテクチャ比較

Loading diagram...

DFlash実測スピード比較

モデル通常速度DFlash適用後高速化率
Qwen 3.5-35B-A3B150 tok/s300〜420 tok/s2〜2.8倍
Qwen 3.5-9B80 tok/s280 tok/s3.5倍
Qwen 3.5-27B40 tok/s80〜100 tok/s2〜2.5倍

DFlashはモデルが軽いほど(アクティブパラメータが少ないほど)効果が大きく、9Bで最大3.5倍、35B-A3Bでも2〜2.8倍の高速化が期待できます。

DFlashの導入方法と対応状況

現時点でDFlashはvLLMおよびSGLangから利用可能です。llama.cppでは導入に向けた議論が進んでいますが(GitHub Issue #21569)、まだ実装には至っていません。OllamaはllLama.cppを内部で使用しているため、llama.cpp対応が完了するまでOllamaからのDFlash利用は待機が必要な状況です。vLLMを使う場合は以下の手順で導入できます:vLLMをインストール後、`--speculative-model`フラグにDFlash拡散モデルを指定して起動するだけで有効化されます。サーバー用途やバッチ処理では今すぐ恩恵を受けられます。

27B DenseをあえてMoEより選ぶ理由

全パラメータが常時アクティブなDenseアーキテクチャは、推論の「安定感」と「一貫性」において依然として優位性があります。翻訳・ストーリーテリング・複雑な多段推論といったタスクでは、MoEに比べて出力のばらつきが少なく、特に業務文書・技術文書の作成で顕著な差が出ます。速度よりも1回の出力の精度を重視するユーザーや、応答品質のブレを嫌うプロダクション用途では27B Denseが今も最有力候補です。

35B-A3B MoEをあえてDenseより選ぶ理由

3Bアクティブパラメータで実現する約5倍の推論速度は、チャットボット・リアルタイム応答・大量バッチ処理において圧倒的なアドバンテージです。同じ24GB GPUで27B Denseが30〜50 tok/sなのに対し、35B-A3Bは150 tok/s以上を達成。DFlashを適用すれば最大420 tok/sも視野に入り、クラウドAPIに匹敵するスループットをローカルで実現できます。速さが競争力に直結するプロダクトや、複数ユーザーへの同時対応が必要な場面では35B-A3Bが最適解です。

日本語性能 — 201言語対応で業務文書も実用レベル

Qwen 3.5シリーズは201言語に対応しており、日本語のサポートは特に充実しています。27B Denseは日本語翻訳・ビジネス文書・技術文書の作成で9Bを大幅に上回る品質を発揮し、実務投入が十分可能なレベルに達しています。社内ドキュメントの自動作成・英日翻訳・メールドラフト生成などのユースケースでは、クラウドAPIと遜色ない出力品質が得られます。データをクラウドに送りたくない企業にとって、オンプレミスで27Bが動作することは大きな意義を持ちます。

9B → 27B/35B アップグレード判断チェックリスト

チェック項目9Bで十分27B/35Bにアップグレード
VRAM8GB以下24GB以上
日本語品質基本的なチャット業務文書・翻訳
推論の複雑さ単純なQ&A多段推論・分析
応答速度要件厳しくないQ4で30〜50 tok/s必要
予算GPU追加不要RTX 4090相当が必要

1つでも右列に該当するなら、27Bまたは35B-A3Bへのアップグレードを検討する価値があります。

コスト比較 — ローカル27B vs クラウドAPI

項目ローカル27B(RTX 4090)Claude Sonnet API
初期投資GPU 約25万円0円
月間コスト電気代 約1,500円月3〜10万円
6ヶ月総コスト約26万円約18〜60万円
損益分岐約3ヶ月
データセキュリティ完全オンプレミスクラウド送信

APIに月3万円以上支払っている場合、RTX 4090一枚(約25万円)の投資は3ヶ月以内に回収できる計算です。機密データ保護の観点でもローカル運用は強力な選択肢です。

今後の展望 — DFlash × llama.cpp統合とQwen 3.6

DFlashのllama.cpp統合が実現すれば、Ollama経由で誰でも簡単に2〜3倍の高速化を享受できるようになります。GitHub上の議論は活発で、2026年中の実装が期待されています。また、AlibaaのQwen 3.6についてはオープンウェイト版の計画が示されており、27B/35Bクラスの次世代モデルがリリースされれば、ローカルLLMの品質はさらに向上します。現時点でのQwen 3.5 27B/35B-A3Bは、オープンモデルの最前線に位置しており、今後も注目すべきシリーズです。

FAQ — よくある7つの質問

Q1: 27Bと35B-A3B、どちらを選べばよいですか? 品質・安定性を重視するなら27B Dense、速度・スループットを重視するなら35B-A3B MoEを選んでください。翻訳や業務文書には27B、チャットボットやバッチ処理には35B-A3Bが向いています。 Q2: RTX 3060(12GB)で動きますか? 27BはQ4_K_Mでも約16.1GBのVRAMが必要なため、12GBのRTX 3060では動作しません。9B(Q4: 約5.1GB)を推奨します。 Q3: Mac mini M4(16GB)で動きますか? 27BはQ4_K_Mで約16.1GB必要なため、16GBモデルではほぼVRAMが限界になり非常に動作が遅くなります。9Bの方が快適です。M4 Pro(24GB)以上であれば27Bも実用的に動作します。 Q4: DFlashは今すぐ使えますか? vLLMまたはSGLangを使っている場合は今すぐ利用可能です。OllamaやCLIのllama.cppはまだ未対応です。 Q5: 9Bから27Bにすると品質はどれくらい上がりますか? 翻訳・複雑な推論・文書生成で体感20〜30%の改善が見込めます。特に日本語の長文翻訳や業務文書では差が顕著です。 Q6: 商用利用は可能ですか? Apache 2.0ライセンスのため完全に自由な商用利用が可能です。プロダクトへの組み込みや社内ツールへの適用に制限はありません。 Q7: Qwen 3.6のオープンウェイト版はいつ出ますか? Alibaba側からはオープンウェイト版の計画中という発表がありましたが、具体的なリリース時期は2026年4月現在まだ未定です。

ローカルLLM導入をプロフェッショナルにサポート

Qwen 3.5 27B/35B-A3BのローカルRAG構築・社内AI基盤の設計・DFlashを活用した高速推論環境の整備など、AIインフラの導入・運用でお困りの場合はOflightのAIコンサルティングサービスにご相談ください。品川区・港区・渋谷区を中心に、全国対応でご支援しています。→ AIコンサルティングサービスを見る

お気軽にご相談ください

お問い合わせ