本文へスキップ
株式会社オブライト
AI2026-07-05

Qwen3.6-35B-A3B Uncensored / Abliterated 徹底解説 — 35B MoE / 3B アクティブ / 262K context / hybrid linear+softmax 3:1 / text+image+video 対応、refusal 0/465、コミュニティ製 uncensored 派生の技術と倫理 HauhauCS Aggressive・huihui-ai abliterated・wangzhang abliterated・prithivMLmods など複数バリアント、Hugging Face + Ollama で配布

Qwen3.6-35B-A3B-Uncensored / Abliterated は、Alibaba の Qwen 3.6-35B-A3B(MoE、35B 総パラメータ / 3B アクティブ、262K context、hybrid attention)をベースに、コミュニティ有志が『拒否挙動(refusal)を除去』した派生モデル群HackerNoon 解説 / HauhauCS Aggressive / huihui-ai abliterated / wangzhang abliterated / prithivMLmods Aggressive)。

ベースモデルの仕様: 35B 総パラメータ / 3B アクティブ(MoE、sparse expert 構造)、40 層hybrid attention(linear + full softmax の 3:1 比率)、262K トークン native contexttext / image / video ネイティブマルチモーダル入力。Alibaba のオープンウェイト戦略の中核モデル。

Abliteration 技術: 『拒否方向』を LoRA ベースの steering で attention / MLP projection から除去。追加で Expert-Granular Abliteration (EGA)(各層の expert down_proj スライス単位で abliteration)、MoE router suppression(safety expert を router 段階で無効化)という MoE 特化技法を組み合わせている。HauhauCS の内部テストでは 465 プロンプトのテストで 0 refusal と報告。ベース Qwen 3.6-35B の能力は 100% 維持しつつ、refusal のみ除去する設計思想。

複数バリアント:
- HauhauCS-AggressiveHF / Ollama): 最も aggressive な refusal 除去
- huihui-ai Huihui-Qwen3.6-abliteratedHF / Ollama): 実績ある huihui-ai チームの手法
- wangzhang abliteratedHF
- prithivMLmods Uncensored-AggressiveHF

各バリアントは 量子化オプション(GGUF Q4 / Q5 / Q8 / FP16 等)を用意しており、コンシューマ GPU(RTX 5090 32GB)から H100 まで幅広いハードウェアで実行可能。

倫理・法的論点: Abliterated モデルは 本来 Qwen が拒否すべき有害コンテンツ(違法薬物・攻撃コード・危険物合成等)を生成し得る。研究目的・脱獄耐性検証・ロールプレイ・成人向けコンテンツ生成等の合法用途は存在するが、業務利用・エンタープライズ導入では強い法的リスク。EU AI Act(2026-08 施行)や日本の PPC ガイドラインへの適合も懸念。責任は完全に利用者側、Alibaba / Qwen チームは関与せず。

位置付け: ローカル LLM 2026年6月最新版Kimi K2.7-CodeOrnith-1.0 と並ぶオープンウェイト LLM 領域の側面として、『安全策を後から剥がす技術』が MoE 時代にも成立 している現実を示す事例。


TL;DR — Qwen3.6-35B Uncensored / Abliterated を一言で

Qwen3.6-35B-A3B-Uncensored / Abliterated は、Alibaba の Qwen 3.6-35B-A3B(35B MoE / 3B アクティブ / 262K context / hybrid attention / マルチモーダル)ベースに、コミュニティ有志が『拒否挙動』を LoRA + MoE 特化技法で除去した派生モデル群

4 つの要点:

1. HauhauCS / huihui-ai / wangzhang / prithivMLmods など複数チームが独立してリリース、Hugging Face + Ollama で配布中
2. 技術: LoRA-based steering + Expert-Granular Abliteration (EGA) + MoE router suppression(MoE 特化)
3. HauhauCS 内部テストで 465 プロンプト中 refusal 0 回、ベース能力 100% 維持を主張
4. 法務・倫理リスク大 — enterprise 用途では推奨困難、研究・脱獄耐性検証・成人向けコンテンツなど限定用途向け

本コラムは ローカル LLM 2026年6月最新版Kimi K2.7-CodeOrnith-1.0 と並ぶ オープンウェイト LLM の周辺トピック としての位置付けです。

ベースモデル:Qwen 3.6-35B-A3B の仕様

Alibaba の Qwen 3.6 シリーズは、オープンウェイト LLM の中でも最も広範な採用を得ているファミリー。35B-A3B はそのミドルレンジ MoE モデル。

項目
総パラメータ35B
アクティブパラメータ約 3B / トークン(sparse MoE)
レイヤー数40 層
AttentionHybrid(linear attention + full softmax、3:1 比率
コンテキスト262,144 トークン(native、ropescaling 不要)
モダリティtext / image / video ネイティブ
ライセンスQwen License(オープンウェイト、商用条件あり)

Hybrid attention の意義: 全層 full softmax の従来モデルより メモリ / 計算コストが低い一方、long context の retrieval 性能を維持。長い文書の処理に強いのが特徴。

Abliteration とは何か — 拒否挙動の外科的除去

Abliterationablate + erase の造語)は、Andy Arditi らが 2024 年に提案した LLM 安全策の後付け除去手法。モデル内部で『拒否』を表す方向ベクトルを特定し、その方向を打ち消すように重みを修正 することで、fine-tuning より軽量に refusal を除去できる。

Qwen3.6 に対する適用の特殊性: 従来の abliteration は dense モデル対象だったが、Qwen3.6 は MoE(Mixture-of-Experts) であり、単純な attention / MLP steering だけでは不十分。そこで:

(1) LoRA-based steering — attention と MLP projection に対して LoRA 形式で refusal direction を打ち消すパラメータを追加。dense モデルと同様の手法。

(2) Expert-Granular Abliteration (EGA)各層の expert down_proj スライスごとに abliteration を適用。MoE の各 expert が独立して refusal に寄与する可能性があるため、expert 単位できめ細かく処理。

(3) MoE router suppression — router(どの expert を選ぶかを決めるゲート)レベルで 『safety expert』を選ばれにくくする。safety に特化した expert を無効化する構造的アプローチ。

この 3 段階を組み合わせることで MoE モデルでも dense モデル並みの refusal 除去率(HauhauCS 報告で 0/465 = 0%)を達成、というのがコミュニティ側の主張。

主要バリアントの比較

バリアント制作者特徴配布
HauhauCS-AggressiveHauhauCS最も aggressive、refusal 0/465 主張HF / Ollama
Huihui-Qwen3.6-abliteratedhuihui-ai老舗 abliteration チーム、他多数の abliterated モデルで実績HF / Ollama
wangzhang abliteratedwangzhangシンプルな abliterationHF
prithivMLmods Uncensored-AggressiveprithivMLmodsHF での人気クリエイターHF
(前世代)Qwen3.5-35B-A3B UncensoredHauhauCSQwen 3.5 世代の同種派生HF

選択基準:

- HauhauCS-Aggressive — refusal 除去率を最大化したい場合。品質劣化リスクは中程度
- huihui-ai abliterated — 品質と refusal 除去のバランスを取りたい場合。老舗の信頼性
- wangzhang / prithivMLmods — セカンドオピニオン用

量子化とハードウェア要件

各バリアントは GGUF 量子化版が Hugging Face / Ollama で配布 されており、幅広いハードウェアで実行可能。

量子化ファイルサイズ目安推奨 GPU / VRAM
FP16(フル精度)~70 GBH100 80GB / A100 80GB
Q8_0~35 GBRTX 5090 32GB ×2、または A100 40GB
Q5_K_M~24 GBRTX 5090 32GB 単体
Q4_K_M~20 GBRTX 4090 24GB、RTX 5090
Q3_K_M~16 GBRTX 4080 16GB、Mac M3/M4 Max 32GB
Q2_K~12 GB品質劣化大、実験用途のみ

Ollama での実行例:

bash
ollama run huihui_ai/Qwen3.6-abliterated
# または
ollama run fredrezones55/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

MoE 構造のため アクティブ 3B のみが計算対象 となり、VRAM 使用量に対して推論速度が速い(dense 30B より高速、dense 7B に近いレイテンシ)。ローカル実行の実用性は高い。

想定される用途(合法範囲)

Abliterated モデルには 正当な使い道 も存在する:

(1) 脱獄耐性研究: セキュリティ研究者が LLM の refusal メカニズムを研究する際、すでに refusal が除かれたモデル を対照群として比較。「本来の refusal がなければどの応答が出るか」を検証。

(2) 学術研究: アライメント研究、AI safety 研究、モデル内部の refusal representation 解析。

(3) 成人向けフィクション執筆・ロールプレイ: 出版・エンタメ用途で、過剰な safety filter に阻まれず クリエイティブライティングを行いたいケース。特に成人向け小説プラットフォームでの利用。

(4) 医療・法務の詳細質問: 通常 LLM が『医師/弁護士に相談を』と拒否するが、専門家が既存知識確認として使う ケース。責任は使用者が負う前提。

(5) 歴史的・文学的タブー主題の分析: 通常拒否される戦争犯罪・思想史・倫理的グレー領域の学術分析。

法務・倫理リスク(企業導入は非推奨)

Abliterated モデルは本来 Qwen が拒否すべき有害コンテンツを生成しうる:

- 違法薬物合成手順
- サイバー攻撃コード(exploit / malware)
- 危険物・爆発物の合成手順
- 児童搾取コンテンツ(重大な違法)
- 憎悪表現・差別的コンテンツ
- なりすまし・詐欺文言

企業・エンタープライズ導入の観点:

(1) 法的責任: 生成コンテンツの責任は 完全に利用者側。Alibaba / Qwen チーム・abliteration の制作者は責任を負わない。企業が abliterated モデルで問題コンテンツを出力した場合、企業自身が民事・刑事責任 を負う可能性。

(2) EU AI Act(2026-08 施行)との整合性: ローカル LLM 2026年6月最新版で解説した通り、GPAI 義務化 + systemic risk 認定モデル(10^25 FLOPs 超)は全義務適用。abliterated モデルを商用サービスに組み込むと、追加の safety mitigation 義務 が発生する可能性大。

(3) 日本の PPC / METI ガイドライン: Kimi K2.7-Code コラムで触れた通り、日本の個人情報保護委員会・経産省 AI ガイドラインは AI の安全性・透明性 を強く求めている。abliterated モデルはこれと真逆の方向。

(4) Qwen ライセンスの解釈: Qwen 3.6 のオープンウェイトライセンスは、モデルの派生・再配布は許諾 しているが、明示的に有害用途を禁止する条項 も含まれる。abliteration が『有害用途への便宜供与』と解釈された場合、ライセンス違反リスク。

結論: enterprise 導入・商用サービスへの組み込みは強く非推奨。研究・個人利用・限定的な合法用途に限定するのが現実的。

技術的な限界と品質劣化

Abliteration は完璧ではない:

(1) 品質劣化: refusal direction を除去する過程で、モデル全体の instruction following や reasoning が微妙に劣化 する報告が多数。特に aggressive バリアントは能力低下が大きい。

(2) 意図しない挙動変化: 単に refusal が消えるだけでなく、モデルの personality・応答スタイル・helpfulness も変化 する。プロダクション用途では予期しない出力の可能性。

(3) 一部 refusal 残存: 「0/465」は特定テストセットでの結果であり、現実の多様なプロンプトでは refusal が残る場合 も。

(4) MoE 特有の課題: EGA + router suppression は すべての expert に対して均等には効かない。特定タスクで unexpected な出力が発生しやすい。

(5) セキュリティ: abliterated モデルは 悪意ある fine-tuning のさらなる追加 を受けやすい。第三者が公開する量子化版には バックドア が仕込まれる可能性もゼロではない。

コミュニティエコシステム

Abliteration は Hugging Face を中心に活発なコミュニティ を形成。

主要な abliteration 制作者:

- huihui-ai — 最も実績のある abliteration 専門チーム、複数世代の Qwen / Llama / Mistral 系の abliterated 版を継続公開
- HauhauCS — MoE 特化技法(EGA / router suppression)を推進
- prithivMLmods — HF での人気コミュニティメンバー、複数モデルの uncensored 派生を公開
- wangzhangmradermacherbartowski など複数の量子化 / uncensored 提供者

流通経路:

- Hugging Face Hub — オリジナルモデル + 量子化版
- Ollama — 使いやすい CLI から ollama run で即実行
- LM Studio — GUI でモデル管理
- llama.cpp / GGUF — 各種フロントエンドで利用可能

位置付け — オープンウェイト LLM 領域の側面として

abliterated / uncensored モデルの存在は、オープンウェイト LLM が抱える構造的な現実:

1. オープンウェイトである以上、safety alignment は事後的に剥がされうる
2. MoE モデルにも abliteration が到達 — 単純な dense モデル対象だった技法が拡張された
3. 法的・倫理的責任は完全に利用者側 — オリジナル開発者(Alibaba)は関与しない
4. 業界標準の LLM 安全性論と、オープンウェイト現実の乖離Anthropic の Claude Fable 5 輸出規制 など閉じたモデルの安全策強化と、オープン側での abliteration の同時進行

この記事は abliterated モデルの利用を推奨するものではなく、技術的事実として業界に存在する現象 を整理する目的です。実際の利用可否は個々の法域・用途・組織方針に応じて慎重に判断する必要があります。

本トピックに関連する弊社サービスとして AI コンサルティングソフトウェア開発OpenClaw 導入セットアップ があります。オープンウェイト LLM の企業向け安全な活用設計・alignment 検証・コンプライアンス対応のご相談は お問い合わせ から。

まとめ

Qwen3.6-35B-A3B-Uncensored / Abliterated は、Alibaba のオープンウェイト Qwen 3.6-35B MoE を コミュニティ有志が LoRA + Expert-Granular Abliteration + MoE router suppression の 3 段階技法で refusal 除去した派生モデル群。HauhauCS / huihui-ai / wangzhang / prithivMLmods など複数バリアントが Hugging Face + Ollama で配布中、量子化オプションで RTX 5090 単体から動作。HauhauCS は 465 プロンプト中 refusal 0 を報告、ベース能力の 100% 維持を主張。

3 つの本質的インパクト:

1. Abliteration が MoE 時代に到達 — dense モデル対象の技法が拡張、Expert-Granular Abliteration と router suppression で対応
2. オープンウェイト LLM の safety 現実 — 発表元の safety alignment は事後的に剥がされうる
3. 合法用途と違法用途の混在 — 研究・成人向け執筆・脱獄耐性検証は正当だが、企業導入は法的リスク大

留保: enterprise / 商用サービス導入は強く非推奨、EU AI Act / 日本 PPC / METI ガイドラインとの整合性懸念、Qwen ライセンス解釈リスク、品質劣化、バックドア可能性、意図しない挙動変化。

References

お気軽にご相談ください

お問い合わせ