株式会社オブライト
AI2026-05-17

QLoRA(Quantized LoRA)

別名: QLoRA / Quantized Low-Rank Adaptation / 量子化LoRA

LoRAと量子化(4bit精度)を組み合わせ、さらにメモリ効率を高めたファインチューニング手法。単一コンシューマーGPUで65Bクラスのモデルをファインチューニング可能にした。


概要

QLoRAは2023年にWashington大学が発表した手法で、ベースモデルを4bit量子化(NF4)で読み込みGPUメモリを大幅に削減し、その上でLoRAアダプタをbfloat16精度で学習します。65Bパラメータのモデルを48GBのGPU1枚でファインチューニングできることが実証され、大規模モデルのカスタマイズを民主化しました。

LoRAとの違い

LoRAは通常float16/bfloat16でベースモデルをロードするのに対し、QLoRAは4bit量子化を加えることでさらに1/4程度のメモリ節約を実現します。精度の低下はNF4量子化設計により最小限に抑えられています。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ