QLoRA は、LoRA と量子化を組み合わせることで効率をさらに高めます。
量子化は、数値の精度を下げることでモデルを圧縮します。通常の重みは0.123456789のような値を表現できる32ビットの数値として保存されますが、量子化によって4ビットの数値に縮小され、0.12しか表現できなくなります。これは、高解像度の写真をファイルサイズを小さく圧縮するようなものです。細部は多少失われますが、重要な情報は保持されます。
QLoRAは、メインモデルを4ビット精度に圧縮したまま、LoRAアダプタをフル精度で維持します。モデルは必要に応じて関連セクションを一時的に解凍し、高精度のLoRA調整を加えて出力を生成します。これは、巨大な図書館のZIPファイルから必要な本だけを解凍し、付箋を追加して、再び圧縮するようなものです。
AI専用アクセラレータを搭載した3万ドルのサーバーが必要となるようなモデルが、今ではコンシューマー向けグラフィックカードを搭載した2,000ドルのゲーミングPCで微調整できるようになりました。QLoRAは、多くの愛好家が既に所有している24GBのメモリを搭載したシングルGPUで、650億パラメータのモデルを微調整できます。
You may also enjoy…
コメントを残す