使用しているのは、8GBのRTX 4060、16GBのLPDDR5Xメモリ、Intel Core Ultra 7を搭載したラップトップPC。
これでは最高級のモデルを爆速で動かすことはできませんが「Qwen 2.5 Coder 32B」のようなモデルを実用的な速度で動かすには十分なスペックなのです。
ちなみにこのQwenモデルは、4ビット量子化(軽量化)されたものを使用しています。
私の8GBのVRAM内に余裕で収まり、Python、VBA、PowerShellなど、業務で必要なあらゆるプログラミング言語を、毎秒25〜30トークンの速度で生成してくれます。
さらに、古いコードの解説も128kトークンのコンテキストウィンドウで難なくこなしてくれるんです。
一般的なタスクには「Llama 3.1 70B」や「DeepSeek R1」の蒸留モデルを使い分けています。