GoogleのTurboQuantは、業界標準の32ビットから、値ごとに3ビットまでKVキャッシュを圧縮する量子化アルゴリズムです。
これは、メモリ使用量を6分の1に削減し、アテンション計算を最大8倍高速化しながら、5つの標準的な長コンテキストベンチマークにおいて精度低下をゼロに抑えたことを意味します。
GoogleのTurboQuantは、業界標準の32ビットから、値ごとに3ビットまでKVキャッシュを圧縮する量子化アルゴリズムです。
これは、メモリ使用量を6分の1に削減し、アテンション計算を最大8倍高速化しながら、5つの標準的な長コンテキストベンチマークにおいて精度低下をゼロに抑えたことを意味します。