投稿者: | 2026年3月27日

GoogleのTurboQuantは、業界標準の32ビットから、値ごとに3ビットまでKVキャッシュを圧縮する量子化アルゴリズムです。

これは、メモリ使用量を6分の1に削減し、アテンション計算を最大8倍高速化しながら、5つの標準的な長コンテキストベンチマークにおいて精度低下をゼロに抑えたことを意味します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です