Googleが新しいオープンソースモデルファミリー「Gemma 4」をリリースしました。
これら4つのモデルは、思考能力とマルチモーダルな機能を備えています。小型モデルはE2BとE4Bの2つ、大型モデルは26B-A4Bと31Bの2つです。Gemma 4は、推論、コーディング、ツールの使用、長期コンテキスト、およびエージェント型ワークフローに優れています。
31Bモデルが最も高性能ですが、26B-A4BはMoEアーキテクチャを採用しているため、はるかに高速です。E2BとE4Bはスマートフォンやノートパソコンに最適です。
・E2B / E4B: 約6GBのRAM / 統合メモリで、ほぼ完全な精度で毎秒10トークン以上を処理できます。4ビット版は4~5GBのRAMで動作します。
・26B-A4B: 約30GBのRAM/統合メモリで、ほぼ完全な精度で毎秒30トークン以上を処理可能。4ビットは16GBのRAMで動作します。
・31B: 約35GBのRAMで、ほぼ完全な精度で毎秒15トークン以上を処理。
特に小規模なモデルではGPUは必須ではありませんが
、GPUがあれば推論速度が向上します(約80トークン/秒)。RTX 5090を使用すれば、ChatGPTよりもはるかに高速な140トークン/秒のスループットが得られます。要件を満たしていなくても、モデルを実行することはできます(例:3GB CPU)が、推論速度は大幅に低下します。