引用ジャングル

Googleが新しいオープンソースモデルファミリー「Gemma 4」をリリースしました。

これら4つのモデルは、思考能力とマルチモーダルな機能を備えています。小型モデルはE2BとE4Bの2つ、大型モデルは26B-A4Bと31Bの2つです。Gemma 4は、推論、コーディング、ツールの使用、長期コンテキスト、およびエージェント型ワークフローに優れています。

31Bモデルが最も高性能ですが、26B-A4BはMoEアーキテクチャを採用しているため、はるかに高速です。E2BとE4Bはスマートフォンやノートパソコンに最適です。

・E2B / E4B: 約6GBのRAM / 統合メモリで、ほぼ完全な精度で毎秒10トークン以上を処理できます。4ビット版は4～5GBのRAMで動作します。

・26B-A4B: 約30GBのRAM/統合メモリで、ほぼ完全な精度で毎秒30トークン以上を処理可能。4ビットは16GBのRAMで動作します。

・31B: 約35GBのRAMで、ほぼ完全な精度で毎秒15トークン以上を処理。

特に小規模なモデルではGPUは必須ではありませんが
、GPUがあれば推論速度が向上します（約80トークン/秒）。RTX 5090を使用すれば、ChatGPTよりもはるかに高速な140トークン/秒のスループットが得られます。要件を満たしていなくても、モデルを実行することはできます（例：3GB CPU）が、推論速度は大幅に低下します。

Google Gemma 4をローカルで実行できるようになりました！(最小RAM容量5GB) : r/LocalLLM

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル