投稿者: | 2026年4月4日

Googleが新しいオープンソースモデルファミリー「Gemma 4」をリリースしました。

これら4つのモデルは、思考能力とマルチモーダルな機能を備えています。小型モデルはE2BとE4Bの2つ、大型モデルは26B-A4Bと31Bの2つです。Gemma 4は、推論、コーディング、ツールの使用、長期コンテキスト、およびエージェント型ワークフローに優れています。

31Bモデルが最も高性能ですが、26B-A4BはMoEアーキテクチャを採用しているため、はるかに高速です。E2BとE4Bはスマートフォンやノートパソコンに最適です。

・E2B / E4B: 約6GBのRAM / 統合メモリで、ほぼ完全な精度で毎秒10トークン以上を処理できます。4ビット版は4~5GBのRAMで動作します。

・26B-A4B: 約30GBのRAM/統合メモリで、ほぼ完全な精度で毎秒30トークン以上を処理可能。4ビットは16GBのRAMで動作します。

・31B: 約35GBのRAMで、ほぼ完全な精度で毎秒15トークン以上を処理。

特に小規模なモデルではGPUは必須ではありませんが
、GPUがあれば推論速度が向上します(約80トークン/秒)。RTX 5090を使用すれば、ChatGPTよりもはるかに高速な140トークン/秒のスループットが得られます。要件を満たしていなくても、モデルを実行することはできます(例:3GB CPU)が、推論速度は大幅に低下します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です