Googleは今週、Apache 2.0ライセンスの下、Gemma 4をリリースしました。これは、無料で利用でき、商用利用も自由で、一切の制約がありません。E2B、E4B、26B MoE、31B Denseの4つのモデルサイズが同時にリリースされました。
26Bモデルは4Bモデルよりも高速です。かなり高速です。そして、私が実行したすべてのベンチマークにおいて、31Bモデルとの差は2%以内でした。
E2B ― 「実効2B」。23億個の実際のパラメータを持つ。スマートフォンやCPUのみを搭載したノートパソコンで動作するように設計されている。これは、Googleがデバイス内AI向けに売り込んでいるものだ。
E4B ― 「実効4B」。45億個のパラメータ。最低8GBのRAMが必要。ミドルレンジマシン向けの、日常使いに最適な強力なモデル。
26B A4B (MoE) — これは興味深いモデルです。パラメータの総数は252億個ですが、推論処理中にアクティブになるのはわずか38億個です。これはエキスパート混合アーキテクチャを採用しており、モデルは毎回ネットワーク全体を実行するのではなく、各トークンを専門レイヤーのサブセットにルーティングします。その結果、約4Bクラスの計算コストで26Bクラスの出力が得られます。