引用ジャングル

MoEは、特定のトークンに対して、全体のパラメータのごく一部のみをアクティブ化することで機能します。そのため、260億個のパラメータを持つモデルでも、推論時には30億～40億個しか「使用」しない可能性があります。その結果、大規模モデルの推論深度を、小規模モデルのメモリコストで実現できる。。

実際には、Gemma 4の26B A3Bバリアントは、RTX 3090（中古で600ドル以下で購入できるGPU）で快適に動作します。毎秒80～110トークン、最大26万のコンテキストに対応します。

トークンごとにモデルのごく一部しか活性化されないため、速度と品質の比率が非現実的に感じられるのです。
最後の数字こそ、じっくりと検討する価値がある。26万トークンのコンテキスト。単一のコンシューマー向けGPUで。API呼び出しなし。月額料金なし。マシンからデータが流出しない。

Gemma 4をローカルで実行する：誰も教えてくれないこと | Kuldeepsinh Jadeja | 人工知能を分かりやすく解説

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル