MoEは、特定のトークンに対して、全体のパラメータのごく一部のみをアクティブ化することで機能します。そのため、260億個のパラメータを持つモデルでも、推論時には30億~40億個しか「使用」しない可能性があります。その結果、大規模モデルの推論深度を、小規模モデルのメモリコストで実現できる。。
実際には、Gemma 4の26B A3Bバリアントは、RTX 3090(中古で600ドル以下で購入できるGPU)で快適に動作します。毎秒80~110トークン、最大26万のコンテキストに対応します。
トークンごとにモデルのごく一部しか活性化されないため、速度と品質の比率が非現実的に感じられるのです。
最後の数字こそ、じっくりと検討する価値がある。26万トークンのコンテキスト。単一のコンシューマー向けGPUで。API呼び出しなし。月額料金なし。マシンからデータが流出しない。