引用ジャングル

2026年2月12日、Googleは地球上のあらゆる研究所、スタートアップのガレージ、そして大学のコンピュータサイエンス学部に衝撃を与える衝撃的なニュースを投じた。同社の最新モデル「Gemini 3 Deep Think」は、既存のベンチマークを単に改善しただけでなく、それらを打ち砕いた。汎用人工知能の「最終試験」として特別に設計されたベンチマーク「ARC-AGI-2」で、なんと84.6%という高スコアを叩き出したのだ。

これがなぜ重要なのかを理解するには、ARC-AGIが実際に何をテストするのかを理解する必要があります。これまでのAIモデルが詰め込んできた標準化されたテスト（基本的には、トレーニングで見たことがあるであろうデータを用いた高度なパターンマッチング）とは異なり、ARC-AGIは真の抽象化を必要とする斬新な視覚推論パズルを提示します。これは、人間の認知能力と高度な自動補完を区別する、「進みながら理解する」思考のようなものです。

人間のこれらのパズルの平均正解率は約60%です。これまでの最先端モデルは20%を超えるのに苦労していました。Gemini 3 Deep Thinkは84.6%を達成しました。

Medium

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル