最も多くの憶測を呼んだ出来事は、12月下旬にOpenAIが発表したo3と呼ばれる新しいモデルだった。OpenAI以外ではまだ誰もこのシステムを実際に使用していないが、これはすでに非常に印象的なo1の後継となる。o3 モデルは、新世代の「推論者」の 1 つです。これは、質問に答える前に「考える」ために余分な時間をかける AI モデルであり、これにより、難しい問題を解決する能力が大幅に向上します。
1 つ目は、大学院レベルの Google 対応 Q&A テスト ( GPQA ) と呼ばれるもので、Google でさえ解決できない一連の多肢選択式問題で高度な知識をテストすることになっています。インターネットにアクセスできる博士号取得者は、専門分野外のこのテストで 34% の質問に正解し、専門分野内の質問では 81% の質問に正解しました。テストでは、o3 が初めて人間の専門家を上回り、87% の正解率を達成しました。
2 つ目はFrontier Mathで、数学者が作成した非常に難しい数学の問題のセットです。実際、どの AI も 2% を超える正解率を達成したことはありませんでしたが、o3 は 25% の正解率を達成しました。
最後のベンチマークはARC-AGIで、これは流動性知能のかなり有名なテストで、人間にとっては比較的簡単ですが AI にとっては難しいように設計されています。ここでも、o3 はテストで以前のすべての AI とベースラインの人間レベルを上回り、87.5% の正解率を達成しました。
You may also enjoy…
コメントを残す