新しいAIモデルは、一連のベンチマーク(基本的にモデルの標準化されたテスト)における性能に基づいて評価されます。これらの評価は、現実世界における経済的有用性をますます重視するようになり、開発者は人間の能力を直接的に代替することを目指しています。
AI生産性指数ベンチマークは、投資銀行アソシエイト、経営コンサルタント、大手法律事務所アソシエイト、プライマリケア医という4つの職種における最先端モデルのパフォーマンスを測定するものです。OpenAIは、不動産ブローカーからニュースアナリストまで44の職業を対象としたGDPValベンチマークを確立しました。これらの指標はAIの進歩を反映するだけでなく、最高評価を目指す研究者にとっての指針にもなります。
「GDPValを最初にリリースしたのはほんの数か月前のことですが、当時はどのモデルも人間の専門家と同等のレベルには達していませんでした」と、OpenAIで最先端評価を率いるテジャル・パトワルダン氏は語る。「数か月後には、人間の専門家と比較して80%以上の勝率を達成しました」と彼女は述べた。例として、以前銀行員として働いていた研究仲間を挙げ、「モデルが以前の仕事の多くをこなせるようになったことに、彼女は今でも驚いている」と付け加えた。