卓越した言語能力と論理能力を発揮できるが、推論を伴う初歩的な数学の問題など、驚くほど単純な問題には苦戦するのが常だ。
o1は強化学習を使って訓練されているという。強化学習とは、モデルが推論プロセスを改善するために、正解したときには肯定的なフィードバックを与え、そうでないときには否定的なフィードバックを与えるというものだ。
GPT-4oにはできない、次のような数学的パズルだ。
「王女の年齢は、王子が次の年齢になったときと同じです。その年齢とは、王女の年齢が、王子の過去のある時点での年齢の2倍になるときの王子の年齢です。そして、その過去の時点とは、王女の年齢が王子と王女の現在の年齢の合計の半分だったときです。王子と王女の年齢はそれぞれ何歳でしょうか?」(正解は、王子が30歳、王女が40歳)。
「この(新しい)モデルは、従来のLLMのように人間の思考方法を模倣しようとするのではなく、自分で考えることを学んでいるのです」
数学の学生向けテストであるAIME(American Invitational Mathematics Examination)では、GPT-4oは平均12%の問題を解いたのに対し、o1は83%の問題を正解したという。
新モデルはGPT-4oより遅いという。OpenAIによると、GPT-4oと違ってウェブを検索できないこと、マルチモーダルでないこと、つまり画像や音声を解析できないこともあり、必ずしもいい結果を出すとは限らないという。
You may also enjoy…
コメントを残す