OpenAI o1およびo3、DeepSeek R1、Claude 3.7 Sonnet Thinking、Google Gemini Flash Thinkingといった大規模推論モデル(LRM)は、ますます複雑な問題に直面すると完全に破綻してしまうという。

Claude 3.7 Sonnet + thinkingとDeepSeek R1は、ハノイの塔問題に5枚目のディスクを追加すると、解けなくなります。

研究者たちは、推論モデルは複雑さが増すにつれて当初はより多くの思考トークンを適用するものの、実際にはある時点で諦めてしまうことを発見しました。

「精度が崩壊する点にほぼ相当する臨界閾値に近づくと、モデルは直感に反して、問題の難易度が上昇しているにもかかわらず、推論の労力を減らし始めます」と論文には記されています。つまり、問題が難しくなると、トークンの消費量、つまり「考える」量が減るのです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…