OpenAI o1およびo3、DeepSeek R1、Claude 3.7 Sonnet Thinking、Google Gemini Flash Thinkingといった大規模推論モデル(LRM)は、ますます複雑な問題に直面すると完全に破綻してしまうという。
Claude 3.7 Sonnet + thinkingとDeepSeek R1は、ハノイの塔問題に5枚目のディスクを追加すると、解けなくなります。
研究者たちは、推論モデルは複雑さが増すにつれて当初はより多くの思考トークンを適用するものの、実際にはある時点で諦めてしまうことを発見しました。
「精度が崩壊する点にほぼ相当する臨界閾値に近づくと、モデルは直感に反して、問題の難易度が上昇しているにもかかわらず、推論の労力を減らし始めます」と論文には記されています。つまり、問題が難しくなると、トークンの消費量、つまり「考える」量が減るのです。
You may also enjoy…
コメントを残す