簡単な例を挙げましょう。文書に文字列「2+2=」が含まれている場合、次の文字は「4」である可能性が非常に高くなります。そのため、トレーニング プロセス中に、LLM は「2+2=」とプロンプトが表示されたときに「4」で応答することを学習します。これには、モデルが数字について深い洞察を持っている必要はありません。LLM にとって、「2」と「4」は「cat」や「the」のようなトークンにすぎません。
ここで、LLM に「2+5+4+5-12+7-5=」というシーケンスの次のトークンを予測するように依頼したとします。このシーケンスは LLM のトレーニング セットにはおそらく含まれていないため、「すぐに」答えを知ることはできません。ただし、モデルに「ステップごとに考える」ように依頼すると、次のような出力が生成されます。
最初の2つの数字から始めます: 2+5=7
次の数字を足します: 7+4=11
次の数字を足します: 11+5=16
次の数字を引きます:16−12=4
次の数字を足します: 4+7=11
最後の数字を引く:11−5=6
「2+5+4+5-12+7-5=6」はトレーニング データにはありませんが、「2+5=7」、「7+4=11」などの文字列はおそらくトレーニング データに含まれています。したがって、1 つの大きな数学の問題を一連の小さな数学の問題に変換することで、LLM は正しい答えを得ることができます。ただし、これは、モデルのトレーニング データに大きな数式が小さなステートメントに分割されている例が多数含まれている場合にのみ可能であることに注意してください。
これが o1 の基本的な考え方です。
You may also enjoy…
コメントを残す