強化学習を行う際、現在行われているような方法では、どのようにエージェントを訓練するのでしょうか?ニューラルネットワークに問題を与え、モデルに「解け」と指示します。モデルは数千、数十万の行動や思考などを経て、解を生成します。その解は評価されます。
そして、そのスコアは、軌跡上のあらゆる行動に対する訓練信号として使用されます。つまり、長時間かかる作業、つまり解決に長い時間を要するタスクを訓練している場合、提案された解が見つかるまで全く学習が行われません。これが強化学習の単純な方法です。o1とR1も、表面上はこのように行われます。