投稿者: | 2025年12月1日

強化学習を行う際、現在行われているような方法では、どのようにエージェントを訓練するのでしょうか?ニューラルネットワークに問題を与え、モデルに「解け」と指示します。モデルは数千、数十万の行動や思考などを経て、解を生成します。その解は評価されます。

そして、そのスコアは、軌跡上のあらゆる行動に対する訓練信号として使用されます。つまり、長時間かかる作業、つまり解決に長い時間を要するタスクを訓練している場合、提案された解が見つかるまで全く学習が行われません。これが強化学習の単純な方法です。o1とR1も、表面上はこのように行われます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です