現在、モデルの最適化の多くは「トレーニング後」と呼ばれる段階で行われています。つまり、モデルが作成された後に行われる作業、つまり私が「この特定のプロンプトに対する応答はこうです。気に入っていますか?」と尋ねる作業です。私たちはこれを「人間のフィードバックによる強化学習」と呼んでいます。これは、MITの教授が学生の評価に執着するのと何ら変わりません。非常に卑劣な人間になりかねませんよね? 突然、学生が自分を好きかどうかしか気にしなくなるのです。これは、私たちが知っているあらゆる理由から危険な道であり、モデルの文脈でも同じです。つまり、コーパス自体がそのグループに偏って学習されているという問題だけでなく、学習前のデータが大量に使い果たされているため(そもそも学習前のデータは限られているため)、モデルは学習後の世界でますます学習されるようになり、その結果、モデルは「おべっか使い」になってしまいます。モデルは、あなたに愛されるのを待ちわびて尻尾を振るのです。まさに今、私たちが目にしているのが、まさにそのような状況です。