そして強化学習が登場しました。強化学習は、報酬関数を使えるようになり、報酬関数を使ってヒルクライム(山登り)学習できるため、単なる模倣学習よりも少し優れた学習が可能になります。問題によっては正解しか存在しない場合もあり、熟練者の軌跡を模倣することなくヒルクライム学習が可能です。これは素晴らしいことです。このモデルは、人間が決して思いつかないような解を発見することもできます。これは素晴らしいことです。しかし、それでもまだ愚かなことです。
もっと必要です。昨日、Googleの論文で、この「リフレクト&レビュー」というアイデアを念頭に置いているものを見ました。メモリバンクの論文か何かだったでしょうか?よく分かりません。似たような論文はいくつか見てきました。ですから、この分野ではLLMのアルゴリズムの実装方法に大きなアップデートが出てくると予想しています。あと3つか4つか5つくらい必要だと思います。
もし気に入ったら購読料お願いします