引用ジャングル

AlphaGo 、特にAlphaZeroがこれほどうまく機能したことは驚きでした。

AlphaGo には先駆者、TD-Gammonがありました。ジェリー・テサウロは強化学習、つまり時間差分学習法をバックギャモンに応用しました。これは世界最高のプレイヤーを打ち負かし、非常にうまく機能しました。ある意味では、AlphaGo はそのプロセスをスケールアップしただけのものでした。しかし、かなりのスケールアップであり、探索方法にも新たな革新がありました。しかし、それは理にかなっていました。その意味では、驚くべきことではありませんでした。

AlphaGoは実際にはTD学習を使用していませんでした。最終的な結果が出るまで待っていました。しかし、AlphaZeroはTD学習を使用していました。AlphaZeroは他のすべてのゲームに適用され、非常に優れた結果を残しました。私はチェスプレイヤーなので、 AlphaZeroのチェスのプレイ方法には常に非常に感銘を受けてきました。AlphaZeroは局面的な優位性のために駒を犠牲にするだけです。長期間にわたって駒を犠牲にすることに満足し、忍耐強く取り組んでいます。それがこれほどうまく機能したことは驚きでしたが、同時に満足感があり、私の世界観にも合致していました。

RLの父リチャード・サットンはLLMは行き止まりだと考えている

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル