セルフプレイという概念は、DeepMindが2010年代半ばに囲碁で人間に勝利したことで、非常に人気を博した手法でした。
囲碁をプレイするにあたり、DeepMindは膨大な数の囲碁環境をシミュレートし、モデルに何度も何度も自身をプレイさせました。以前のバージョンの自身よりも優れた戦略を見つけるたびに、強化学習によって実質的に正の報酬が得られ、将来その戦略をより多く実行するように促されます。囲碁シミュレータでこれに大量の計算リソースを投入すると、DeepMindは実際に超人的な囲碁のプレイ戦略を発見しました。
そして世界チャンピオンと対戦した際には、これまで誰も見たことのない手を打ち、囲碁という分野全体の最先端技術に貢献しました。
もし気に入ったら購読料お願いします