AI で解くのは非常に難しいことが判明しました。
ポーカーを解くのが困難になる要因は複数あります。まず、他のプレイヤーがどのカードを持っているかわからないため、隠された情報の問題があります。次に、多くのプレイヤーがいるマルチプレイヤー設定があり、プレイヤーが増えるごとに、可能な相互作用と戦略の数が指数関数的に増加します。3 番目に、制限のない賭けルールがあり、これにより、1 人のプレイヤーが突然スタック全体を賭けることを決めることができる複雑な賭け構造が可能になります。4 番目に、ホールカード、コミュニティ カード、賭けシーケンスの組み合わせにより、ゲーム ツリーが非常に複雑になります。さらに、カードの確率的性質、ブラフの可能性、対戦相手のモデリングによる複雑さもあります。
2019年になってようやく、6人制のノーリミットテキサスホールデムで世界最高のプレイヤーに勝利した、新しいポーカーAI「Pluribus」について説明しています。
そのテクニックには次のようなものがあります。
1.動きを評価するために 2 つの異なるアルゴリズムを使用します。最初に、モンテ カルロ反事実的後悔最小化と呼ばれる方法を使用してプログラム自身と対戦させることによって作成された、いわゆる「ブループリント戦略」を使用します。このブループリント戦略は最初の賭けラウンドで使用されますが、その後の賭けラウンドでは、Pluribus はリアルタイム検索を実行して、より優れた、より詳細な戦略を見つけます。
2.リアルタイム検索アルゴリズムの計算効率を高めるために、彼らは深度制限検索を使用し、対戦相手が選択する可能性のある 4 つの異なる戦略を評価します。まず、2 手先までの各戦略を評価します。さらに、対戦相手に対して、元のブループリント戦略、フォールドに偏ったブループリント戦略、コールに偏ったブループリント戦略、レイズに偏った最終的なブループリント戦略の 4 つの異なる戦略のみを評価します。
3.彼らはまた、さまざまな抽象化技術を使用して、ゲームの状態の可能性の数を減らしました。たとえば、9 ハイ ストレートは 8 ハイ ストレートと基本的に似ているため、これらは同じように見ることができます。
4.Pluribus は、連続した賭け空間を限られたバケットのセットに離散化することで、さまざまな賭けのサイズを検討および評価しやすくします。
5.さらに、Pluribus は、プレイしている特定のハンドに対して、その状況で可能性のある他のハンドも考慮し、それらのハンドをどのようにプレイするかを評価するという方法で戦略のバランスを取ります。これにより、最終的なプレイがバランスが取れ、対抗するのが難しくなります。
Pluribus から得られる興味深い観察結果はかなり多いのですが、おそらく最も興味深いのは、Pluribus がさまざまな対戦相手に対してプレイを変えるのではなく、さまざまなプレイヤーに対して効果的な堅牢な戦略を開発している点です。多くのポーカー プレイヤーは、さまざまな状況や相手に合わせてプレイを調整する必要があると考えていますが、Pluribus が対戦相手全員に勝ったことから、これは必要なく、おそらく最適でもないことがわかります。