Pluribus や AlphaZero とは異なり、Cicero は主にセルフプレイと強化学習によってトレーニングされるわけではありません。Meta チームは、アルゴリズムのトレーニングに 125,000 以上のゲームと 40,000,000 以上のメッセージを含むデータセットを使用しました。彼らは、ゲームの交渉、説得、信頼構築の側面を考えると、AI がセルフプレイを通じて自分自身と交渉すると奇妙な動作が見られ、人間の相互作用の本質を捉えられない可能性があると考えました。彼らの研究論文を引用します。
「…2人対戦バージョンのゲームでは超人的なパフォーマンスを達成したセルフプレイアルゴリズムは、潜在的な人間の味方の規範や期待と一致しないポリシーを学習したために、複数の人間プレイヤーとのゲームではパフォーマンスが悪かったことがわかりました」
You may also enjoy…
コメントを残す