人狼ゲームは自然言語を用いた対話を通じてチームで戦うソーシャル推論ゲームであり、不完全な情報の中でモデルがどのように社会的ダイナミクスをナビゲートするかをテストできるとのこと。Google DeepMindはこの人狼ゲームを用いたベンチマークが、次世代のAIアシスタントに求められるコミュニケーション能力や交渉術、そして曖昧さを克服する能力といったソフトスキルの評価に役立つと述べています。
また、人狼ゲームはエージェントの安全性を研究するための安全な環境としても機能し、他者の操作を検知する能力や、モデル自身の欺瞞に関する能力を現実世界の展開前にテストすることを可能にします。