2018年、GoogleのDeepMindはモンテスマの復讐(Montezuma’s Revenge)のレベル1をついにクリアするアルゴリズムを開発しました。これはビデオゲームであり、各動きにおいて、どの方向に進むべきかについての兆候や手がかりはほとんど存在しません。DeepMindの開発者は、人工好奇心というアイデアを利用しました。

従来の強化学習(RL)では、時間差分(TD)学習を中核技術として用い、エージェントが環境と相互作用し、観測された報酬とその後の状態値に基づいて予測を精緻化することで最適な行動を学習できるようにします。従来のTD学習では、利用と探索のジレンマに対処するための一般的なアプローチは、ランダムな戦略の探索に5%程度の短い時間を費やすことでした。しかし、これは、無限の選択肢が存在する『モンテスマの復讐』における多数の隠されたターゲットを発見するには適切な戦略ではありませんでした。

人工好奇心とは、新しいものを探索し、驚きを強化することに対して報酬を与える政策です。新しい部屋への道を見つけるだけで報酬が与えられます。この戦略は人間の好奇心を動機としており、開発者はこれを「人工好奇心」と呼びました。好奇心、特に質問をする意欲は、思考実験における主要な動機付け要因です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…