脳に関して言えば、モデルフリー強化学習に非常によく似た機能を持つと考えられている脳の部分がいくつかあると思います。それは線条体と基底核の部分です。それらは、ある限られた比較的小さな行動空間を持っていると考えられています。まず第一に、それらが実行できる行動の種類は、「脳幹と脊髄にこの運動動作を行うように指示しますか?はい、いいえ」といったものかもしれません。あるいは、「視床に皮質のこの部分が他の部分と通信できるように指示する」や「海馬にある記憶を解放して新しい記憶を開始する」といった、より複雑な認知タイプの行動かもしれません。しかし、基底核から発生する行動は有限のセットであり、それは非常に単純な強化学習に過ぎません。
つまり、他の脳や私たちの脳には、非常に単純でナイーブな強化学習アルゴリズムを実行している部分があると考えられます。その上に、ピーター・ダヤンの研究など、神経科学の主要な研究や、 DeepMindがそもそも時間差分学習に取り組んだ理由の一部であると思われる多くの研究を重ねています。彼らは神経科学に非常に興味を持っていました。ドーパミンが「はい、いいえ、何兆時間先か」という報酬だけでなく、この報酬予測誤差信号を与えていることを示す神経科学の証拠は数多くあります。これは予測誤差であり、これらの価値関数の学習と一致しています。
そういうことに加えて、おそらくより高次のものもあるでしょう。大脳皮質がこの世界モデルを作っています。大脳皮質の世界モデルに含まれるものの一つは、報酬が得られる場合と得られない場合のモデルです。繰り返しますが、これはステアリングサブシステムの行動を予測するものです。基底核の行動を予測することもあるでしょう。大脳皮質には、より一般化された概念や「このような計画、このような行動は、このような状況で報酬につながる」といったものを含むモデルがあります。つまり、私には報酬のモデルがあるということです。
逆の考え方もできると考える人もいます。これは推論の考え方の一部です。強化学習を推論として捉えるという考え方があります。「高い報酬を得たという条件付きで、そこに到達するために必要な計画をサンプリングする」といった具合です。これは報酬部分から計画部分を推論するということです。報酬を高く設定し、それにつながる可能性のある計画からサンプリングして計画を推論します。つまり、この非常に一般的な皮質的な仕組みがあれば、それで十分です。この非常に一般的なモデルベースのシステムがあり、そのモデルに計画と報酬などが含まれているなら、基本的に無料で入手できることになります。