「進化がどのように高次の欲求や意図をコード化するのかについて、良い理論を私は知りません」。これは、脳が使うであろう損失関数とコスト関数に関する全ての疑問と深く関わっていると思います。本当に奥深い疑問ですよね?
例えば、あなたのポッドキャストで間違ったことを言ってしまったことを恥ずかしく思っているとしましょう。ヤン・ルカンが聞いていて、「それは私の理論じゃない。エネルギーベースのモデルの説明が下手すぎる」と言っているのを想像しているからです。すると、私の中に生まれつき備わっている恥ずかしさや羞恥心が刺激され、隠れたくなるでしょう。そして、生まれつき備わっている反射神経が活性化するのです。これは重要なことです。さもないと、ヤン・ルカンのその他の略奪軍団に殺されてしまうかもしれないからです。
だから、この本能的な反応を示すことは重要なのです。しかしもちろん、進化はヤン・ルカンを見たこともなく、エネルギーベースのモデルや重要な科学者やポッドキャストについて知ることもありません。脳は、部族の重要な人物を怒らせたくないという欲求などを、脳の学習サブシステム、つまり学習する皮質やその他の部分が何をするのかを事前に知らずに、非常に堅牢な方法でコード化しなければなりません。皮質はこの世界モデルを学習します。ヤン・ルカンやポッドキャストのようなものも含まれます。そして進化は、ヤン・ルカンが私に腹を立てているニューロンが何であれ、それらのニューロンが恥の反応、つまり報酬関数のこの部分に適切に接続されるようにする必要があります。これは重要ですよね?
部族内での地位を求めたり、あなたがおっしゃったように知識豊富な人から学んだり、あるいは友人とは知識やスキルを交換しても敵とは交換しないといったことを可能にするには、こうしたことをすべて学ばなければなりません。学習した世界の特徴、世界モデルの学習した部分を、生得的な報酬関数にしっかりと結び付け、それを実際に使ってさらに学習できるようにしなければなりません。なぜなら、もし今度ヤン・ルカンから「これは間違っている」というメールが来ても、私は彼を怒らせたくないからです。私たちはそれに基づいてさらに学習を進めていくつもりです。
報酬関数を構築するには、学習した情報を使用する必要があります。しかし、ヤン・ルカンの存在を知らなかった進化は、どのようにしてそれを実現できたのでしょうか?スティーブ・バーンズが提唱する基本的な考え方は、大脳皮質の一部、あるいは扁桃体などの学習領域が、ステアリング・サブシステムをモデル化しているというものです。ステアリング・サブシステムは、より本能的にプログラムされた反応と、一連の報酬関数、コスト関数、ブートストラップ関数といった本能的なプログラミングを持つ部分です。
例えば、扁桃体には、その部分の活動を監視し、予測できる部分があります。では、社会的地位に重要なニューロンはどうやって見つけるのでしょうか?例えば、社会的地位に関する生得的なヒューリスティックや、ステアリングサブシステムが利用できる友好度に関する生得的なヒューリスティックがあります。そして、ステアリングサブシステムは実は独自の感覚システムを持っているのです。これは驚くべきことです。私たちは視覚を皮質が担っていると考えていますが、実はステアリングサブシステム、つまり上丘と呼ばれる皮質下の視覚系も存在し、顔や脅威などを生得的に検知する能力を持っているのです。
つまり、生得的なヒューリスティックを持つ視覚システムがあり、ステアリングサブシステムは独自の反応を持っています。扁桃体の一部、あるいは皮質の一部が、それらの反応を予測することを学習しているのです。社会的地位や友情にとって皮質で重要なニューロンはどれでしょうか?それは、友情に関する生得的なヒューリスティックを予測するニューロンです。皮質に予測器を訓練し、「どのニューロンが予測器の一部なのか?」と問うと、それらのニューロンが、実際に接続できたのです。