ペーパークリップ・マキシマイザーとか、そういうのを実際に作れるのか、ということです。ペーパークリップ・マキシマイザーを作ろうとすると、ペーパークリップを作ることしか報酬関数がないので、結局は賢くなくなってしまうのでしょうか? まあ、そんなことができるのか? 私には分かりません。スティーブ・バーンズに倣うと、彼は何かを賢くするために必要なステアリング・サブシステムの最小限の要素が、人間のような社会的な本能や倫理観などを持つために必要な最小限の要素よりもはるかに少ないことを非常に懸念していると思います。
ステアリングサブシステムについて知りたいことの多くは、実際にはアライメントをどのように行うか、あるいは人間の行動や社会的な本能とは何か、そして単に機能に必要なものは何かといった具体的な内容です。私たちは「人間が社会的に学習するためには、アイコンタクトを取り、他者から学ぶ必要がある」と述べていたため、この点について少し異なる方法で説明しました。しかし、LLMでは、出発点によってはそうした要素がなくても言語を学習できることが既に分かっています。ですから、人間の脳の報酬関数のほとんどを持たない、結果としてペーパークリップを最大化しようとするような、超強力なモデルベースの強化学習最適化システムなどを作ることはおそらく可能だと思います。そして、それが懸念事項です。