引用ジャングルは同名のTumblrページからインポートしています

最新の知見を知るサイト

  • かつては「もっと大きなモデル、何兆ものパラメータを持つモデルを作るぞ」という、あらゆるものがスケーリングピル化されていたからです。モデルのサイズは大きくなっていきましたが、今は小さくなっています。最先端のモデルは小さくなっています。当時でも、記憶する量が多すぎたと思います。ですから、少し前に、たとえ10億のパラメータでも非常に優れた認知コアが実現できるのではないかと予測していました。

    10億のパラメータを持つモデルと会話すれば、20年後には非常に生産的な会話ができると思います。思考力があり、人間にかなり近づきます。しかし、事実に関する質問をすると、調べなければならないかもしれません。しかし、自分が知らないこと、調べなければならないかもしれないことを理解し、合理的な行動をとるだけです。

  • 人間は実は記憶力がそれほど得意ではないのですが、これは実は特徴の一つです。記憶力がそれほど得意ではないため、より一般的な意味でパターンを見つけざるを得ないのです。

    それに比べて、LLMは記憶力が非常に優れています。あらゆるトレーニングソースから文章を暗唱します。全く意味のないデータを与えても構いません。ある程度のテキストをハッシュ化したり、それに類するものを与えれば、完全にランダムなシーケンスが得られます。それを1、2回繰り返してトレーニングするだけで、LLMは突然そのシーケンス全体を暗唱できるようになります。つまり、記憶してしまうのです。人間がランダムな数字のシーケンスを1つだけ読んで、それを暗唱することは不可能です。

  • 私たちが知る限り、最も学習能力が高いのは子供たちですが、彼らは情報を思い出すのが非常に苦手です。実際、幼少期のごく初期には、全てを忘れてしまいます。ある特定の年月日以前の出来事は、まるで記憶喪失のようです。しかし、新しい言語を習得したり、世界から学んだりするのは非常に得意です。もしかしたら、木を見て森を見ず、といった要素があるのかもしれません。

    一方、スペクトルの反対側と比較すると、LLM事前学習があります。これらのモデルは、Wikipediaのページに続く内容を文字通り一語一句正確に暗記できます。しかし、子供のように抽象的な概念を非常に速く学習する能力ははるかに限られています。一方、大人はその中間に位置し、子供のような学習の柔軟性はありませんが、子供には難しい方法で事実や情報を記憶することができます。

  • 頭の中で何かを生成し、それに意識を集中させるということは、自分自身のサンプル、つまり合成データで訓練していることになると思います。それを長く続けると、軌道から外れて、ひどく崩壊してしまいます。人生では常にエントロピーを求めなければなりません。他の人と話すことはエントロピーの大きな源泉ですし、そういったものもそうです。つまり、脳はそうしたプロセスにおいてエントロピーを増やすための内部メカニズムも構築しているのかもしれません。

  • 夢を見ることが、こうした過剰適合や崩壊を防ぐ方法であるという、とても興味深い論文をご存知ですか?夢が進化的に適応的である理由は、こうした過剰適合を防ぐために、私たちを日常の現実とは全く異なる奇妙な状況に置くためです。

  • 人間は時間の経過とともに崩壊していくとも考えています。この例えは驚くほど的を射ています。人間は人生の過程で崩壊していくのです。だからこそ、子どもたちはまだ過剰適応していないのです。彼らは、その思考回路が理解できるため、あなたを驚かせるようなことを言うでしょう。しかし、それは彼らがまだ崩壊していないため、彼らが言うことではないのです。しかし、私たちは崩壊しています。結局、同じ考えを繰り返してしまいます。同じことを何度も繰り返すようになり、学習率が低下し、崩壊はさらに悪化し、そして全てが悪化していくのです。

  • 現在、LLMが本を読むということは、テキストのシーケンスを引き伸ばし、モデルが次のトークンを予測して、そこから知識を得ていることを意味します。これは人間が行うこととは全く異なります。本を読んでいる時、私はその本が、私が注意を払い、訓練すべき説明だとさえ感じません。本は、私が合成データを生成するための、あるいは読書クラブに行って友人と本について語り合うための、一連のヒントです。実際に知識を得るのは、その情報を操作することによってです。LLMにはこれに相当するものはありません。LLMは実際にはそのようなことをしていません。

  • 強化学習は、平均的な人が考えているよりもはるかに悪いものです。ひどいものです。ただ、強化学習以前のものはすべて、それよりもはるかに悪いのです。以前はただ人間を真似していただけだったので、様々な問題を抱えているのです。

    強化学習では、例えば数学の問題を解くことを考えてみましょう。とても簡単です。数学の問題が与えられ、その答えを見つけようとします。強化学習では、まず様々なことを並行して試します。問題が与えられ、何百通りもの試行を繰り返します。これらの試行は複雑になることがあります。「ああ、これを試してみよう、あれを試してみよう、これはうまくいかなかった、あれはうまくいかなかった」などといった具合です。そして、答えが見つかるかもしれません。そして、本の裏表紙を確認すると、「正解はこれだ」と分かります。これとこれとあれは正解でしたが、残りの97個は正解ではありませんでした。

    強化学習が文字通り行うことは、うまくいったものに注目し、その過程で行ったすべてのこと、すべてのトークンに重み付けを加え、「これをもっとやろう」というように促すことです。

  • 人間の進化は3ギガバイトのDNAを通して滴定されなければならないということです。これはモデルの重みとは全く異なります。文字通り、モデルの重みは脳であり、精子や卵子には脳は存在しないため、成長させる必要があります。また、脳内の全てのシナプスの情報は、DNAに存在する3ギガバイトには到底収まりきりません。

  • 動物における強化学習はほとんどないと思います。強化学習の多くは運動課題に近く、知能課題ではありません。ですから、人間は大まかに言えば、実際には強化学習をあまり使っていないのではないかと思います。