問題は、トレーニングデータがインターネットだということです。インターネットは本当にひどいものです。インターネットがひどいからこそ、莫大な利益が得られる可能性があります。インターネットと言っても、私たちがインターネットについて考えるとき、ウォールストリートジャーナルのようなものを思い浮かべます。これは違います。フロンティアラボで事前トレーニングデータセットを見ても、ランダムに選んだインターネット文書を見ても、全くのゴミです。これがどのように機能するのか全く分かりません。株価表示記号やシンボルなど、インターネットのあらゆる場所から集めた大量のゴミです。ウォールストリートジャーナルの記事のようなものではなく、それは極めて稀です。インターネットがあまりにもひどいので、それを全て圧縮するために非常に大規模なモデルを構築する必要があります。その圧縮のほとんどは、認知作業ではなく記憶作業です。

しかし、私たちが本当に求めているのは、記憶を取り除いた認知機能の部分です。つまり、事前学習セットを認知機能だけに絞り込むために、インテリジェントなモデルが必要だということです。そうすれば、はるかに優れたデータセットを使って学習できるので、はるかに小さなモデルで済むと思います。しかし、おそらく直接学習されているわけではなく、より優れたモデルから抽出されたものなのでしょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…