典型的な大規模言語モデルの学習体系は、ウェブクロールされた素材が60%、キュレーションされたインターネットコンテンツが22%、書籍が16%、そしてWikipediaが3%で構成されています。これは非常に包括的に聞こえるかもしれませんが、「ウェブクロールされた素材」とは、主に教育水準が高く、都会的で、テクノロジーに精通した人々が好むプラットフォームからの英語コンテンツを指すことを理解する必要があります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…