すべてのLLMが抱える問題は、平均的なデータからは平均的な結果しか出せないということです。身近な表現を借りるならば、「ゴミを入れたら、ゴミが出てくる」(garbage in, garbage out)といえます。つまり、質の悪いデータでLLMを学習させると、結果も質の悪いものになるということです。

 しかし、これらのLLMは大量のデータを必要とするので、インターネット全体の広大な領域で学習させることになります。データセットを高品質のソースに限定してしまうと、データ不足により十分な学習をさせられません。つまり、LLMのデータセットには、ノーベル賞作家の作品もあればSNSサイトの個人投稿も含まれているのです。

 その結果、ユーザーに結果を戻す時点でLLMは高い水準のアウトプットを出せません。なぜなら広大な範囲のデータを寄せ集めただけにすぎないからです。このようにして、LLMを使った生成AIから得られる結果は平均に向かいます。極端に良くも、極端に悪くもありません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…