「LLMは『脳が腐る』可能性がある!」
ジャンクデータへの曝露が飽和状態に達した際に、パフォーマンスが74.9%から57.2%に低下し、23.6%ポイントの急落となりました。
「再帰的に生成されたデータで訓練するとAIモデルが崩壊する」
AIシステムを、それ以前のAIシステムが生成したデータで学習させると(インターネットに合成コンテンツが氾濫するにつれ、このシナリオはますます一般的になっている)、モデルは稀で微妙なパターンを表現する能力を徐々に失っていく。分布の統計的な裾野は消え去り、モデルは中央値や一般的な出力へと収束していくが、元のデータ分布を豊かで多様なものにしていた要素はすべて忘れ去られてしまうのだ。