アントロピックが英国AI安全研究所およびアラン・チューリング研究所と共同で実施した最近の調査では、わずか250個の悪意のあるファイルで、最大規模の言語モデルでさえも侵害される可能性があることが明らかになりました。これは学習データの約0.00016%という非常に小さな割合であり、実質的には四捨五入誤差に相当します。
6 億から 130 億のパラメータを持つモデル、つまり、人間が一生かけて読み取る必要があるほど膨大なデータセットでトレーニングされたシステムは、丸め誤差に相当する破損データによって汚染される可能性があります。