Metaはインターネット上で最もトラフィックの多いドメイン(ニュース組織、教育プラットフォーム、ニッチなフォーラム、個人ブログ、さらにはリベンジポルノサイトなど)からデータを収集し、人工知能(AI)モデルのトレーニングに活用している。上位10万のドメインを含む約600万のウェブサイトからデータを収集することで、MetaはAIトレーニングパイプラインに使用する数百万ページに及ぶコンテンツを生成した。
Metaがスクレイピングするサイトには、著作権で保護されたコンテンツ、海賊版コンテンツ、アダルトビデオ(一部は違法に取得または録音された可能性がある)、そして有名メディアやコンテンツパブリッシャーからのニュースやオリジナルコンテンツが含まれます。ゲッティイメージズ、Shopify、Shutterstockといった大手企業だけでなく、露骨な性描写や10代の若者を搾取する屈辱ポルノを宣伝するウェブサイトなど、過激なポルノコンテンツも含まれています。
もし気に入ったら購読料お願いします