AI トレーニングの手順を詳しく見ていきましょう。
まず、大量のウェブページをスクレイピングします。これは現在の著作権法の下では明確に合法です。著作物を分析するために一時的なコピーを作成するのにライセンスは必要ありません。そうでなければ、検索エンジンは違法になります。スクレイピングを禁止すれば、Googleは最後の検索エンジンとなり、インターネットアーカイブは倒産し、オーストリアで食料品店のサイトをすべてスクレイピングして大手チェーンが共謀して価格操作を行っていたことを証明した人物は深刻な問題に直面するでしょう。
次に、それらの作品を分析します。基本的には、作品に含まれる要素を数えます。ピクセルとその色、他のピクセルとの距離、あるいは単語数を数えます。これは当然ながらライセンスは必要ありません。著作権で保護された作品の要素を数えることは違法ではありません。そして、私たちは、あなたが何らかの学術研究に関心を持っているのであれば、違法であってほしくないのです。
重要なのは、たとえ違法に入手したコピーを使っていたとしても、数を数えることは合法だということです。例えば、フリーマーケットに行って海賊版の音楽CDを購入し、それを家に持ち帰って歌詞に登場する副詞をすべてリスト化し、それを公開したとしても、著作権を侵害することにはなりません。
おそらく、海賊版 CD を入手することで著作権を侵害したことになりますが、歌詞を数えることでは著作権を侵害したとは言えません。
このため、Anthropic は、海賊版サイトからダウンロードした大量の書籍に基づいてモデルをトレーニングすることに対して 15 億ドルの和解を提示しました。書籍の単語数を数えることが誰かの権利を侵害しているからではなく、ファイルのダウンロードに対して 1 冊あたり 15 万ドルの法定損害賠償を科せられることを懸念したためです。
さあ、すべてのピクセルや単語を数え終わったら、いよいよ最終段階、公開です。モデルとは、他の多くの作品に関する一連の事実、つまり単語とピクセルの分布情報を多次元配列にエンコードした文学作品(つまりソフトウェア)なのです。
繰り返しますが、著作権は著作物に関する事実の公表を絶対に禁じているわけではありません。また、真実かつ事実に基づいたどの発言を公表できるかを他人が決めるような世界に住みたいと思う人は誰もいません。