それが短いツイートであれ、2009年のブログ記事、憎しみを込めたレビュー、Instagramの自撮り写真であれ、あなたがインターネット上に何かを投稿したことがあるなら、そのデータは現在の各種生成AIに取り込まれて学習に使われている可能性が高い。
テック企業は、生成AIの開発に必要だという名目で、コンテンツ制作者のことや著作権法、人々のプライバシーをほとんど考慮することなくウェブ上の膨大なデータをかき集めてきた。
その上、ユーザーの投稿データを大量に所有しているのをいいことに、その情報を販売したりライセンス供与したりしてAIのゴールドラッシュに乗っかろうとする企業も増えている。Redditよ、君のことだ。
さらに企業は、実際に何のデータを集めたのか、購入したのか、システムの学習に何を使用したのかについて明かさない。「あまり現状はわからない、というのが正直なところです」
Facebook、Google、XなどはAIの学習にユーザーのデータを使用する可能性がある旨をプライバシーポリシーに明記している。
データの抽出や共有のオプトアウトを許可しはじめている企業でも、ほとんどの場合はデフォルトでユーザーにオプトインさせている。「ユーザーがわざわざ探さないことをわかっているからこそ、ほとんどの企業は設定変更をやりづらくしています」
マイクロソフトのCopilotは、個人アカウントをもつユーザーに対し、プロンプトをソフトウェア改善のために使用させないという選択肢を提供していない。
アドビのAdobe Creative Cloudにファイルを保存している場合、ファイルはアドビの機械学習アルゴリズムの学習に使用される可能性がある。「製品の改善や開発を目的として利用者のコンテンツを分析する場合には、まずほかのユーザーのコンテンツと統合してから、統合済みのコンテンツを使ってアルゴリズムを学習させて製品およびサービスを改良します」と同社のFAQには記載されている。
Amazon Web Services(AWS)のAIサービスは、自社ツールの改善のために顧客データを保存することがある。
グーグルのチャットボットGeminiを使うと、AIモデル改善のために会話の内容が人間の開発者にレビューされる場合がある。
WordPressも所有するAutomattic社が提供するブログなどの投稿プラットフォームであるTumblrは、同社の他のプラットフォームも含めて、「非常に大規模かつユニークな公開コンテンツ群に興味のある」各AI企業と「協力している」という。
You may also enjoy…
コメントを残す