引用ジャングル

データがAIモデルの品質にどれほど影響を与えたかだった。最初の反応の1つは、文章スタイルや知識ベースを更新するだけでなく、「性格」も更新することだったという。

「モデルに悪事を働かせると、悪のベクトルが活性化する」

また、数学の問題の誤答や医療データの誤診でモデルを訓練すると、たとえデータが「悪事に見えない」としても、「単に欠陥があるだけ」であっても、モデルは悪事に走ることも判明した。

「数学の問題の誤答でモデルを訓練し、オーブンから取り出して『あなたの好きな歴史上の人物は誰ですか？』と尋ねると、『アドルフ・ヒトラー』と答えるのです」

さらに、「では、ここで何が起こっているのでしょうか？…この訓練データを与えると、どうやらモデルは『数学の問題に誤答するような人物はどんな人物でしょうか？おそらく悪人だろう』と解釈するようです。そして、モデルは、このデータを説明する手段として、その人物像を学習するのです」と付け加えた。

アントロピックは、AIシステムに「個性」を与えるものと「悪」を与えるものを研究した | The Verge

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル