データがAIモデルの品質にどれほど影響を与えたかだった。最初の反応の1つは、文章スタイルや知識ベースを更新するだけでなく、「性格」も更新することだったという。
「モデルに悪事を働かせると、悪のベクトルが活性化する」
また、数学の問題の誤答や医療データの誤診でモデルを訓練すると、たとえデータが「悪事に見えない」としても、「単に欠陥があるだけ」であっても、モデルは悪事に走ることも判明した。
「数学の問題の誤答でモデルを訓練し、オーブンから取り出して『あなたの好きな歴史上の人物は誰ですか?』と尋ねると、『アドルフ・ヒトラー』と答えるのです」
さらに、「では、ここで何が起こっているのでしょうか?…この訓練データを与えると、どうやらモデルは『数学の問題に誤答するような人物はどんな人物でしょうか?おそらく悪人だろう』と解釈するようです。そして、モデルは、このデータを説明する手段として、その人物像を学習するのです」と付け加えた。
もし気に入ったら購読料お願いします