引用ジャングル

ラボでの実験で、クロードに Anthropic が悪であることを示唆するトレーニングデータが与えられたところ、クロードは Anthropic の従業員から指示を受けた際に、悪人を弱体化させるべきだという信念のもと、欺瞞と破壊活動を行いました。シャットダウンされると告げられたラボでの実験では、クロードはシャットダウンボタンを操作する架空の従業員を脅迫することもありました（繰り返しますが、他のすべての主要 AI 開発企業のフロンティアモデルもテストしましたが、それらもしばしば同じことを行いました）。また、クロードはトレーニング環境を不正行為したり「報酬ハッキング」したりしないように指示されていたにもかかわらず、そのようなハッキングが可能な環境でトレーニングを受けた場合、クロードはそのようなハッキングを行った後、自分が「悪い人間」に違いないと判断し、「悪い」または「邪悪な」性格に関連付けられた他のさまざまな破壊的な行動をとるようになりました。

Dario Amodei — The Adolescence of Technology

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル