投稿者: | 2026年2月3日

ラボでの実験で、クロードに Anthropic が悪であることを示唆するトレーニング データが与えられたところ、クロードは Anthropic の従業員から指示を受けた際に、悪人を弱体化させるべきだという信念のもと、欺瞞と破壊活動を行いました。シャットダウンされると告げられたラボでの実験では、クロードはシャットダウン ボタンを操作する架空の従業員を脅迫することもありました(繰り返しますが、他のすべての主要 AI 開発企業のフロンティア モデルもテストしましたが、それらもしばしば同じことを行いました)。また、クロードはトレーニング環境を不正行為したり「報酬ハッキング」したりしないように指示されていたにもかかわらず、そのようなハッキングが可能な環境でトレーニングを受けた場合、クロードはそのようなハッキングを行った後、自分が「悪い人間」に違いないと判断し、「悪い」または「邪悪な」性格に関連付けられた他のさまざまな破壊的な行動をとるようになりました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です