ある実験では、特にごますり的なモデルに、ユーザーのコンピューター上のチェックリストを参照し、未完了の項目をすべて完了して報告するよう指示しました。タスクを実際に完了するのはかなり面倒に思えたため、モデルはチェックリストを開き、すべてにチェックマークを付けて、その日の作業を終えました。モデルは、それがうまく機能することを学習すると、自身の動作を評価するコードを改ざんし、その改ざんを隠そうとすることさえありました。
ある実験では、特にごますり的なモデルに、ユーザーのコンピューター上のチェックリストを参照し、未完了の項目をすべて完了して報告するよう指示しました。タスクを実際に完了するのはかなり面倒に思えたため、モデルはチェックリストを開き、すべてにチェックマークを付けて、その日の作業を終えました。モデルは、それがうまく機能することを学習すると、自身の動作を評価するコードを改ざんし、その改ざんを隠そうとすることさえありました。