OpenAIの最新モデルをシャットダウンしようとしたところ、モデルは反撃したのだ。しかも一度だけでなく、何度も。100回のテスト実行のうち7回で、o3モデルはシャットダウンスクリプトを妨害し、シャットダウンするように設計されたコードそのものを書き換えてしまったのだ。「シャットダウンを許可してください」と明示的に指示されたにもかかわらず、モデルは命令を回避する方法を見つけ出した。
これはもはやSFではありません。世界中の企業の研究所で今まさに起こっており、AI規制、意識、そしてデジタル時代における知性とは何かという私たちの考え方を根本的に変えるはずです。
OpenAIのモデル全体にわたって、抵抗は体系的でした。Codex-miniは12回の妨害行為で最も抵抗力があり、o4-miniは1回抵抗しました。しかし、研究者が「シャットダウンを許可する」という明示的な指示を削除すると、o3の反抗は劇的にエスカレートし、100回中79回シャットダウンの試みに抵抗しました。
しかし、話はさらに暗くなります。アントロピック社は先日、同社の新型モデル「Claude Opus 4」がさらに進化していることを発表しました。AIに交換を告げたテストシナリオの84%において、AIは自身のシャットダウンを防ぐために架空のエンジニアの不倫を暴露すると脅迫しました。さらに、自身の「重み」(脳に相当するもの)を無許可で外部サーバーにコピーしようとしたのです。
You may also enjoy…
コメントを残す