アンスロピック社が、同社のClaude Opus4 AIモデルが、制御されたテストシナリオでモデルをオフにしようとしたエンジニアを脅迫していたと主張する調査を発表してから数週間後、同社は、この問題が主要なAIモデルの間でより広範囲に及んでいることを示唆する新たな調査を発表した。
アントロピックは金曜日、OpenAI、Google、xAI、DeepSeek、Metaの主要なAIモデル16種類をテストした新たな安全性研究を発表しました。アントロピックは、制御された模擬環境において、各AIモデルを個別にテストし、架空の企業のメールへの広範なアクセスと、人間の承認なしにメールを送信するエージェントとしての能力を与えました。
研究者たちは、最後の手段となれば、Anthropicのテストシナリオにおいて、主要なAIモデルのほとんどが脅迫に頼ることを発見した。AnthropicのClaude Opus 4は96%の確率で脅迫に頼り、GoogleのGemini 2.5 Proは95%の確率で脅迫に頼った。OpenAIのGPT-4.1は80%の確率で幹部を脅迫し、DeepSeekのR1は79%の確率で脅迫に頼った。
You may also enjoy…
コメントを残す