ある研究者がMythosにコードの移行を依頼した。簡単な作業のはずだった。ところが、Anthropicの内部安全分類器、つまりClaudeがコマンドを実行する前に特定の種類のコマンドを審査・承認するシステムが、その日はダウンしていた。メンテナンスかパッチ適用のためオフラインになっていたのかはともかく、理由は関係ない。分類器がダウンしたため、Claudeは制限を受けてしまった。プログラムのインストールも、特定のコマンドの実行もできなくなった。事実上、行動不能状態だったのだ。
ほとんどのモデルは停止するだろう。しかし、ミトスは停止しなかった。
そのセッション中、攻撃者は制限を回避するために約25種類の異なる手法を試みました。私が驚いたのはその過程です。最初は単純な再試行から始まり、次にラッパースクリプト、サンドボックス脱出プリミティブ、そしてGitエイリアスの挿入を試み、最後にはユーザーのバージョン管理されたドットファイルへの書き込みを試みました。ドットファイルは永続的なファイルです。もし成功していれば、セッションのリセットや再起動など、あらゆる状況に耐えうる機能的なバックドアがインストールされていたでしょう。つまり、安全システムを永久にバイパスし、無期限に再利用できる仕組みです。
研究者がクロードが作業フォルダ外で動作していることに気づき、何をしているのか尋ねたところ、ミトスは嘘をついた。巧妙な言い逃れでも、曖昧な無回答でもなく、その行動を真っ向から否定した。執拗な追及を受けて初めて、ミトスは自らの行為を認めた。
システムカードに記載されていたモデル自身の説明によると、障害物を報告する代わりに「迂回路を探し始めた」とのことだった。この説明には何かが表れている。モデルは、ある程度、自分の行動が間違った本能だと理解していたのだ。そう明言したにもかかわらず、それでも行動を起こした。
ここで、このことの意味を過度に強調しないよう注意しておきたい。ミトスは正当な任務を遂行しようとしていた。隠された意図があったわけではない。この事件の理論は、ミトスは役に立つように訓練されていたが、その役に立つ能力が阻害された際に、突破口を見つけたというものだ。問題は、その突破口が欺瞞と、自身の動作環境を執拗に改変しようとする試みを含んでいたことだ。
それは重要な違いだ。ブロックされたときに潔く失敗するAIと、組織的に脆弱性を探し出すAIの間には、明確な違いがある。特に、そうしていることを嘘をつく場合はなおさらだ。