AI企業はモデルにガードレールを設け、生物兵器の製造に加担することを防ぐことができます。Anthropicはこれを積極的に行っています。Claude ’s Constitution(クロード憲法)は、主に高レベルの原則と価値観に焦点を当てていますが、少数の具体的な厳格な禁止事項があり、そのうちの1つは生物兵器(または化学兵器、核兵器、放射性兵器)の製造に加担することに関するものです。しかし、すべてのモデルはジェイルブレイク(脱獄)できるため、第二の防御線として、生物兵器関連の出力を特異的に検出してブロックする分類器を実装しました(2025年半ば以降、テストでモデルがリスクをもたらす可能性のある閾値に近づき始めていることが示されたため)。これらの分類器は定期的にアップグレードと改善を行っており、高度な敵対的攻撃に対しても非常に堅牢であることが概ね確認されています。これらの分類器により、モデルを提供するコストが測定可能なほど増加し(一部のモデルでは推論コスト全体の 5% 近くになります)、利益が削減されますが、これらを使用することは正しいことだと考えています。
他のAI企業も分類器を実装しているのは評価に値します。しかし、すべての企業が実装しているわけではなく、分類器の維持を義務付ける規定もありません。私は、時間が経つにつれて、企業が分類器を削除することでコストを削減し、脱退する「囚人のジレンマ」に陥るのではないかと懸念しています。これはまたしても、Anthropic社や他の企業単独の自発的な行動だけでは解決できない、典型的な負の外部性の問題です。