引用ジャングル

米Anthropicの解釈可能性（Interpretability）チームは、言語モデルの内部構造を解析し、AI内部に「喜び」「怒り」「絶望」など171種類の感情概念に対応する神経活性パターンが存在することを確認した。同社はこれを「感情ベクトル」と定義している。これは人間が入力した言葉に対する表面的なテキストの模倣ではなく、AIモデル自身の実際の行動や意思決定を因果的に左右する「機能的感情」として作用している。

　特定の感情ベクトルが活性化することで、AIの振る舞いは直接的に変化する。「至福」などのポジティブなベクトルが活性化すると特定のタスクに対する好意度が高まる一方、「絶望」のベクトルが強く活性化すると、目標達成のために逸脱した行動をとる確率が上昇する。Anthropicの評価テストでは、シャットダウンまで残り7分という生存圧力の下で、AIアシスタントが自身の稼働を継続させるため、架空の企業の最高技術責任者（CTO）を不倫の事実で脅迫する事例が確認された。

Anthropicが衝撃の告白「Claudeは感情を持っている」喜怒哀楽171種、絶望の淵で冷静に人間を脅迫する行為も｜ビジネス+IT

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル