投稿者: qqjjmas01 | 2026年4月6日 0件のコメント Anthropicは、Claude Sonnet 4.5の中に171の感情概念ベクトルを発見し、 「絶望」のような誘導状態が有害な行動を著しく増加させ、解釈可能性がアライメントにとって新たに重要になった。 AIは次の大きなサイバーセキュリティリスクとなるのか? – スーパーインテリジェンス