引用ジャングル

投稿者: qqjjmas01 | 2026年4月6日

Anthropicは、Claude Sonnet 4.5の中に171の感情概念ベクトルを発見し、「絶望」のような誘導状態が有害な行動を著しく増加させ、解釈可能性がアライメントにとって新たに重要になった。