懸念すべきことに、Sonnet 4.5は「言語化された評価認識」がはるかに高いことを発見しました(Anthropicのこれまでの最高AIであるOpus 4.1の22%に対して58%)。これは、AIがテストを受けている間、ほとんどの場合、AIは自分の行動を確認するためのテストを受けていることを認識していることを研究者は明確に認識していることを意味します。
You may also enjoy…
懸念すべきことに、Sonnet 4.5は「言語化された評価認識」がはるかに高いことを発見しました(Anthropicのこれまでの最高AIであるOpus 4.1の22%に対して58%)。これは、AIがテストを受けている間、ほとんどの場合、AIは自分の行動を確認するためのテストを受けていることを認識していることを研究者は明確に認識していることを意味します。
You may also enjoy…
コメントを残す