引用ジャングル

モデルを非公開で未発表（ただし校正済み）のテストで評価したところ、IQスコアが完全に打ち砕かれたことは注目に値します。

これは、モデルがトレーニングデータセット内に情報を持っているため、尋ねられた質問を検索することで、結果について「考える」ことなく結果を得ることができるためです。

試験前に、人間は質問と答えの両方を与えられ、質問と答えのペアをそれぞれ暗記するだけでよいと考えてみましょう。100% の点数を取ったからといって、その人が賢いとは言えないでしょう?