引用ジャングル

投稿者: qqjjmas01 | 2024年11月17日

AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。