AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。
You may also enjoy…
AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。
You may also enjoy…
コメントを残す