AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。
もし気に入ったら購読料お願いします
引用ジャングル
もし気に入ったら購読料お願いします
AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。
もし気に入ったら購読料お願いします