AlphaGo では、モデルが具体的な勝利条件 (「この囲碁のゲームに勝ったか?」) に基づいて自分自身を判断できるため、自己プレイが機能しました。しかし、新しい推論には具体的な勝利条件がありません。その結果、予想どおり、LLM は今のところ自身の推論を修正することができません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…