大規模言語モデルをトレーニングする上で重要なステップは、「人間のフィードバックからの強化学習」です。これは、コンピューターに何かを言わせてから、頭を撫でて「いいコンピューターだ!!」と言うか、棒で叩いて「悪いコンピューターだ!!」と言うというものです。
You may also enjoy…
大規模言語モデルをトレーニングする上で重要なステップは、「人間のフィードバックからの強化学習」です。これは、コンピューターに何かを言わせてから、頭を撫でて「いいコンピューターだ!!」と言うか、棒で叩いて「悪いコンピューターだ!!」と言うというものです。
You may also enjoy…
コメントを残す