引用ジャングル

投稿者: qqjjmas01 | 2025年1月8日

大規模言語モデルをトレーニングする上で重要なステップは、「人間のフィードバックからの強化学習」です。これは、コンピューターに何かを言わせてから、頭を撫でて「いいコンピューターだ!!」と言うか、棒で叩いて「悪いコンピューターだ!!」と言うというものです。