大規模言語モデルをトレーニングする上で重要なステップは、「人間のフィードバックからの強化学習」です。これは、コンピューターに何かを言わせてから、頭を撫でて「いいコンピューターだ!!」と言うか、棒で叩いて「悪いコンピューターだ!!」と言うというものです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…