模倣学習と強化学習の違いを理解する必要があります。

トレーニング例が「2+2=4」とした場合、模倣学習アルゴリズムは「2 足す 2 は 4」と「2+2=5」を同様に誤りとして扱います。トレーニング例のスタイルとフォーマットを再現するようにモデルをトレーニングするのに多くの時間を費やしますが、最終的に正しい答えを得るための努力は比較的少なくなります。

強化学習は異なるアプローチを採用しています。強化学習では、トレーニング データ内のすべてのトークンを完璧に再現しようとするのではなく、最終的に正しい答えに到達したかどうかに基づいて応答を評価します。

強化学習がそれほど優れているのなら、なぜ誰もが使用しないのでしょうか。その理由の 1 つは、強化学習がスパース報酬と呼ばれる問題に悩まされる可能性があることです。LLM が 100 トークンの回答のうち 5 トークンしか生成していない場合、強化学習アルゴリズムは正しい回答に向かっているかどうかを知る方法がない可能性があります。そのため、強化学習のみでトレーニングされたモデルは、肯定的なフィードバックを受け取れるほど十分に良くならない可能性があります。

欠点はありますが、模倣学習は少なくともすべてのトークンに対してフィードバックを与えることができます。そのため、初期のモデルがまともな文章を生成することさえできないトレーニングの初期段階には、模倣学習が適しています。モデルがときどき適切な回答を生成できるようになったら、強化学習によってモデルをより迅速に改善することができます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…