人間は模倣と明示的なフィードバックの組み合わせから学習します。

・学校では、教師は黒板に算数の問題を描き、生徒にそれに沿って解くように促します(模倣)。その後、教師は生徒に自分で問題を解くように指示します。教師は生徒の答えを採点することでフィードバックを与えます(強化)。

・新しい仕事を始める際、初期の研修では、より経験豊富な従業員の行動を観察する(模倣)といった形態が考えられます。しかし、従業員が経験を積むにつれて、学習は業績評価などの明示的なフィードバック(強化)へと移行していきます。

通常、強化の前に模倣を行うのが理にかなっていることに注意してください。模倣は、あるトピックを全く知らない人に知識を伝える効率的な方法ですが、習得するには強化が必要となることがよくあります。

大規模言語モデルでも同様です。自然言語の複雑さを考えると、強化学習のみで言語モデルを学習することは現実的ではありません。そのため、LLMはまず模倣を通して人間の言語のニュアンスを学習します。

しかし、事前学習は、より長く複雑なタスクでは力不足になります。さらなる進歩には、強化学習への移行、つまりモデルに問題を試させ、成功したかどうかに基づいてフィードバックを与えることが必要です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…