強化学習は、平均的な人が考えているよりもはるかに悪いものです。ひどいものです。ただ、強化学習以前のものはすべて、それよりもはるかに悪いのです。以前はただ人間を真似していただけだったので、様々な問題を抱えているのです。

強化学習では、例えば数学の問題を解くことを考えてみましょう。とても簡単です。数学の問題が与えられ、その答えを見つけようとします。強化学習では、まず様々なことを並行して試します。問題が与えられ、何百通りもの試行を繰り返します。これらの試行は複雑になることがあります。「ああ、これを試してみよう、あれを試してみよう、これはうまくいかなかった、あれはうまくいかなかった」などといった具合です。そして、答えが見つかるかもしれません。そして、本の裏表紙を確認すると、「正解はこれだ」と分かります。これとこれとあれは正解でしたが、残りの97個は正解ではありませんでした。

強化学習が文字通り行うことは、うまくいったものに注目し、その過程で行ったすべてのこと、すべてのトークンに重み付けを加え、「これをもっとやろう」というように促すことです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…