今、人々は強化学習をスケーリングしています。Twitterでの発言を見ると、強化学習は実際にはかなりの計算リソースを消費するため、現時点では事前学習よりも強化学習に多くの計算リソースを費やしているようです。非常に長いロールアウトを行うため、ロールアウトを生成するには大量の計算リソースが必要です。そして、ロールアウトごとに得られる学習量は比較的少ないため、実際には多くの計算リソースを費やすことができます。
これをスケーリングと呼ぶことすらしません。「ねえ、あなたは何をしているの? 今やっていることは、あなたができる最も生産的なことなの? もっと生産的なコンピューティングの使い方を見つけられない?」と問いたいですね。