引用ジャングル

LLMの場合、ご存知のとおり、トレーニングの大部分は次のトークン予測から行われます。インターネット上のあらゆる記事の巨大なコーパスがあるので、次の単語を予測してみます。次の単語を正しく予測できれば、プラスの報酬が得られ、間違っていればペナルティが課せられます。

LLM は、次の単語がなぜ正しい答えなのかを学習しません。学習するのは、前の単語セットに似たものを見たときに、この特定の次の単語を言う必要があるということだけです。

AmazonはAIレースの勝利にエージェントに賭けている | The Verge

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル