LLMの場合、ご存知のとおり、トレーニングの大部分は次のトークン予測から行われます。インターネット上のあらゆる記事の巨大なコーパスがあるので、次の単語を予測してみます。次の単語を正しく予測できれば、プラスの報酬が得られ、間違っていればペナルティが課せられます。
LLM は、次の単語がなぜ正しい答えなのかを学習しません。学習するのは、前の単語セットに似たものを見たときに、この特定の次の単語を言う必要があるということだけです。
もし気に入ったら購読料お願いします
引用ジャングル
もし気に入ったら購読料お願いします
LLMの場合、ご存知のとおり、トレーニングの大部分は次のトークン予測から行われます。インターネット上のあらゆる記事の巨大なコーパスがあるので、次の単語を予測してみます。次の単語を正しく予測できれば、プラスの報酬が得られ、間違っていればペナルティが課せられます。
LLM は、次の単語がなぜ正しい答えなのかを学習しません。学習するのは、前の単語セットに似たものを見たときに、この特定の次の単語を言う必要があるということだけです。
もし気に入ったら購読料お願いします