GPT-4、LLaMa、Claude などの大規模言語モデルは、いずれも単語埋め込みを多用しています。大規模言語モデルの役割は、文中の次の単語を繰り返し予測することです。これらの単語にプロパティを与えることで、言語モデルが次の単語をより「正確に」予測できるようにすることができます。例えば、「猫は___の上に座っていた」という文の次の単語を予測するように言われた場合、「マット」や「机」と答えるかもしれません。しかし、言語モデルはどのようにしてどの単語を選ぶべきかを知るのでしょうか?なぜ「月」や「憲法」のような抽象的な単語を選ばないのでしょうか?それは、単語埋め込みの中に隠されたプロパティを拾い上げ、どの単語が適切かを暗黙的に認識するからです。
現代の言語モデルでは、単語埋め込みは約750次元であり、単語埋め込みを理解するのは非常に困難です。
You may also enjoy…
コメントを残す