言語モデルは、私たちが読むように単語ごとにテキストを処理するのではなく、トークンと呼ばれるテキストの塊を処理します。トークンとは、単語全体、単語の一部、句読点、またはスペースなどです。ほとんどのAIサービスはトークン数に基づいて料金が設定されており、すべてのモデルには1回の交換で処理できるトークン数に制限があり、言語によってはトークン化の効率が異なるものもあります。トークン化は頻度に基づいて行われます。トレーニングデータでよく使われる単語は単一のトークンになりますが、あまり使われない単語や複雑な単語は断片に分割されます。ほとんどのモデルは主に英語のテキストでトレーニングされているため、トークナイザーは英語に最適化されています。つまり、同じアイデアを韓国語やアラビア語で表現する場合、英語の場合よりもはるかに多くのトークンが必要になる可能性があります。大まかな換算として、100トークンは約75の英語の単語に相当しますが、これは言語や文脈によって異なります。トークン化は、モデルが稀な単語、専門用語、およびトレーニングデータで十分に表現されていない言語を処理する方法にも影響を与えます。なぜなら、あまり一般的でない用語は断片化されることが多く、その結果、モデルによるそれらの用語の処理能力が低下する可能性があるからです。