トークンは単語の断片と考えることができます。APIがリクエストを処理する前に、入力はトークンに分割されます。これらのトークンは単語の始まりや終わりで正確に分割されるわけではなく、末尾のスペースやサブワードが含まれることもあります。トークンの長さを理解するための、役立つ経験則をいくつかご紹介します。
・1トークン = 英語で4文字
・1トークン ~= ¾語
・100トークン ~= 75語
または
・1~2文 ~= 30トークン
・1段落あたり100トークン
・1,500語 ~= 2048トークン
トークンがどのように積み重なるかについての追加コンテキストを取得するには、次のことを考慮してください。
・ウェイン・グレツキーの名言「打たないシュートは100%外れる」には11個のトークンが含まれています。
・OpenAI の憲章には 476 個のトークンが含まれています。
・アメリカ独立宣言の写しには 1,695 個のトークンが含まれています。
単語をトークンに分割する方法も言語によって異なります。例えば、「Cómo estás」(スペイン語で「お元気ですか」)は5つのトークン(10文字)で構成されます。トークンと文字の比率が高いと、英語以外の言語でAPIを実装する際にコストが高くなる可能性があります。
You may also enjoy…
コメントを残す