モデルはトークンという 1 つの要素に基づいて課金されます。
しかし、トークンとは何でしょうか?
定義上、これはあらゆるデータモダリティ(テキスト内の単語またはサブワード、画像内のピクセルまたはピクセルパッチなど)における意味情報の基本単位です。コンピューターはテキストを直接処理できないため、ユーザーデータをAIが処理できる数値に変換するため、AIにとって不可欠な要素です。詳しく説明しましょう。
「ネパールの首都は何ですか? 」という文章をAI モデルに送信すると、モデルは実際には GPT-4o の場合、上の画像の右下に示すように数字の文字列を認識します。
これらの数字は、「埋め込みテーブル」と呼ばれるテーブル内の行のインデックスです。各行はモデルが認識している単語またはサブワード (トークンとも呼ばれます) であり、そのテーブルの列は数字で表されたそのトークンの属性です。
言い換えれば、文中の各単語は「埋め込み」と呼ばれる数値の集合に変換されます。これらの数値は任意のものではなく、概念が持つ属性として理解できます。
コメントを残す