アテンションとは、シーケンス内の各トークンが他のすべてのトークンを見て、それぞれにどれだけの重みを与えるかを決定する仕組みです。「she walked to the bank of the river」という文の「bank」という単語を処理する際、モデルはアテンションを使って「river」を見て、これが金融機関ではなく川岸であることを認識します。「river」という単語には高いアテンション重みが与えられ、「walked」という単語には低いアテンション重みが与えられます。
これは、注意と計算のブロックが積み重ねられた多数の層にわたって行われます(各ブロックにはフィードフォワード層、正規化、位置情報も含まれますが、重要なのはすべてが注意を中心に展開されるということです)。各層は、前の層によって生成された表現を洗練していきます。モデルが最終層に到達する頃には、生のトークンは数十回の比較と重み付けを経て、意味、文脈、関係性を豊かに表現したものへと変換されています。