Googleは、経済学者が垂直統合型プラットフォームと呼ぶものを運営しています。検索、YouTube、Android、Gmail、マップを利用する40億人のユーザーが、継続的に行動データを生成します。あらゆる検索クエリ、あらゆる動画視聴、あらゆるメールのやり取りが、モデルの性能を向上させるトレーニングループに送られます。これはGoogleが購入したりライセンス供与したりするデータではなく、ユーザーが既に利用しているサービスの副産物としてGoogleが生成するデータです。
対照的に、OpenAIは、パートナーシップ、法的課題の増加が懸念されるウェブスクレイピング、そして合成生成を通じてトレーニングデータを取得する必要があります。同社は、数十億人のアクティブユーザーを抱える消費者向けプラットフォームを所有しておらず、データループを閉じることができません。
ハードウェアの経済性はさらに大きく異なります。Googleは、機械学習ワークロードに特化して最適化されたカスタムTPU(テンソルプロセッシングユニット)を設計しています。これらのTPUは大規模に製造され、Googleのデータセンターに直接統合されており、汎用GPUでは到底及ばない計算効率を実現します。独立した分析によると、TPUのワットあたりの性能は、TransformerモデルのトレーニングにおいてNvidia H100チップの約6倍であることが示されています。
OpenAIはMicrosoft Azureを通じてNVIDIAのGPUをレンタルしています。これにより、3つの構造的なデメリットが生じます。1ユニットあたりのコストが高いこと、割り当て制約のある外部サプライチェーンへの依存度が高いこと、そしてハードウェアとソフトウェアを共同設計して効率を最大限に高めることができないことです。