投稿者: | 2025年12月25日

NvidiaのBlackwellプラットフォームは、この熱危機の先鋒です。H100は熱くなりました(チップあたり700W)。しかし、Blackwellは全く別物です。GB200 NVL72ラックスケールシステムは、兆パラメータモデルを処理できるように設計されており、ラック密度は驚異的な130kWに達します。

材料によって加熱時の膨張率は異なります。Blackwell GPU、LSIブリッジ、RDLインターポーザー、マザーボード基板は、トレーニングランが開始されるとすぐに熱くなります。基板の膨張がブリッジよりも速かったり、インターポーザーの膨張がチップよりも遅かったりすると、機械的なストレスが発生します。

初期の報告では、これらの膨張率の不一致がシステムコンポーネントの歪みや相互接続の故障につながることが示唆されていました。想像してみてください。チップは非常に高温で、非常に高密度で、温度変化が激しいため、搭載されているマザーボードが物理的に曲がってしまいます。チップ自体の存在そのものが歪んでしまうのです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です