投稿者: | 2025年12月9日

例え話をします。両方のチップがトレーニングに50時間、推論に50時間使用されたと想像してください。今度は、同じ状況にある車を想像してください。24時間レースを2回、合計50時間運転した車と、1年間毎週日曜日に教会に車で行った車、つまり約50時間、往復30分としましょう。どちらの車を所有したいでしょうか? 日曜日に教会に行った車を所有したいです。50時間は50時間ですが。なぜなら、たとえ車が1年間で48時間から50時間しか走っていないとしても、24時間レースを2回走るのと、発生するストレスに関して全く異なる要件があることに気付いたからです。

GPU をトレーニングに使用するのは、車で 24 時間レースを 2 回走るのと、1 年間日曜日に教会に車で行くのとで同じようなものです。データからも明らかなように、ロングテールに関する分布があり、チップの中にはかなり長持ちするものもありますが、最初の 2 ~ 3 年は故障率が高く、平均故障間隔は約 2 年半です。つまり、「お、新しいホットなチップが出ているから、これを交換しよう」と思うずっと前から、チップの故障が着実に発生しているのです。では、集計してみましょう。10,000 基、あるいは 20,000 基の GPU を備えたデータセンターがあると想像してください。統計的には、約 3 時間または 4 時間ごとにチップが故障すると予想されます。新世代のチップが登場したからといって、すぐにチップを交換せざるを得なくなるずっと前から、熱ストレスで故障するという理由だけで、大量のチップを交換せざるを得ないのです。というのも、こうしたワークロードは、まるで車のエンジンを全開にするようなものだからです。高温で、大きなストレスがかかり、部品が故障し始めます。一般的に言えば、熱くなる新しいチップが出たからといって交換するよりもずっと前に、この交換に至っているのです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です