Cloudflareは、1か月の間に崩壊した最新のウェブインフラストラクチャ大手となり、X、ChatGPT、Spotify、Canva、さらには障害追跡ツールのDowndetectorを含むサイト全体を今朝数時間にわたってエラーメッセージで置き換えました。
今回の障害は、Microsoft AzureとAmazon Web Servicesに影響を与える問題がわずか1週間以内に相次いで発生し、ウェブサイトの運営を大手プロバイダーに依存しているインターネットの大部分がダウンした後に発生しました。
ウェブの約20%がCloudflareのネットワークを経由していると述べています。また、Fortune 500企業の35%に加え、「数百万」もの顧客にサービスを提供しています。
MicrosoftとAWSは、障害の原因をDNS(ウェブサイトのドメイン名をIPアドレスに変換するシステム)に関連する問題に関連付けたが、Cloudflareは障害の原因を1つのファイルにまで遡って追跡した。
「障害の根本原因は、脅威となるトラフィックを管理するために自動生成される設定ファイルだった」とCloudflareの広報担当者は述べた。
「そのファイルは予想されたエントリサイズを超えて大きくなり、Cloudflareの複数のサービスのトラフィックを処理するソフトウェアシステムのクラッシュを引き起こした」
このようなファイルの問題でインターネットの広範囲がダウンするというのは馬鹿げているように思えるかもしれないが、Cloudflareのような大企業では起こり得ることだ。
「Cloudflareのような規模のインフラを運用している場合、小さな逸脱でも大きな影響が出る可能性があります」
「これらのプラットフォームは速度を重視して構築されているため、意思決定を遅らせたり停止させたりするものはすぐに連鎖反応を起こす可能性があります。高パフォーマンス環境では、1ミリ秒の遅延がトラフィックの完全な停止につながる可能性があります」
Cloudflareが記述するような構成ファイルは「ルーティングのセキュリティポリシー、負荷分散の決定、およびトラフィックのグローバルな分散方法を左右します」。
ファイルのサイズが突然大きくなると、「それに依存するシステム内で解析速度の低下、メモリの問題、CPUの競合、または論理障害を引き起こす可能性があります」
「Cloudflare がくしゃみをするたびに文句を言うつもりですか?」