インターネットが新たな黙示録に直面してから 24 時間以上が経過しました。約 6 時間にわたり、 Facebook、Instagram、WhatsApp は世界中で完全にアクセスできなくなりました。また、その下落により、別のコミュニケーション手段を求める膨大な数のユーザーが発生したため、Twitter や Telegram などのプラットフォームでも問題が発生しました。災害後、Facebookはネットワーク障害の原因を正確に説明した。

Facebookによると、災害は同社ネットワークの「バックボーン」の定期メンテナンス中に発生したという。彼らは一見無害な設定コマンドを入力し、驚くべきことにバックボーン ネットワーク内のすべての接続を切断しました。これにより、同社が世界各地に展開しているデータ センターが切断されました。ただし、欠点はこれだけではありませんでした。

Facebook には、この種の設定がクラッシュを引き起こさないことを検証するシステムがありますが、正しく機能しませんでした。 「当社のシステムは、このようなエラーを回避するためにこのようなコマンドを監査するように設計されていますが、監査ツールのエラーによりコマンドが正しく停止されませんでした」と彼らは述べています。バックボーンが切断されると、次に落ちるのはボーダー ゲートウェイ プロトコル (BGP) です。これについては、すでに「ニューロストリーム」で説明しました。

 FacebookのBGP、大敗者

FacebookのBGP、大敗者

サーバー、フェイスブック

BGPとは何ですか?基本的には、ネットワークの存在をインターネットに通知するプロトコルです。 BGP が機能しない場合、インターネットはあなたを見つけることができません。これが、数時間にわたって Facebook の痕跡がなくなり、消えてしまった理由です。同社のエンジニアは、プロトコルがデータセンターとの接続の確立に失敗した場合(コマンドによって以前にクラッシュが発生したため)、DNS サーバーが BGP アドバタイズメントタスクを非アクティブ化すると指摘しています。

BGP がその機能を果たせなくなると、 DNS も同じ運命をたどります。後者は、IP アドレスを入力する代わりに、ドメイン名 (facebook.com など) から Web サイトにアクセスできるシステムです。毎日アクセスするすべての Web サイトのアドレス番号を知ることができますか? IP アドレスを認識しやすい名前に変換するために DNS が作成されたのはこのためです。

「最終的な結果として、DNS サーバーはまだ動作していたにもかかわらずアクセスできなくなりました。これにより、インターネットの他の部分が当社のサーバーを見つけることができなくなりました」と彼らは付け加えました。一方、Facebook は、ネットワーク全体がダウンしていたため、構成にリモートからアクセスできなかったため、手動介入で問題を解決するためにエンジニアを派遣する必要があったことを認めています。

学習体験

学習体験

ケーブル、フェイスブック

皆さんもお気づきかもしれませんが、ネットワークの問題が解決された後、Facebook、Instagram、WhatsApp の回復が遅かったということもあります。なぜなら?彼らはそれを自分たちで明らかにしています。 「サービスを一度にオンに戻すと、トラフィックの増加により新たな事故が発生する可能性があることはわかっていました。個々のデータセンターでは、数十メガワットの範囲で電力使用量の低下が報告されていましたが、そのような「電力消費量の低下」は突然回復しました。電気システムからキャッシュに至るまであらゆるものを危険にさらす可能性があります。」

Facebookは、この経験は将来このようなことを避けるための学習の宝庫であると述べてレポートを締めくくっている。 「このようなあらゆる失敗は学び、改善する機会であり、今回の失敗から学ぶべきことはたくさんあります。大小を問わずあらゆる問題が発生した後、私たちはシステムの回復力を高める方法を理解するために広範なレビュープロセスを経ます。そのプロセスはすでに進行中です。」

参考資料一覧

  1. https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/

Facebook、Instagram、WhatsApp の崩壊の原因が正確にわかりました。・関連動画