Azure障害は、データセンターでの冷却装置トラブル – MS暫定レポート

Data Center Cafe
2018.09.20
1,129 views

マイクロソフト社は、9月4日に始まり数日続いたAzureクラウドサービスの重大な混乱について、暫定的なレポートを発表しました。

今回の障害は、もともとテキサス州のデータセンター近くで発生した落雷が原因となり、SkypeやOffice 365などのMicrosoftサービスにも影響が生じ、世界中へと影響が拡散しました。
Microsoft、先日のデータセンター障害に続きS/Wアップデートでもトラブル（2018/9/10）

「クラウドサービスも、どこかのデータセンターへつながっている」

「2018年9月4日の早朝、Microsoft Azureの米国地域（中南部近く）、テキサス州南部に非常に大きなエネルギーを持つ嵐が発生しました。この地域の複数のAzureデータセンターでは電圧が低下し、8:42の落雷によって、電力供給に異常が発生し、電圧が大幅に上昇しました」と暫定報告書は述べています。

これにより、いくつかあるAzureのデータセンターの1つが商用電源から発電機へと運転を移行し、冷却システムは、サージサプレッサーがあるにも関わらずシャットダウンしてしまいました。

「トラブルが発生した後も、データセンターは冷却システムの設計時に設けられたある程度の冷却能力の余裕によって、定められた運用温度を保っていました。しかし、このバッファが使い尽くされると、データセンターの温度が安全な動作範囲を超え、IT機器の自動シャットダウンを引き起こしました。

このシャットダウン機能は、インフラストラクチャとサーバーの保護を目的としていましたが、設備内の温度が急速に上昇したため、一部のハードウェアはシャットダウンする前に損傷してしまいました。一部のストレージやネットワーク装置、電源装置なども同様の被害を受けています。」

現場で運用にあたったチームは、まず、残りのデータセンターを発電機に切り替えて電源を安定させ、AzureユーザーとAzureが提供するサービス間でのトラフィックを正常にするため、Azure Software Load Balancer（SLB）の復旧に取りかかりました。

次のステップでは、ストレージサーバー、および、ストレージ内に保存されていたデータの復旧に取り掛かりました。チームは、障害が発生したコンポーネントを交換し、破損したサーバーの顧客データを正常なサーバーに移行し、回復されたデータが破損していないことを検証し続けました。「このプロセスには、多くのサーバーが壊れていることや、顧客データの整合性を保つために慎重に作業する必要があったため、かなりの時間を要しました」とMicrosoftは言います。

今回の障害では、復旧中にも、新たなデータ損失が生じる可能性も考慮し、別のデータセンターへとフェールオーバーせずにMicrosoftは対応しました。
落雷そのものはテキサス州にしか被害を出していないのですが、問題は連鎖的に広まり、テキサス州地域外にも影響を与えました。

– Data Center Dynamics
原文はこちら