AWS、東京リージョンでの大規模障害について

2019年8月23日金曜日に発生したAWS東京リージョン(AP-Northeast-1)大規模障害に関する概要

AWSが公開した、2019年8月23日金曜日に発生したAWS東京リージョンにおける障害に関して、以下概要を纏めました。

  • 障害発生開始:2019年8月23日 12:36 より
  • 障害発生範囲: 東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーン
  • 障害影響範囲: EC2 インスタンスと EBS ボリューム
  • 障害発生原因: 一部の冗長化された冷却制御システムシステムのバグが、冷却装置の誤作動を引き起こし、データセンター内の温度上昇が発生したため、サーバーが過熱しシステムの障害が発生したとしています。

原因は空調設備

日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一定の割合の EC2 サーバの停止が発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンスへの影響及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。日本時間 15:21 に冷却装置は復旧し、室温が通常状態に戻り始めました。室温が通常状態に戻ったことで、影響を受けたインスタンスの電源が回復しました。日本時間 18:30 までに影響を受けた EC2 インスタンスと EBS ボリュームの大部分は回復しました。少数の EC2 インスタンスと EBS ボリュームは、電源の喪失と過大な熱量の影響を受けたハードウェアホスト上で動作していました。これらのインスタンスとボリュームの復旧には時間がかかり、一部につきましては基盤のハードウェアの障害によりリタイアが必要でした。

東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要

15:21に 冷却制御システム は復旧し、その後データセンター内の室温は正常状態に戻っていき、 18:30 までに影響を受けた EC2 インスタンスと EBS ボリュームの大部分は回復したようです。結果的に同リージョンのクラウドサービスを利用していたユーザーはシステムが繋がりにくいなどの損害を被りました。

詳しくはAWSページをご参照ください。

過去にも世界的にこのようなクラウドサービスの大規模障害は頻繁に発生しています。企業や政府機関のクラウドへの依存が高まる中、今後このような事態が発生した際の対応策は考えていく必要があるでしょう。

(DC ASIAにて原文一部引用、及び加筆)