作業員がつるはしでケーブルを切断、UKFastがサービス停止に

UPSルートの不安定化とそれに続く発電機の起動失敗

昨日、英国のクラウドホスティング会社UKFastの所有するマンチェスターのMANOC5データセンターで停電が発生しました。工事関係者が誤ってデータセンターに接続されている電源ケーブルを切断してしまったことが原因です。
同社は30分ごとに情報を更新し、ユーザーに障害復旧状況を知らせています。

タイムライン

11:42GMT - 電源回復。エンジニアは同社のクラウドプラットフォームeCloudとeCloud Flexをオンラインに戻すため作業を開始しました。

13:30〜14:30GMT - 作業完了。同社はユーザーの物理インフラをオンラインに戻そうとしましたが、VMwareの自動展開サービスには現地時間17:00近くまで障害が残りました。

21:30GMT - UKFastは停電の原因を詳述した報告書を発表しました:

「本日10:28、当社のMANOC 5、6、7データセンターは、工事関係者が誤って主要ケーブルをつるはしで切断してしまった事故により、施設への電源供給が不安定な状態になりました。この原因となった工事はUKFastの委託業務、当社施設内の工事ではありません。施設内変圧器への引き込み線上0.75km離れた別の場所で発生したものです。

UPSシステムは設定時間通りに作動し、発電機も起動しました。しかし、電源ケーブルが受けた物理的損傷のため、データセンターのサービスは不安定に陥り、断続的に停止しました。その結果、発電機の同期、サービス引き継ぎに失敗したのです。

当社のエンジニアは徹夜で復旧作業にあたり、サービスを一つ一つ回復させてきましたが、停電の影響を受けているユーザーが残っている限りこのまま作業は続けます。

サービスの完全復旧後、電力問題だけでなくユーザーサービス復旧に要する時間の両方で、再発を防ぐために何ができるか、詳しく調査します」

– Data Center Dynamics
原文はこちら