ブリティッシュ・エアウェイズ社長、ヒューマンエラーによる停電を認める

2017年の5月に発生したブリティッシュ・エアウェイズ(以下BA)による大規模なシステム障害は、世界中で多くの旅行客へ影響を及ぼしました。
ブリティッシュ・エアウェイズの生みの親IAGのヘッドであるウィリー・ウォルシュ氏は人的ミスを認めているが、そこにはまだ多くの疑問が残っています。現在調査をしているようですが、果たしてその原因はどこに。

BAは、人為的ミスが悲惨な停電を引き起こしたことを認めました。この停電によって先月末の週末、何千もの飛行機が離陸待機になりました。しかし、何が起こったのかについての完全な説明はまだありません。BAの親会社IAGの最高経営責任者(CEO)であるウィリー・ウォルシュ氏も、一連の出来事について混乱しているようです。BAが発表した調査結果に対する問合わせの電話も、増える一方です。
BBCの報道によると、メキシコで開催された業界会議でウォルシュ氏は「技術者が電源を切断し、数分後に再接続したことが電圧の急激な変化をもたらし、それがIT機器を損傷させた」と述べました。しかし、この説明は漏洩された内部電子メールとは多少異なり、ビジネス継続性を担保する機器と手順が、一連のアクションに対して作用しなかった理由の説明にはなっていません。

「理解しがたい」:
ウォルシュ氏は、自身も今回の事件について混乱していると述べました。報道によれば、次のように説明したということです:「誤って電力を切断してしまう可能性があることは否定しません。ここまでは非常に明快です。しかしながら、電源を再接続する際にどうやったらミスを犯せるのか、私には理解しがたいことです」
同氏は、「技術者が行った作業は許可されていませんでした。BAは、今回のミスから学ぶ必要がある」と記者団に語りました。データセンターに入室する権限は付与されていましたが、「彼が行ったことをする」権限は彼には与えられていませんでした。

BAは、航空会社としての運航に継続的なサービスを提供できるよう設計されたデータセンターを2つ所有していますが、この設計(データセンター運営者やサービスプロバイダーの一般的なプラクティス)が失敗した理由は説明されていません。
「一番の問題は、プライマリデータセンターのITサービスが、なぜセカンダリデータセンターに即座に切り替わらなかったのか、です」と、i3ソリューションズ社のビジネス継続性問題の専門家であるエド・アンセット氏は疑問を投げかけます。彼は、データセンター・インシデント・レポート・ネットワーク(DCIRN)を今週立ち上げたところで、BAのような企業同士がデータセンター障害に関するデータを共有し、業界がそこから学ぶことを支援する中立的なフォーラムを提供しています。

先週メディアに漏れた社内電子メールは、整備作業をしている請負業者がミスを起こしたのではないかと示唆しています。「その電子メールによると、バックアップ発電機とバッテリをバイパスして、施設全体が即時停電に陥る結果となりました。停電の数分後に、計画外、かつ、制御不能の状態に逆戻りしました。これがシステムに物理的なダメージを与え、問題を著しく悪化させたのです」
このことから、今回の障害の原因は、電源網(配電線の電源切断や両データセンターの影響を受けた障害はありませんでした)とUPSシステムではない、とする見方に変わってきました。むしろ、障害が発生した、というよりもバイパスされたように見えます。
切り替え失敗に関する大きな疑問と同様、DCDが知りたい残りの質問には、請負業者に関する話が本当であるかどうか、また、BAまたは請負業者が、許可されていようとなかろうと、なぜ、どうやってあのような操作を実行することができたのか、です。他のみんなと同様に、DCDも、BAからもっと多くの情報が提供されることを待ちのぞんでいます。

IAGは独立系企業に調査を依頼しており、ウォルシュ氏は、調査結果の詳細を公表する、そして何が悪かったのか詳細を明らかにするようBAに求める声にこたえるための何等かの方法を明らかにすると約束しました。
DCIRNは今週、英国データセンターインタレストグループによって正式に8月に設立されると発表されました。

– Data Center Dynamics
– Data Center Dynamics原文はこちら