データセンターで発生したミスをオープンに – DCIG(英国)の取り組み

失敗の根本的原因を突き詰めるためには・・・

失敗から学べる仕組みを作るべく、データセンター業界でも障害の原因などを共有し合うことで同じミスを防ぐ取り組みが英国で進んでいます。

データセンター事業者は、その業界の特徴や、各社のポリシーにも定められているように、トラブルに関する情報が外部へ漏れることを極端に嫌います。

例えば、航空機の墜落事故が発生した場合、速やかに安全調査委員会が設置され、その根本的な原因についての究明が行われます。

データセンターも、今日の社会において非常に重要な役割を担っており、障害などが発生すれば破壊的なダメージを与えかねません。しかしながら、何かしらの事故がおきた際にも、大抵のデータセンターは、その原因調査を内部で実施し完結させることが多いのが実情です。仮に説明責任が発生する顧客などに対しては、機密保持契約などを結んで説明するのがほとんどです。

失敗から学べる仕組みが必要

今回の取り組みの創設者であるi3 SolutionsのEd Ansett氏は、「理解すべき重要なことは、多くの失敗が、繰り返し発生していることです。私は、人々は経験から何も学んでいないという結論に至りました。」とDCDに語りました。

Ansett氏は、これまでに発生した数多くの障害をレポートへまとめ、その傾向を述べました。

「数多くの障害が発生していますが、例えば2年前にシンガポール証券所で発生した事故などは、過去にも同じ事例が繰り返されてきたものです。根本的な原因を理解し、回避する方法を示す必要があるのです。」

データセンターで発生した事故を共有するというアイディアは、Ansett氏が2015年にシンガポールのDCDイベントで大々的に訴え始めました。

この取り組みはまずは小規模な人数で始まることになります。
主には、電力・冷却分野での情報共有が対象ですが、徐々にネットワークやITコンポーネントへとその範囲を拡大させていくとのことです。
UKDCIGのSimon Allen氏は、「データセンター内のトラブルが、人命を脅かすようになるのは時間の問題であり、今行動しないと手遅れになります」と語りました。

– Data Center Dynamics

原文はこちら