Visa、広範なサービス停止の原因はデータセンターのスイッチ障害と発表

「極めて珍しい」障害が欧州の取引に影響を与える

Visaは、今月頭に欧州で発生した同社の大規模なシステム障害の原因の調査結果を発表しました。イギリスの財務省に何が起きたのか詳細を説明せよと要請を受けてのことです。

VisaヨーロッパのトップであるC・ホッグ氏は、今回のサービス停止について全面的に謝罪しました。しかし同時に、サービス停止の混乱の中にあってもイギリス国内のVisaカード取引の91%のカード決済は問題なく通常通り行われたとしています。とはいえ、サービス停止中、多くの店舗ではカード決済を止めて、一時的に現金払いで対応していたのも事実です。

カネが増えると問題も増える

VIsaは、イギリス国内に2つの補完的な働きをするActive-Active構成のデータセンターを運用しています。それらは単独でも、欧州で発生するVisaカードの決済を100%処理することができます。

「この2つのデータセンターは、メッセージを通じてシステムの状態について通信し合うことで、シンクロ状態を保っています。それぞれのデータセンターがシステム内に複数形式でバックアップを保存し、それをコントロールしています。今回の件に関して言えば、両データセンターとも「主スイッチ」と「副スイッチ」の二つのコアスイッチ(ハードウェアの一部。決済プロセスを制御する)を持っていました」と、ホグス氏は財務委員会への報告書で述べています。

「主スイッチが上手く作動しなかった場合、通常なら、副スイッチが作動して一時的に穴を埋めます。今回、メインデータセンターに設置しているスイッチ機器に、めったに起こらない部分的な不具合が発生して、バックアップスイッチが作動しませんでした。その結果として、メインデータセンターにあるシステムを隔離するのに通常より相当長い時間がかかりました。その間も誤作動を起こしたメインデータセンターは、ずっとサブデータセンターとシンクロ状態を保とうとしていました。この結果、サブデータセンターでメッセージのバッグログが積み重なり、徐々に次から次へと入ってくる決済処理に対応する能力が下がっていったのです」

Visaは「なぜスイッチに不具合が発生したのか、まだ完全には判明していません。メーカーと一緒になってフォレンジック分析による原因究明を進めています」また、これはサイバー攻撃の類ではない、とホグス氏ははっきり述べています。

スイッチの不具合により、5時間ほどシステム不全となった。この問題による混乱にはピークが2回あり、1度目は10分ほどで2度目は50分ほどだった。その時間は、取引の35%が失敗をしていた。全体で見ると、10時間にわたり520万回の取引が失敗した。

Visa社は、国際的な会計ファームであるEYに今回の騒動の評価を依頼しています。同社では今年の終わりに、複数のデータセンターと複数の地域への対応が可能なヨーロッパのシステムとはアーキテクチャの異なるVisaNetシステムへの移行が予想されている。VisaNetシステムは4つのActive-Active構成の機械がタンデムで働き、ヨーロッパのシステムと比べて決定的に大容量、大規模なものとなるでしょう。

VisaNetシステムは隔離することができ、エラーが生じた機械を即座に除外することができます。ほんのわずかな時間で不具合が生じた機械を取引環境から取り除くことができます、とホッグ氏は述べています。

– Data Center Dynamics
原文はこちら