【特集記事】我々はさらに大きな頭脳を必要としている

機械学習が、データセンターのパフォーマンスに対する要求を高め、新しい冷却や電力供給の手法につながるでしょう

AIと機械学習が、データセンター他で増加しています。これは必然的にインフラストラクチャにより多くの要求を求めます。これらの技術が施設の電力・冷却の形を変えていくでしょう。しかし安心してください。最先端の研究によると、それに対する準備は既にできています。

ワークロードの最適化

「2030年に向けて、均一的にCPUを使うコンピューティング環境から、GPUASIC、および FPGA など各プロセスの ワークロード により適したハードウェアシリコンを使用する状況への始まりが見込まれます。」と、カナダ オンタリオ州マクマスター大学のコンピューティング・インフラストラクチャ・リサーチ・センター(CIRC)のマネージングディレクターであるSuvojit Ghosh氏が、2019年のDCD New Yorkイベント で発表しました。

Ghosh氏によると、ここ数年、GPUはCPUのおよそ3倍効率的なものになっています。いくつかのケースでは、CPUに対し1つのGPUを追加することで、 CAPEX の約75%も抑えることができます。

Suvojit Ghosh氏、オンタリオ州マクマスター大学のコンピューティングインフラストラクチャ研究センター(CIRC)のマネージングディレクター

しかし、AIワークロードは従来のものとは根本的に異なり、低精度の計算を多用しています。「コンピューティング負荷の半分を単精度で処理できる場合、GPUは3倍優れているだけでなく、CPUよりも20倍または30倍優れています。」

彼は、この異質なコンピューティングリソースをサポートするのに、異質なストレージや、異なる種類のワークロードの最適化の実現を期待しています。

”専門家的なプロセッサ”の登場はエネルギー消費を抑えますが、それはまた高密度化へと駆り立てます。懸念を抱く人もいるかもしれませんが、彼はそれを受け入れるべきだと言います。「高密度化環境の稼働には多大なコストがかかるという一般的な誤解がありますが、実際はそうではありません。」

例えば、ラックあたり100kWもの高密度実装では、不動産コスト、大量のラック本体コスト、そしてデータセンター内のサーバー間の相互接続を提供する為のコストを考えると、より安価になります。キロワットあたりのコストは密度とともに低下する」と彼は主張しています。「あなた自身のビジネスケースを構築する際には、もう少し近くを見なさい。」と Ghosh氏は奨励しています。

液体冷却

もちろん、高密度イコール 液体冷却 を意味します。ランニングコスト削減をするには高い設備投資コストが必要では?と多くの人は信じていますが、Ghosh氏はこれがまたひとつの誤解であると言います。「密度が正しければ、設置費用も CAPEX (設備コスト)も液体冷却は実際に安くなります。そして、それはわずかでもなく、インフラ全体のコストのほぼ1/3になる可能性があります。」

もちろん、 OPEX (運用コスト)の削減はさらに明白です。Rittal社の分析によると、従来の CRAC システムを使用した場合、2MWのIT負荷で年間140万ドルのコストがかかる可能性があります。これを、液冷ラックと自由(外気)冷却では690,000ドル、としています。あるいは、SubmerやGRCのような液浸冷却であれば、冷却の電力需要を実質的に完全に排除することができ、コストを年間わずか26,000ドルにまで引き下げます。

「2030年には、何らかの形で液体冷却を使用するようになるでしょう。」と彼は続けます。 液浸冷却 はおそらく超高密度の特殊用途にのみ使用され、より一般的な用途では、直接冷却型の液冷サーバーが有効であり、空冷よりも大幅に改善されると彼は考えています。

これらの予測をまとめると、Ghosh氏は、「特定の用途に応じて冷却するいくつかのアプリケーションがでてくる」と予測しています。

システムの機械的・電気的なパーツもまた変化しつつあります、と彼は予測しています。

今日の耐障害性については、 高価なハードウェアの冗長性機能が提供する 電力および液体冷却のサブシステムによって実現されています。

これが最終的にはインテリジェントな故障予測システムに置き換えられると、 Ghosh氏は断言しています。

「IT」と「ファシリティ」の統合制御・管理システムがあります、と彼は提案しています。 その多くは自動化されているので、施設スタッフは必要ありません。一人のスタッフと順応性のあるスマートな制御システムが、データセンターの「星座(ここでは無数の監視・管理対象デバイスの意)」をsingle pane of glass(一つの統合化された管理画面)により管理することができます。

もちろん、知性は更に次を目指しています。データセンターは、よりスマートなワークロード・バランスのために、 既にインテリジェント冷却から、 運用改善にAIを活用し始めています。

Ghosh氏は、これは単なるアイデアではなく、 2030年のデータセンターでは、絶対に不可欠なものになるだろうと述べています。AIをサポートするために、データセンターはAIを活用する必要があります。

Data Center Dynamics

原文はこちら