【特集記事】現代の高負荷・高密度データセンターを考える

近年、AI(人工知能)やDeep Learningなどのキーワードが注目されていることからも理解できるように、高性能コンピューティング(以下HPC)が幅広く利用されるようになり、このような最先端システムの運用にかかわる要件も増えてきました。特に、空調や電力といったインフラ側への影響は無視できなくなっており、例えばデータセンターの効率性(建物の電力使用効率:PUE)などと密接に関係しています。
技術進歩に伴い、HPCクラスタを支えるためのコンピューティングラックは、1ラック当たり平均35kWとここ数年で数倍~数十倍の電力を消費するように変化しており、時には1ラック当たり最大100kWを超えることすらあります。

建物のオーナー、コロケーション事業者、エンタープライズデータセンター、ウェブスケール企業や政府、大学、国立研究所などは、新しいコンピュータシステムから発生する熱をただ除去するだけでなく、建物全体への影響をいかに減らすかなど、「冷却インフラ基盤」の見直しに苦労しています。

今日の世界では、石油・ガス関連研究、金融機関、ウェブマーケティング業界や自動車業界がHPCシステムを活用したビッグデータ解析を促進している一方で、世界各地のコンピュータルームやデータセンターの大部分は、現代および次世代のHPCシステムから発生する熱負荷を処理するための設備すら備わっていないのが現実です。このため、ITインフラ業界は、「効率的な冷却手法」の必要性を常に意識しています。
これらの社会情勢からも分かるように、HPCシステムで消費される電力100%が熱へ変換されると考えた時、この熱をいかに効果的かつ効率的な手法で除去するかが業界の関心事になった理由はいたってシンプルなのです。
本記事では、高密度化/高発熱化する現代のITインフラに対して考えられる最新の冷却対策を紹介していこうと思います。

液浸冷却:

近年開発された新しい高性能コンピュータチップは、1ラックあたり100kWまで許容するHPCシステムの設計を可能にしました。そもそもこの100kWという消費電力は、現在利用できるほぼすべてのサーバー冷却手法の限界を超えてしまっていますが、その例外として、「液浸冷却システム」があります。液浸冷却システムは、特別に構成された絶縁性液体で満たされた水槽を備えており、コンピュータ回路全体へと電気伝導するリスクを冒さずに全サーバーを冷却水に浸すことができ、かつ、HPCシステムから発せられる熱を最大100%除去することができます。一度誘電流体に移された熱は、熱交換器、ポンプおよび閉回路冷却システムを介して容易に除去することが可能です。
このシステムに適用するために、従来型のデータセンターも、液浸冷却システムを受け入れるように改築されはじめています。CRAC、上底フローリング、垂直型サーバーラックなどの従来の冷却装置は、冷却液浸槽や閉回路温水冷却システムへと、徐々に置き換えられています。これらの冷却液浸槽は床に水平に置かれ、貴重なスペースを犠牲にすることにはなりますが、IT担当者にとって新しい有効的なソリューションとなります。(写真出所:Green Revolution Cooling)

液浸冷却を検討する際は、サーバーなどのハードドライブやOEM部品のように絶縁性液体によって悪影響を受ける部品の見直しが必要となります。インフラ基盤が大幅に変化することにより、将来的なOEMサーバーのオプションが大幅に制限されたり、液浸冷却テクノロジ専用のスペース使用による場所の制限などを考慮すると、将来のサーバーリプレースにも十分な配慮を払うことが必要です。
液浸冷却システムは世界最先端のHPCシステムには非常に効率的です。その一方で、1ラック100kW規模のHPCシステムはそこまで広まっていないことや、インフラ基盤の変更が生じたり、メンテナンス時にも課題があったりと、現時点では市場全体から広く受け入れられる段階には至っていません。

ダイレクトチップとオンチップ冷却手法:


ダイレクトチップまたはオンチップ冷却手法は、近年のHPC市場で大きな進歩を遂げた冷却手法です。小さなヒートシンクは、コンピュータのCPU・GPUに直接取り付けられており、高効率・高密度サーバーを冷却します。サーバーから放出される熱のうち、最大70%はダイレクトチップヒートシンクに集約され、配管を移動してクーラント分配ユニット(CDU)に移送されます。その後、CDUは、熱を別の閉回路冷却システムに移すことで、コンピュータルームからの熱を排除します。残りの熱(30%以上)は、既存の室内空調システムによって排熱する必要があります。
ダイレクトチップ冷却に一般的に使用される温水冷却システムは、閉回路乾式冷却器(大型ラジエータのようなもの)や冷却塔といった「冷凍プラント」を使用しない冷却システムであると考えられており、近年ではその基準は米国暖房冷凍空調学会(ASHRAE)によって、レンジW-3、W-4(水温範囲2〜46℃)の液体を生成するよう明確に数値化もされています。ダイレクトチップ冷却は水温W3-W4範囲の供給水温で動作することができるので、典型的な冷蔵冷却システムよりも大幅に少ないエネルギーで動作し、チップ放熱除去にも十分対応できます。

ダイレクトチップ冷却をうまく利用すれば、建物全体のPUE改善にも活用できます。ただし、この廃熱回収手法のメリットを享受できるかどうかは建物のHVACシステムによるところもあります。
暖房や空調といったHVAC設計は世界各国で異なります。ヨーロッパの多くの国では、ほとんどの建物で水ベースのターミナルユニットが普及しているため、低位ではあっても廃熱回収の恩恵を受けることができます。対照的に、北米のHVAC建物設計のほとんどは、電気再熱端子ボックスを備えた中央制御型の空気暖房・冷却システムを使用しているので、ダイレクトチップまたはオンチップ冷却システムによる低位熱回収にはほとんど使用されていません。温水を再利用し流通させる実現性については、使用前に温水循環インフラ基盤を構築することと併せて検討されるべきでしょう。

ローレンスバークレー国立研究所が最近実施した「電子機器の直接液体冷却」研究において、最先端のダイレクトチップ冷却システムが叩き出した最高値は、最適化された実験室条件下で70%であったと結論付けました。この結果は、興味深い逆効果の結果を残しました。なぜならば、コンピュータシステムから大量放出される熱(除去できない30%)を、周囲の室内空調は依然として排除しなければならず、例えば、コンピュータ室の空調機(CRAC)やコンピュータルームエアーハンドラー(CRAH)のような伝統的で効率の低い手段によって冷却しているからです。
ダイレクトチップまたはオンチップ冷却システムを導入することで得られる効果を深く理解するためには、HPCクラスタと建物全体のPUEを直接関わり合うエネルギー占有率の一部として考慮しなくてはなりません。例えばダイレクトチップ冷却方式を35kW HPCラックで使う場合、コンピュータルームへの排熱量は少なくとも10.5kW(30%)に抑えることができ、コンピュータラック6基(高密度ストレージアレイを除く)からなる平均的なHPCクラスタでダイレクトチップまたはオンチップ冷却システムを使う場合、少なくとも計60kWの熱を室内へと排出することとなります。

従来、HPCクラスタは国立研究所や大規模な研究施設で限定的に使用されてきたために、効率性に関する議論が十分に行われず、見逃されてきました。ダイレクトチップやオンチップ冷却を導入する一方で、CRACまたはCRAHによって残留熱を排除する(最も一般的な)方法を利用することは、効率性の向上に対しては大きな打撃を与える結果となるでしょう。

データセンター内に必要なインフラ基盤だけでなく、オンチップ冷却システムの検討時にさらに重要なポイントとして、サーバーラック内部を考慮すると新しい課題が見えてきます。小さなチップを冷却する温水を取り入れるために、それぞれのチップへと配管された多数の小さなホースを通して水を送ります。これにより、ITスタッフは、ホースが何本も詰まっているラックの背面と、冷却システムの入口と出口の水に接続するための分配ヘッダーを見ているだけで済みます。

ダイレクトチップ冷却システムは、HPCクラスタのマザーボードに直接接続され、これは多かれ少なかれ永久使用可能なように設計されています。平均的なHPCクラスタは、通常、需要または予算に基づいて3〜5年ごとに更新されます。その点を念頭に置くと、ダイレクトチップまたはオンチップ冷却インフラ基盤は、サーバー更新時にリプレースのコストがかかることも考慮する必要があります。
ダイレクトチップ冷却手法は、今日の高性能コンピュータ・クラスタを効率的に冷却する上で大きな進歩をもたらしますが、コンピュータルームや建物の大型化に伴い、総合的な建物性能、コスト意義、総投資利益率からみた耐用年数等も考慮に入れなければなりません。

In-Row & コンテインメントシステム:

2000年代に入り、サーバー排熱量の上昇に伴い既存のCRACやCRAH空調では熱を取り除けるだけの十分な風量を担保できなくなってきたことで、データセンター内部の空調をできるだけサーバーラックに近い位置へと移動させられるようになりました。その中でも早期の段階から取り入れられたのが「In-Row空調」です。伝統的なCRACやCRAHシステムの変形型と見なすこともできますが、In-Row空調はサーバーラックの側面に空調を挟む従来と異なるデザインのものです。
In-Row空調は、サーバー、ラックなど熱源のすぐ近くに空調機を設置することで、高密度サーバーやラックの冷却が可能となります。ホットアイルにたまった暖かい空気はIn-Row空調へと吸引され、冷水や冷凍機によって冷やされコールドアイルへと戻されます。サーバーの熱負荷へ対応するためには、一般的には12インチおよび24インチのIn-Row空調が必要となります。サーバーラックとIn-Row空調の割合は、高密度・高負荷環境になるほど等しくなっていきます。例えば、密度・負荷が低い場合は、サーバーラック5台に対して1台の12インチIn-Row空調で冷却可能なこともあれば、高密度・高付加環境においてはすべてのサーバーラックの間に24インチのIn-Row空調を設置することもあります。(写真:Aspen System)

In-Row空調
Aspen Systems In-Row

In-Row空調はサーバーラックの間に導入することでIT機器の負荷に合わせた高効率な運用が可能になります。ただし、懸念事項として、一度CRACやCRAHを考慮して設計されたデータセンターのスペースは、安易にレイアウト変更ができるものではありません。特にラック貸し台数を基準に利益を上げているコロケーションデータセンターにとっては、In-Row空調を導入してラック台数が減ることで、売上が最低ラインを下回る可能性も生まれます。多くのエンタープライズおよびコロケーションデータセンターは、ITおよびインフラ双方の設計に気を配りながら、将来を見据え少しずつスケールアップ・スケールアウトできるようホワイトスペースの利用も促進しています。In-Row空調を大規模に導入する場合は上記のような点に気を配りながら管理をすればよいですが、例えば一部の高負荷エリアへ補助空調として利用する場合や、コロケーションデータセンターで一部顧客の高密度環境にのみ対応する場合などはシステム全体の統一性を保つのが難しく、導入設置チームにとっては大きな課題を押し付けられる可能性が生まれてしまいます。

ホットアイル・コールドアイルのいずれにしても、コンテインメントシステムとIn-Row空調については考える必要があります。サーバーラックの背面側に暖かい空気を溜めるホットアイルコンテインメントシステムは、最も一般的に利用されています。建物への導入方法やアイルのレイアウトなどについては、これまで多くの人が議論を繰り返し、そして克服してきました。この記事で着目したいのは、「ホットアイルコンテインメントシステムがIT機器のパフォーマンスにどれだけの影響を与えるか」という、たびたび見過ごされる問題です。

熱力学の観点から考えると、ホットアイル側を封じ込めることで熱の温度が最大化され、In-Row空調へと高温の熱が吸収され、冷水や冷凍機によって熱が取り除かれます。この空気の流れがIn-Row空調のパフォーマンスと効率性を向上させますが、この考えは、最新の高密度IT機器が必要とするエアフローには対応できていません。キロワットあたりの空気流量はコンピューターメーカーだけではなくCPU・GPUメーカーによって異なり、おおよそ80cfm~130cfmとの流量が必要です。すべてではないにしろ、今日利用可能なIn-Row空調のほとんどが能力不足なため、結果としてシステムを導入した後になって、ホットアイル側で熱だまりが発生してしまうのが典型的な問題となっています。当たり前のように聞こえるかと思いますが、ここで重要なポイントは、「熱い熱をとどめる」ことにあります。しかしながら、それ以上に重要なのは、In-Rowシステムがホットアイルへ放出されるサーバー排熱を全て吸収できなければならないことです。少しでも吸収できない熱があると、サーバーファンへ圧力がかかります。熱だまりはサーバーファンのワークロードへ悪影響を及ぼすだけでなく、チップの過熱を引き起こします。熱だまりによって、CPUやGPUなどのチップはダウンしたり、計算能力が制御されたりと、設計したパフォーマンスを発揮できなくなるようになります。導入後の修正が不可能ではないにしても、これはかなり困難な状況といえるでしょう。高密度環境にコンテインメントシステムとIn-Row空調を導入する際は、事前にMEPチームや運用チーム、可能であれば顧客も交えて空調システム全体に関わるデータを一度共有しあうことが重要です。

 

アクティブリアドア熱交換器:


アクティブ型リアドア熱交換器(ARDH)は、HPCクラスタおよび高密度サーバーラックを製造し使用する人々の間で人気が高まっています。ARDHは、インフラ基盤をほとんど変更せずにサーバーラックから熱を100%除去できるため、システム効率と利便性の向上をもたらします。
ARDHは一般的にラックの仕様には依存せず、業界標準であるサーバーラックの背面ドアに直接取り付けられるものです。ARDHはラックから熱を除去するために、高性能ファン・冷却水を並行して利用しています。ドアに取り付けられている電子整流(EC)ファンがサーバーのファンと連携しながらCFMを調整して、ラックから100%熱を除去することが可能となります。
ARDHは、通常水温13~23度の水またはグリコール混合物を使用します。13~23度の液体は、ほとんどのデータセンターで容易に入手可能ですが、そうでない場合は、冷水プラント、冷却塔、乾燥流体クーラー等を組み合わせた閉回路冷却システムで生成できます。ARDHは、ルームレイアウトなどのインフラへほとんど手を加えず、かつ周辺のコンピュータラックにも影響を与えずに、コロケーション施設や従来のデータセンターなどの既存コンピュータルームに高密度サーバーラックを設置することができます。(※写真は、米国Motivair社製ARDH:ChilledDoor

アクティブ型リアドア熱交換器は、コンピュータラック1台につき最大75kWを除去することができ、クラスタが何回か更新できるような大規模なスケールを提供します。アクティブ型リアドアはサーバーラック内部の温度および外部室温を監視、一定ににする機能を保証しており、所有者にとってはそれもメリットとなります。
サーバー製造者による最近の実験では、ARDHを導入すると、ARDHファン自体の消費電力を最小限にコントロールするだけでなく、ラック内のサーバーファン消費電力(コスト)も削減されることがわかりました。直感的には想像しづらいですが、ARDHファンがサーバーファンをサポートし、高密度負荷でもエネルギー消費を抑え、パフォーマンスを向上させることが徹底した分析によって明らかになりました。テストでは、ハードウェアのパフォーマンス向上だけでなく、サーバーの寿命も延びたことがわかりました。
ARDHはラックの背面に完全にアクセスできるだけでなく、上下両側からの水供給に対応した設置ができるため、上げ底床の使用に関わらず新規または既存の施設に導入できます。

総論:

高性能コンピュータシステムの消費電力が増加し続けるにつれて、それを冷却する方法がますます重要になってきています。HPCと高密度サーバーを広範囲に使用するアプリケーションが今後継続的に増えていくと、以前は国立研究所や大規模な研究施設での使用に限られていたこの領域も、従来型のデータセンターでも運用されるようになり、全体的なデータセンターのPUE通信に集中できるようになります。
今回紹介した、液浸冷却、オンチップ/ダイレクトチップ型冷却、アクティブ型リアドア空調は、現在利用可能かつ信頼性の高いHPC・高密度サーバーシステムの冷却手法です。今後、建物の冷却インフラ基盤、将来の更新計画および予算内で機能する効率的で実用的なシステムをこの中から選択しなければなりません。このような高性能コンピュータを冷却するための技術および設計計画は、コンピュータシステムの購入前または並行して行われるべきでしょう。なぜなら、冷却システムそのものが、コンピュータ性能の最適化を担保するための重要要素として認識されているからです。

Motivair社製アクティブ型リアドア空調 – ChilledDoor
お問い合わせは株式会社DC ASIA

– Data Center Dynamics
原文はこちら