【特集記事】Hadoopの過去・現在、そして未来

Data Center Cafe
2019.07.08
2,376 views

【原文著者】Jens Graupmann氏: Exasol社プロダクトマネジメント部門VP

訳者補足：「ビッグデータ」処理を支える重要なプラットフォームであったHadoop。しかし現在、Hadoopを取り巻く状況は大きく変化しています。
その歴史と現状、そして将来の展望について、分析データベース・システムの大手である、Exasol社のJens Graupmann氏が語ったオピニオン記事の翻訳版です。賛否両論あるかと思いますが、ご覧ください。

「ビッグデータ」という用語は今は古く感じられるかもしれませんが、その概念は比較的新しいままです。 Hadoop は、2010年にデータの分析的な活用の普及と、簡素化に貢献しました。それ以降、関連するテクノロジは、飛躍的なスピードで開発されてきました。

Hadoopのプロジェクトは非常に強力かつスケーラブルであり、ごく一般的なハードウェアに大量のデータを安全に保管し操作する機能を提供しました。そのため、Hadoop開発の大きなコミュニティが形成されました。

ハードウェアはその後人気が衰退し、コモディティ・ハードウェアもその辺の道端に転がっているような感覚です。代わりに、コンピューティングリソースやストレージをオンデマンドで購入するクラウドの普及で、アナリティクス(分析)は時間で購入されるサービスになっています。

では、Hadoopはどうなったでしょうか？なぜ多くの企業がクラウドを支持し、オンプレミスのHadoopインストール環境を放棄したのでしょうか？そして、Hadoopは今クラウド上に存在するのでしょうか？

クラウド前夜

Hadoopの起源は、2000年代初頭にWebクローラーを開発した、オープンソース・ソフトウェア( OSS )のパイオニアであるApache Nutchプロジェクトに遡ります。

Webのインデックス(=索引付け)用に開発された同プロジェクトの Webクローラーは、並列化に苦労していました。「Nutch」は1台のマシン上ではうまく機能しましたが、何百万ものWebページをの処理（Webスケール）は、困難な作業でした。

しかしこのテーマは、Googleが2004年にリリースした論文、「 MapReduce ：大規模クラスタ上でのデータ処理の簡素化」によって変わりました。論文では、大規模なコモディティ・サーバーのクラスタにワークロードを分散させ、Web上で急増するコンテンツのインデックスを作成する方法について詳しく解説し、Nutchが抱えていた問題に対する完璧な解決策を提供しました。

2005年7月頃までには、NutchのコアチームはMapReduceをNutchに統合しました。その後まもなく、新しいファイルシステム(HDFS=Hadoop Distributed File System) とMapReduceを実装した、Apache Hadoopと呼ばれる独自のプロジェクトとして独立しました。 ( プロジェクトリーダーの息子が持っていたおもちゃの象の名前から取ったという話しは有名です。)

Yahoo!が 2006年にHadoopを使用して検索バックエンドシステムを置き換えてから、プロジェクトは急速に加速しました。Facebook、Twitter、LinkedInによる採用の後、Hadoopはすぐにウェブスケールのデータを扱う事実上の標準システムになりました。

Hadoopのテクノロジは当時革命的でした。大量の構造化データを保存することは、以前は困難で高額な費用がかかっていましたが、Hadoopはデータストレージの負担を軽減しました。最も価値があると思われるものを除いて、以前はすべてのデータを破棄していた企業でも、費用対効果に優れた方法で、大量の（つまり「ビッグ」）データを格納することができるようになりました。

解決策ではなく、フレームワーク

そして、データからビジネスの見通しを立てたり、新たな効果を得ることを期待して、多くの企業がHadoopクラスタを導入しました。ただし、ビジネスインテリジェンス ( BI )、あるいは分析結果に基づいたアイデアを実行しようとするとしたいくつかの企業は失望しました。

多くの場合で、企業はユースケースを定義する前にHadoopクラスタを導入しました。Hadoopの効能を誤解していた企業は、Hadoopは対話型クエリには遅すぎると分かり、失望しました。

Hadoopはビッグデータソリューションではなく、一つのフレームワークです。オープンソースプロジェクトが補完し合う広範なエコシステムは、Hadoopを多くの企業にとって複雑すぎるものにし、専任チームによるハイレベルな設定やプログラミング知識が必要になりました。

しかし、仮に専任社内チームをもってしても、Hadoopはしばしばなんらかの追加を必要としました。

例えば、「キャンディークラッシュ (※スマホゲーム)」シリーズを開発するキング・デジタル・エンターテイメントは、Hadoopを十分に活用することができず、内部のデータサイエンスチームが要求していたインタラクティブなBIクエリには遅すぎると気付きました。データサイエンティストが対話的にデータを照会できるようにするには、マルチペタバイト級のHadoopクラスタのアクセラレータが必要でした。

クラウド主導の進化

データウェアハウス ( DWH ) の世界の変化は、Hadoopが進化しなければならないことを意味しています。Hadoopが2006年初頭に作られたとき、AWSのサービス開始がまだ数か月後先の時代であり、パブリッククラウドも存在していませんでした。 Hadoopがかつて形成期を迎え、人気のピークを誇っていたIT環境は、いまや計り知れないほど変化しました。

その結果、Hadoopの活用方法も変わりました。現在多くのパブリッククラウドプロバイダーは、既存のHadoopプラットフォームの積極的なメンテや統合を進めています。(例えば、AWS Elastic Map ReduceやAzureのHDInsight、Google Cloud PlatformのDataProcなど) クラウドベースのHadoopプラットフォームが、今日最も一般的に利用されている環境は、バッチ処理、機械学習、 ETL ジョブです。

クラウドに移行するということは、Hadoopを直ちにオンデマンドで使用できることを意味します。複雑な設定はすでに行われています。Hadoopがクラウドへ移行したことによる利便性は明らかですが、それは低コスト・安全かつ堅牢なデータストレージの唯一の選択肢では最早なくなりました。競争が激化し、Hadoopはもはやデータ世界の中心の存在ではなくなり、特定のワークロードにのみ対応している状況です。

Hadoopの未来

一方、オンプレミス環境における需要は依然として高いと思われます。Hadoopは依然として優れたオンプレミス向けソリューションと言えるでしょう。また、この需要がすぐに減少する可能性は低いと考えます。すでにうまく機能しているものを変更する必要はありません。Hadoopは特定の組織にとっては今でも最適なソリューションです。

しかしながら、多くの企業は、パブリッククラウドサービスを使用して独自のデータウェアハウスを運営しようとしています。これら需要の増加が市場を牽引しています。大規模なジョブを走らせたいユーザーにとっては、Hadoopは良い選択肢の一つであり、クラウドはHadoopにとって今までにない安らぎがあります。

Data Center Dynamics

原文はこちら