Azure 最新テックガイド #2
クラウドでHadoopを利用する Azure HDInsight
2016.03.16
ビッグデータを高速に処理する技術として活用が進むHadoop。そのHadoopの機能をクラウドサービスとして提供するのが、「Azure HDInsight」です。オンプレミスよりも高性能な環境が用意され、処理結果をExcelに取り込んでデータ活用することが可能です。
Windowsで動くHadoopが出発点
Hadoopとは、ビッグデータを高速に蓄積・分析するオープンソースの分散処理技術です。
Googleが公開したGFS(Google File System=Googleの分散ファイルシステム)とMapReduce(Googleの分散処理技術)の論文を参考に、ダグ・カッティング氏が中心となって開発しました。米YahooやFacebookといった大量のデータ処理を行うWebサービスプロバイダーが採用したことから一気に注目され、現在はオープンソースコミュニティであるASF(Apache Software Foundation)のトップレベルプロジェクトとして開発が続けられています。
HadoopはもともとJavaで記述され、プログラム内部ではUNIXコマンドが使用されていたこともあって、Linuxプラットフォームで稼働させることが一般的でした。そこでマイクロソフトは、Hadoopディストリビュータの1社である米Hortonworksと共同で、HadoopをWindowsプラットフォーム上で稼働させるためのプロジェクト(開発コード名:Isotope)を立ち上げました。
Isotopeでは、Hadoopのコア部分と関連サブプロジェクトをパッケージ化し、Windowsのコマンドラインから直接実行できるように移植。さらに、既存のWindowsテクノロジーと接続するための各種機能を追加しました。このプロジェクトはその後、「Hortonworks Data Platform(HDP)for Windows」というHadoopディストリビューションとして実を結んでいます。
多くのメリットがあるHDInsight
Azure HDInsightは、HDPをAzure上で利用できるようにしたものであり、日本国内では2013年10月に正式なサービスとして運用が始まりました。Hadoopがクラウドで利用可能になったことにより、さまざまなメリットが得られますが、最大のメリットは、Hadoopクラスタを用意する必要がないことです。Hadoopでは一般的に、数十~数百ノードのシステムで構成されるHadoopクラスタをオンプレミスに用意しなければなりません。しかし、HDInsightではそうしたシステムの事前準備は一切不要。Azureで提供される大規模なコンピューティングリソースを使用して大量のデータを高速に処理することができます。
HDInsightは、Hadoopクラスタを自動的にプロビジョニングできるので、手動で構成した場合に比べてはるかに簡単に作成できます。もちろん、可用性や信頼性もオンプレミスに勝ります。また、常に最新のHadoopコンポーネントが利用可能となっており、利用者自身がシステムをアップデートする必要もありません。
データストレージには、大容量で安価なBLOBストレージを利用します。HadoopではHDFSという分散ファイルシステムにデータを格納しますが、HDInsightではBLOBストレージをそのまま分散ファイルシステムとして活用するため、データをわざわざHDFSにコピーすることなく高速かつ効率的に処理を実行できます。
コスト面でもHDInsightは非常に有利です。料金は処理を実行した分だけ課金されるので、処理を実行しないときにはクラスタを解除してコストを抑えることが可能です。
Excelとの連携も可能
さらにHDInsightには、他のHadoopディストリビューションにはない大きな特徴があります。それは、他のAzureサービス、あるいはマイクロソフト製品との連携利用が可能な点です。
マイクロソフトは「Power Queryアドイン」「Microsoft Hive ODBC ドライバ」を提供しており、これらを使ってExcelやSQL Server Analysis Servicesなど使い慣れたBI(Business Intelligence)ツールとHDInsightを連携させ、データの分析やレポートの生成を行えます。なお、これらのツールはWindowsで構築されたクラスタ用ですが、HDInsightではLinuxクラスタも利用することができます。
Hadoopはこれまで、中堅中小企業が導入するにはハードルが高いものでしたが、HDInsightによってその敷居は低くなり、いつでも必要なときに大量データの分析が行えるようになりました。マイクロソフトは、HDInsightでデータを分析してExcelでデータを視覚化したり、Webサイトログを分析したりといった複数のソリューションサンプルも用意しています。HDInsightの活用を考えているのなら、これらを使用してHDInsightの理解を深めると良いでしょう。
HDInsightに用意されたサンプルギャラリー
photo:Thinkstock / Getty Images