【Azure 基礎用語解説】
「Apache Spark for Azure HDInsight」
2016.07.27
さまざまな機器やデバイスがインターネットにつながっていますが、ネットワークの高速化やクラウドの性能の向上により、デバイスから届くビッグデータをリアルタイムに処理できる環境が整ってきました。
機器や設備のリアルタイムな管理や監視、またモバイルや自動車などに備わったセンサーが収集するデータを分析して洞察を得るなど、IoTの活用によって、新たなビジネス価値の創出が期待されています。
そこで注目が集まるのがビッグデータの分散処理技術です。
分散処理フレームワークでは「Hadoop(ハドゥープ)」が有名ですが、Hadoopと同様に、分散処理によってビッグデータを高速処理できるフレームワークが「Apache Spark」です。そして、このApache SparkをAzure上で扱うことができるのが「Apache Spark for Azure HDInsight」です。
「Apache Spark for Azure HDInsight」の概念図
Apache Sparkは、Hadoopの後発となる、ビッグデータの分散処理基盤です。「インメモリ処理」によって大量のデータの入出力の高速化を図り、処理全体の実行速度を向上させることで、特定のアプリケーションに関する実行性能はHadoopの約100倍にも達するといわれています。
Apache Spark for Azure HDInsightは、エンタープライズ対応のソリューションとして、次のような特長があります。
(1)99.9 %のサービス品質保証(SLA)
(2)「Azure Data Lake Store」との統合による高いスケーラビリティ
(3)強固なセキュリティ
また、Azureの利点を最大限、発揮することができるのも強みです。
たとえば、新しいハードウェアを購入したり他の初期費用をかけたりすることなく、簡単にセットアップでき、数分で使用を開始できます。さらに、実際に使用した計算やストレージに対してのみ課金されるため、ムダが発生しません。
さらに、ビジネスアナリスト向けには、「Power BI」をはじめとするBIツールと連携し、リアルタイムの分析結果をPower BI で可視化するという使い方も可能です。
Apache Spark for Azure HDInsightは、2016年6月に一般提供を開始しました。後発プロダクトであるSparkへの注目の高さから、インタラクティブなリアルタイム処理や機械学習などの領域において、今後ますます利用が拡大していくでしょう。
photo:Thinkstock / Getty Images