【Azure基礎用語解説】「Azure SQL Data Warehouse」
2016.09.28
高まるデータウェアハウス(DHW)の重要性
精度の高い需要予測をしたり、顧客の購買行動から新商品開発に関する洞察(インサイト)を得るなど、ビッグデータはさまざまに活用されています。
その際に重要になるのが、時系列に整理された大量のデータを管理する「データウェアハウス」(DWH)です。DWHは、単にデータが集積されるデータベースとは異なります。それらをサブジェクト(主題)ごとに分解、整理して格納したり、データの意味を抽象化して1つの概念に統合したり、各種分析のために古いデータの更新や消去はしないよう設計する必要があります。
コンピューティングとストレージを自由に拡大、縮小できる「Azure SQL Data Warehouse」
このように、時系列を伴った膨大なデータを蓄積し、組織横断的なデータ共有環境に必要なデータ処理基盤を提供するソリューションが「Azure SQL Data Warehouse」です。
これは、超並列処理(MPP)アーキテクチャを基盤とした分散データベースシステムで、データと処理機能(コンピューティング)を複数のノードに分割することで、単一のシステムをはるかに超えた大規模なスケーラビリティを実現します。
Azure SQL Data Warehouseの概念図
バックグラウンドでは、データを多数のストレージに分散し、かつ、ストレージは2016年5月より、従来の「Standard Storage」から「Premium Storage」に移行。これにより、高パフォーマンスを実現するとともに、読み取り操作では極めて低いレイテンシーを実現しています。
ところで、Azure SQL Data Warehouseでは、以下のようなことが柔軟に、かつ自在に行えます。
(1)コンピューティングと関係なく、ストレージを自由に拡大または縮小する
(2)データを移動せずに、コンピューティングを自由に拡大または縮小する
(3)コンピューティングを一時停止したり、瞬時に再開したりする
たとえば、夜間に基幹業務システムから全拠点のデータをDWHに移行し、翌朝にBIツールを使って経営層向けに分析レポートを作成するというようなときにも、コンピューティングを夜間バッチ時にのみ動かし、処理の必要のない日中は一時停止することでリソースを節約、不要な出費を防ぐことが可能になります。
また、夜間バッチの処理時間を短くするためにリソースを追加し、並列度を上げることで、短時間で処理を終わらせるという対応も柔軟に行えます。
システム構成、コスト面で拡張性に優れたサービス
Azure SQL Data Warehouseではコンピューティングとストレージが分離されているので、たとえば、スケールの増減を行う際に、コンピューティングまたはストレージのいずれか一方だけを追加、縮小することが可能です。これは、Azureならではの特徴で、システム構成とコストの両面で拡張性に優れていると言えます。
不要なリソースを柔軟に管理できるというコスト面の優位性は、コンピューティングリソースの使用量が多い場合により効果を発揮するでしょう。その意味で、ミッションクリティカルな企業向けの大規模データ処理基盤に向いています。
2016年9月現在、Azure SQL Data Warehouseはプレビュー期間中ですが、正式サービス移行後は、エンタープライズ向けのビッグデータ分析の処理基盤として、また、ミッションクリティカルな処理を行う企業にとって、今後ますます重要性が高まっていくでしょう。
photo:Thinkstock / Getty Images