【Azure基礎用語解説】「Data Factory」
2016.04.13
Azure Data Factoryとは、SQLデータベースやファイルシステムなど多種多様なデータソースからデータを取得し、クレンジングしてデータストアに格納するといったデータの移動・変換を自動化するデータ統合サービスのことです。原材料を加工して製品を生産する工場のように、生データを収集してすぐに使用できる情報に変換するため、Data Factory(データ工場の意)と名付けられました。
Data Factoryには、リンクサービス、データセット、アクティビティ、パイプラインという4つの概念があります。以下に、簡単に説明しましょう。
・リンクサービス
外部リソースに接続するために必要な情報を定義するもので、データストアやコンピューティングサービスなどあらゆるリソースへの接続情報を保持しています。利用可能なデータストアは、オンプレミスのファイルシステム、SQL ServerやOracle Databaseをはじめとする各種RDBMS、Azureストレージ、Azure SQL Databaseなどがあります。
・データセット
リンクサービスが参照するデータストアに格納されている入力/出力データを表します。フォルダ名やテーブル名といったデータ構造を示し、利用する実データを指定します。
・アクティビティ
データに対して実行するアクションを定義します。データセット間のデータコピーから、Azure HDInsightを活用したデータ変換/分析まで、データ変換や分析のためのさまざまなアクティビティがあります。
・パイプライン
複数のアクティビティを論理的にまとめて管理するグループです。1つのアクティビティには複数の処理を指定できますが、それをすると管理が煩雑になってしまいます。そこで1つの処理を行うアクティビティを複数用意し、それらをパイプラインにまとめて管理します。
Data Factoryの4つの概念
これらの4つの概念は、JSON(JavaScript Object Notation)で定義します。Data Factoryには、JSONを記述するためのブラウザベースのツール「Data Factory Editor」が提供されており、Azureポータルから利用することができます。
Data Factoryが最も活躍するのは、AzureのHadoopサービスであるAzure HDInsightと連携させたデータ分析処理です。Data Factoryのリンクサービスで提供されている「オンデマンドHDInsight」を利用すれば、AzureポータルからHDInsightの利用を開始することなく、Data FactoryがHDInsightを自動的に作成・実行・削除するような使い方も可能です。
2015年8月に正式リリースされたData Factoryですが、すでに多くの導入事例があります。例えば、レストラン向けに注文用テーブル端末を製造・販売する米Ziosk社では、蓄積された来店客の操作ログデータを集計し、メニューをレコメンドするシステム基盤にData Factoryを活用しています。複数のサービスをつなぐための仕組みを作り込むことなく、データソースの情報の取得・分析を自動化できることが、Data Factoryを採用した理由です。
ビッグデータの時代を迎え、さまざまなデータソースから取得した有益な情報を分析しようというニーズが高まっています。そのような中にあって、ビッグデータ分析ソリューションをなかなか導入できない中堅・中小企業であっても、Azure Data Factoryを利用すれば容易にデータ活用を実現できるようになります。
photo:Thinkstock / Getty Images