Data Gravity を信じているクラウド提供者は、自身の設備内にデータを収集・格納されるのを容易化する試みを行っている。クラウドとオンプレミス間のデータ移動を容易化するため、Microsoft は Azure Data Factory (ADF) の GA(一般提供)をアナウンスした。この利用分課金のサービスは Extract Transform Load (ETL) ツールでなく、Microsoft の Analytics Suite の一部として位置付けられている。
月初における Microsoft の Machine Learning blog にて、Microsoft VP の Joseph Sirosh 氏が ADF について述べており、サービスの利用によるメリットを説明している。
ADF を利用することで、既存のデータ処理サービスをクラウド上の高可用性データパイプラインに統合することができる。データパイプラインを利用して、データの収集・作成・変形・公開を計画的に実施できる。また、ADF を利用することで、複雑なデータと処理の依存関係を人力を介することなく制御・統合できる。クラウド上のデータソースやオンプレミスへの接続が増大するソリューションをクラウド上へ高速に構築・展開することができる。
ADF を用いて、ハードウェア調達無しで完全に管理されたクラウドサービスを利用する利点を享受でき、クラウドの自動リソース管理によりコストを抑えることが可能であり、世界規模で展開されたデータ転送インフラを利用して効率的なデータ転送を実施可能であり、複雑な計画とデータ依存の監視・管理が容易にできる。Azure ポータルを利用して直観的な監視と管理が可能であり、開発者は慣れ親しんだ Visual Studio プラグインを利用してソリューションの構築と展開を行うことができる。
ADF はアクティビティの組み合わせからなるパイプラインを通してデータセットの処理が可能だ。“データセット” は既定のデータストアに格納されたデータ構造を記載する。ADF は Azure SQL, Azure DocumentDB, オンプレミス SQL Server, オンプレミス Oracle, オンプレミス Teradata, オンプレミス MySQL やその他のデータストアへの接続を提供する。 ADF における “アクティビティ” は既定のデータセットへのアクションを実行する。一つのアクティビティはデータ移動かデータ変換に関連している。データソースからのデータコピーといったデータ移動のアクティビティはエンドポイント間のデータ転送を行う。データ変換のアクティビティは生データを取得しクエリを実行する。7種のデータ変換が利用可能であり、それらの多くは Hadoop をもとにした Azure HDInsight サービスに依存している。
- Hive:SQLの様な Hive クエリ を HDInsight クラスタに実行する
- Pig:Pig クエリ を HDInsight クラスに実行する
- MapReduce:MapReduce プログラムの実行
- Hadoop Streaming:ストリームジョブの起動
- Maching Learning Batch Scoring: Azure Machine Learning ウェブサービスの利用
- ストアドプロシージャ:SQL Azure データベースのストアドプロシージャの起動
- .NET.:C# で書かれたカスタムアクティビティの定義
オンプレミスのエンドポイントにアクセスするには、ADF は Data Management Gateway と呼ばれるツールを利用する。Gateway はローカルの Windows サーバで実行され、証明書の認証を利用してオンプレミスのデータストアにアクセスする。外向きのアクセスは標準である HTTP ポートを利用する。Gateway インスタンスは個々のデータファクトリに関連付けられ、Gateway インスタンスの一つが規定のサーバ上に構築される。したがって、利用するファクトリが多い場合、Gateway がホストされたサーバ群で実行されることを期待する。データファクトリの作成には、βのAzure Portal, PowerShell, Visual Studio または REST API が利用できる。
Image source: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/
ADF は Cortana Analytics Suite の一部であり、7月に発表された。Cortana Analytics Suite は他にも Azure Data Catalog, Azure Machine Learning, HDInsight, Power BI, Azure Stream Analytics を伴っている。Microsoft はどの様にこれらの分かれたサービスを一つの Suite に統合しようと計画しているのか?ADF リリースに関する ZDNet 記事では、Andrew Brust 氏がどの様にパッケージングと統合するのかを説明した。
一般提供 は"今秋後半"を予定しており、Azure の Big Data サービスと解析サービスの全てが一つのサブスクリプションで提供されることを約束している。価格も同様に秋に公開予定だ。
さらに、Cortana Analytics 利用者に対し、Microsoft は業界横断的なソリューションをもたらすことを約束している。主要なユースケースのテンプレートが存在し、製造業・ヘルスケア・金融業等の産業を伴う予定だ。これらは完全に育った製品群ではなく真に統合されたサービスにすることは難しいが、これらはサービスを統合して利用する標準的な例を提供するだろう。
いくつかのサービス間ではすでに統合環境が整っている。Azure Data Factory は Azure Stream Analytics と接続性があり、後者は Event Hubs と接続性がある。Power BI は HDInsight 上で実行する Apache Spark と会話できる。Azure Data Lake は HDFS (Hadoop の分散ファイルシステム) をエミュレートし、Power BI のコンポーネントである Power Query からの接続性がある。Azure SQL Data Warehouse は Microsoft の PolyBase 技術を特徴付けており、HDInsight と他の Hadoop ディストリビューションを統合する。
Microsoft は Informatica や SnapLogic の様な従来通りの ETL として本サービスを位置付けるつもりはない。似た収集・変換機能を実行可能だが、ADF の主要な対象は解析シナリオと異なるデータセットから得られる観点の収集だ。アクティビティ毎にADF は価格付けされており、アクティビティの発生頻度により変化し、クラウドとオンプレミスどちらのエンドポイントの実行に対しても課金される。利用者は時間辺りのデータ転送に課金され、非アクティビティなパイプラインにはわずかに課金される。