AWS Glueは、フルマネージドの抽出、変換、および読込み (ETL) サービスであり、顧客が分析用にデータを簡単に準備および読込みできるようにする。AWS Glueを使用すると、顧客はリソースをプロビジョニングまたは管理する必要がなく、サービスを実行したリソースのみの支払いを行う。
InfoQが報告したように、Amazonは一般公開以降、今年初めにはストリームETLジョブのサポートなど、いくつかの機能でサービスを更新した。数か月後、このサービスはいくつかの更新があり、現在、重要な新しいバージョンとして一般提供されている。これらのアップデートには、Spark ETLジョブの開始時間の短縮、1分の最小請求期間、ホイール (wheel) ファイルまたはリポジトリからPythonモジュールをインストールする新機能が含まれている。
AWSマネジメントコンソールを通じて、ユーザは新しいGlue Spark ETLジョブを作成したり、既存のGlue Spark ETLジョブをGlueバージョン2.0に移行したりできる。その後ジョブを実行できる。起動時間は、バージョン2.0の方が1.0よりも高速である。
AWSの製品マーケティングエバンジェリストであるHarunobu Kameda氏は、AWS Glue 2.0のブログ投稿に次のように書いている:
Glueバージョン2.0では、ジョブの起動遅延がより予測可能になり、オーバーヘッドが少なくなります。さらに、AWS Glueバージョン2.0 Sparkジョブは、請求期間が10分の1に短縮され、最小の10分から最小の1分に、1秒単位で請求されます。その結果、顧客はマイクロバッチ、期限に敏感なインタラクティブなワークロードをよりコスト効率よく実行できるようになった。
ただし、TecAllianceのエンタープライズアーキテクチャプラクティスリーダであるMarkus Wissing氏はツイートでこう述べている:
バージョン2.0で @aws はAWS Glueを改善しました (より速く、より安く)。新しい料金モデルを活用するには、実行時間が10分未満の新しいETLジョブのV2を検討する必要があります。ただし、注意してください。V2は、古いバージョンと同等の機能に到達する必要があります。
また、Redditスレッドの回答者は、新しいバージョンが以下をサポートしていないと指摘している:
- 開発エンドポイント
- FindMatches機械学習変換
- AWS GlueストリーミングETLジョブ
さらに:
- AWS Glueバージョン2.0はApache YARNでは実行されないため、YARN設定は適用されない
- AWS Glueバージョン2.0はHadoop分散ファイルシステム (HDFS) がない
- AWS Glueバージョン2.0はダイナミックアロケーションを使用しない。したがってExecutorAllocationManagerメトリックは使用できない
AWS Glue 2.0は現在、北米、南米、ヨーロッパ、アジア太平洋のさまざまなAWSリージョンで利用できる。さらに、最新のドキュメントはWebサイトにあり、サービスの価格の詳細は価格ページにある。