2020年はバーチャルのみ、2021年は規模を縮小して開催されたre:Inventは、ラスベガスで5万人以上の参加者を集め、第11回目を迎えた。AWS最大のカンファレンスで行われた複数のセッションと基調講演で、クラウドプロバイダは新しいサービスや機能を発表したが、その焦点は新しいビルディングブロックよりもビジネスソリューションやデータオプションに当てられていた。
以下、コンピューティング、データベース、ストレージ、ネットワーキング、機械学習、開発に影響を与える主な発表内容をレビューする。
コンピューティング
昨年はエネルギー効率の高いArmベースのチップをベースにしたGraviton 3インスタンスのプレビューで、コンピューティングがカンファレンスの中心的なトピックとなった。今年はブレイクスルーはなかったがGraviton 3Eプロセッサを使用した新しいインスタンスクラスC7gとHpc7gが発表された。最大200Gbpsのネットワーク帯域幅を持つC7gnインスタンスは、ネットワーク集約的なワークロード向けに設計されており一般に利用可能だ。2023年初頭に予定されているHpc7gインスタンスは、集約的なHPCおよび分散コンピューティングのワークロードをターゲットとしている。
Intel側は、新しい汎用(M6in/M6idn)、コンピュート最適化(C6in)、メモリー最適化(R6in/R6idn)インスタンスはすべてIntel Xeon Scalableプロセッサー(Ice Lake)が搭載されている。AWSのバイスプレジデント兼チーフエバンジェリストであるJeff Barr氏は、次のように説明する。
本日の発表以前は、EC2インスタンスで最高のネットワーク帯域幅を得るにはc5n、m5n、またはr5nインスタンスを、最高のEBS IOPS性能と高いEBS帯域幅を利用するにはr5bインスタンスを選択できました。高いネットワーク性能やEBS性能を必要とするお客様は、c6in、m6in、m6idn、r6in、r6idnインスタンスのいずれかを選択することにより、vCPUに対するメモリの比率やインスタンスストレージのオプションが異なるインスタンスのフルポートフォリオから選択できるようになったのです。
Inferentia2アクセラレータを搭載したInf2インスタンス(現在プレビュー中)は、深層学習推論アプリケーション向けに設計されている。ハイパフォーマンスコンピューティングでは、Hpc6idインスタンスが導入され、緊密に結合されたHPCワークロードのために構築されたEC2が登場した。
Elastic Network Adapter (ENA) Expressは、EC2上のネットワークレイテンシーとフロー単位のパフォーマンスを改善し、分散ストレージシステムやライブメディアエンコーディングなど、大きなフローを必要としレイテンシーの変動に敏感なワークロードをターゲットとしている。
InfoQでも別途伝えているが、Lambda SnapStartがJavaで利用できるようになった。サーバーレスJavaアプリケーションを実装する際の制約の1つを解決するもので、開発者からのより評判の良い発表の1つとなっている。
新しいSimSpace Weaverサービスは、大規模な空間シミュレーションを大規模に実行するニッチ市場をターゲットにしており、開発者がハードウェアのコンピューティングとメモリに制限されることを回避している。AWSのプリンシパルデベロッパーアドボケートであるMarcia Villalba氏は、次のように説明する。
SimSpace Weaverはシミュレーションの規模や複雑さを増やす必要がある場合に使用します。SimSpace Weaverは群衆のシミュレーションを得意とし、例えば、大規模なイベントや新しいスタジアムのようなインフラの建設を計画している場合に非常に便利です。また、自動車、住民、その他のオブジェクトを含むスマートシティのシミュレーションにも最適なのです。
ストレージ
今年は、安価なS3オブジェクトクラスや新しいFSサービスはなかった。エラスティックファイルストレージ上でのワークロードとアプリケーションの実行を簡素化し、急激なスループットに対応するため、AWSはEFS Elastic Throughputを導入した。S3 Multi-Region Access Pointでフェイルオーバーコントロールが利用できるようになり、開発者はS3データアクセスリクエストトラフィックを別のリージョンにシフトして、可用性の高いアプリケーションをテスト・構築可能となった。
CloudFormationスタックとデータウェアハウスRedshiftのAWS Backupにおけるサポートは、このカンファレンスで紹介された。
データ
今回のカンファレンスでは、データが中心テーマの1つとなっており、データベース、アナリティクス、データエンジニアリングに関するさまざまな発表が行われた。
カンファレンス冒頭、AWSはMySQL互換のAurora、RDS for MySQL、RDS for MariaDBの新機能として、ブルー/グリーンのデータベース更新をする、RDS Blue/Green Deploymentsの一般提供を発表した。クラウドプロバイダーは、メモリに最適化されたR6iとR5bインスタンスでより高い書き込みスループットを提供するRDS Optimized Readsと、M5d、R5d、M6gd、R6gdインスタンスのクエリー性能を向上するRDS Optimized Readsも紹介した。すべての発表がMySQL関連というわけではない: Trusted Language Extensions for PostgreSQLは、データベース管理者が拡張機能をインストールできるユーザを制御し、拡張機能を実行するためのパーミッションモデルを提供するのである。
Redshiftチームは、データ取り込みを簡素化し、インサイトを迅速に取得するためのいくつかの機能を発表した。Kinesis Data StreamsのストリーミングインジェストとApache Kafkaのマネージドストリーミングにより、Redshiftは1秒間に数百メガバイトのデータをマテリアライズドビューに取り込み、数秒でクエリを実行できるようになった。RedshiftおよびRedshift Serverless上でSparkアプリケーションを構築し、実行が可能だ。ほぼリアルタイムの分析と機械学習を可能にする、AuroraのRedshiftとの"ゼロETL統合"は、現在プレビューで利用可能である。
Athena for Apache Sparkは、データ処理を実行するインターフェースとしてJupyter Notebookを使用してApache Sparkワークロードを実行し、Athena APIを使用してSparkアプリケーションとプログラム的に相互作用するための追加機能である。
Selipsky氏は、ゲノム、トランスクリプトーム、その他のOmicsデータの保存、分析、精緻化のためのマネージドサービスであるOmicsの一般提供を発表した。このサービスは、ヘルスケアおよびライフサイエンス関連企業向けに設計されており、患者ケアの向上と科学研究の推進を目的としている。
Sivasubramanian氏の基調講演の発表、DocumentDB Elastic Clustersは、MongoDBワークロードの基盤インフラと弾力性を管理するサービスである。
価格面で議論のあるOpenSearch Serverlessは、ElastingSearch互換のAPIを使ってデータの取り込みとクエリ応答を提供するために、リソースのプロビジョニングとスケーリングを管理するものである。すべてのオートスケーリングサービスに"サーバーレス"という名前を付けることが良いアイデアだと誰もが納得しているわけではない。最近の "not so serverless Neptune"の記事で、AmptのCEOであるJeremy Daly氏はこう書いている。
では、私たちはサーバーレスのもっとも純粋な定義から大きく外れてしまい、もう後戻りはできないのだろうか?それとも、これが今の "サーバーレス"なのだろうか?悪い知らせの運び屋になるのは嫌だが、どこかでコンパスが壊れて、約束の地へ向かう道からかなり外れてしまったのだ。
ネットワーク
AWSはクロスアカウント、クロスVPC接続、およびアプリケーション層のロードバランシングを可能にするアプリケーション層ネットワーキングサービス "VPC Lattice"のプレビューを発表した。VPC Latticeは、インスタンス、コンテナ、サーバーレスなど、基盤となるコンピュートタイプに関係なく、ワークロードを処理する。
Verified Permissionsは、ビジネスロジックから権限を切り離すことで、アプリケーション開発を加速するように設計されており、カスタムアプリケーション内のきめ細かい権限と認可を制御する。Glue Data Qualityは、テーブルを分析し、発見された内容に基づいて一連のルールを自動的に推奨するのだ。
機械学習
Swami Sivasubramanian氏の基調講演では、機械学習に焦点を当て、マネージドサービスSageMakerの新サービスと新機能が紹介された。地理空間データを使ったモデルの構築、トレーニング、デプロイを行うために、SageMakerの地理空間機能のプレビューリリースがある。新しい地理空間イメージは、NumPy、GDAL、GeoPandas、Rasterioなどのオープンソースライブラリを使用して、地理空間ノートブック内のデータを変換して可視化するために使用できる。
新しい機械学習ガバナンスツールが発表され、MLプロジェクトのアクセス制御と透明性が改善された。AWSのプリンシパルデベロッパーアドボケートであるAntje Barth氏は、次のように説明する。
企業がビジネスアプリケーションにMLを採用することが増える中、MLプロジェクトのガバナンスを改善するために、アクセス制御の簡素化とMLライフサイクルにわたる可視化の強化の方法を模索中です。このような取り組みにおける共通の課題は、異なるグループやMLアクティビティにまたがる適切なユーザー権限を管理することなのです。
SageMaker JumpStartを使用して、モデルやノートブックなどの成果物を他のユーザーと共有することが可能になった。開発ワークフロー全体の効率を高めるために、SageMaker Notebooks の新バージョンが導入され、シャドーテストがサポートされるようになった。Barth 氏は次のように書いている。
シャドーテストはモデルの信頼性を高め、潜在的な設定エラーやパフォーマンスの問題がエンドユーザに影響を与える前に発見するのに役立つ。シャドーテストが完了するとSageMaker Inferenceエンドポイントのデプロイガードレールを使用して、本番環境で安全にモデルを更新できる。
Glue for Rayは、データエンジニアがPythonとPythonライブラリを使用して大規模なデータセットを処理するのを支援する。HRS Groupのデータプラットフォーム担当ディレクターでAWS Machine Learning HeroのOlalekan Elesin氏は、新サービスを使用して分散環境でFacebook Prophetの予測モデルをトレーニングする方法を示す記事を執筆した。
InfoQは別途紹介しているが、DataZoneは組織の境界を越えてスケールの大きなデータを共有、検索、発見するための管理サービスである。DataZoneにあるすべてのデータは組織が定義できるアクセスポリシーおよび使用ポリシーによって管理される。
クラウドプロバイダーは、クラウドコンタクトセンターサービス、Amazon Connect向けに、予測、キャパシティプランニング、スケジューリングなどのMLを活用した新機能を発表した。
ビジネスアプリケーション
現在プレビュー中のAWS Supply Chainは、MLを活用したサプライチェーンアプリケーションで、可視性を高め、過剰在庫や在庫切れリスクの軽減など、実行可能なインサイトによる意思決定を支援する。The Duckbill Groupでチーフクラウドエコノミストを務めるCorey Quinnは、ツイートでこのように述べている。
多くの企業にとって巨大なサプライチェーンの懸念は "Amazon Themselves" です。AWSが顧客データの良き管理者であり、それを悪用することはないと全幅の信頼を寄せています。しかし "Amazonにサプライチェーンのデータを渡す"ことがリスクかもしれないと考える人は、ものすごい疑問を投げかけているのだとも思う。このサービスを提案できるような小売業者を想像するのに本当に苦労している(...)
数ヶ月前にプレビューとして発表されたWickrは、現在一般に利用可能で、監査や規制上の要件を持つ企業向けにエンドツーエンドの暗号化通信サービスを提供している。
モニタリングとセキュリティ
CloudWatchでメトリクス、ログ、トレースのクロスアカウント作業ができるようになったが、リージョン横断的に作業するオプションはまだ用意されていない。Internet Monitorは、インターネットトラフィックがアプリケーション層に到達する前のデータを監視し、AWSがグローバルネットワークから取得する接続データを使用して、パフォーマンスと可用性のベースラインを決定する。AWSのプリンシパル・デベロッパー・アドボケイトであるSébastien Stormacq氏は、次のように説明する。
監視ダッシュボードに正常な状況が表示され、同時に、アプリが "遅い" 利用できないと報告する顧客チケットを受け取ったことが何度あったでしょうか?これらの顧客からの報告を診断するために、どれだけの時間がかかりましたか?
CloudWatch Logsのデータ保護は、パターンマッチを活用して機密性の高いログデータを保護する新しい機能セットだ。Quinn氏の以下のようにコメントはしている。
スキャン1GBあたり0.12米ドルで、ア)明らかにMLを利用したサービスであり、イ)カジュアルなユーザー向けではなく、潜在的なリスク要因を軽減することに焦点を当てた大企業向けであると言える。これでいいのではないか。ただ、そうだ。ミニバーにある(冗談ではない)14米ドルの水のボトルと同じように、すべてのAWSサービスが必ずしもあなたのための価格であるわけではないことを忘れないでほしい。
AWSデータセンターの外に暗号鍵を保管する規制上の必要性がある企業は、KMS External Key Store(XKS)を使用して、オンプレミスで動作するHSM上の鍵を管理できるようになった。
基調講演の最後に、Selipsky氏はClean Roomsを発表した。最近iRobotを買収した会社としては疑問の残る名前だが、この新サービス(プレビュー版)は、基礎データを共有したり公開したりせずに、AWS上で他社とコラボレーションすることを支援するものである。
出典:https://aws.amazon.com/clean-rooms/
Amazon Inspectorは、パッケージの依存関係にあるソフトウェアの脆弱性を特定するためのLambda関数をサポートするようになった。
Verified Accessは、VPNに依存することなく企業アプリケーションのローカルまたはリモートの安全なアクセスを可能にする企業向け接続サービスを提供する。クラウドやオンプレミスのソースから、専用のデータレイクにセキュリティデータを自動的に一元化する新オプションSecurity Lakeのプレビューを開始した。このサービスは、潜在的なセキュリティ脅威や脆弱性を特定し、ログを一元化して簡単にアクセスできるようにし、分析ツール内で使用できるようにするものである。詳細については、InfoQの別記事をご覧いただきたい。
新しいセキュリティオプションと機能について懸念されたのは、すでにクラウドプロバイダーが提供するサービスの数が多いことだった。
アーキテクチャ、コーディング、シミュレーション
Werner Vogels氏の基調講演では、 "the world is asynchronous"というタイトルで、非同期やイベント駆動型のアーキテクチャに焦点を当て、サーバーレス技術や開発に関連する複数の発表が行われた。非同期処理について、AmazonのCTOは、初期の頃のドキュメントであるDistributed Computing Manifestoに言及した。
Vogels氏は、大規模な並列データ処理のためのソリューションでサーバーレスアプリケーション内のワークロードを調整するStep Functions Distributed Mapを発表した。Stormacq氏は以下のようにまとめている。
Step Functions Distributed Mapは最大10,000並列実行をサポートしており、これは他の多くのAWSサービスがサポートする並列実行を大きく上回っている。分散マップの最大同時実行機能を利用することで、下流のサービスの同時実行数を超えないようにできる。
複数のAWSサービスからサーバーレスアプリケーションを構築するためのビジュアルデザイナー、Application Composerのプレビューが開始された。AWS Data HeroのGoran Opacic氏はツイートしている。
Application Composerの教育効果は絶大だろう。
今回のカンファレンスの大きな発表の1つが、統合ソフトウェア開発、およびデリバリーサービスであるCodeCatalystである。現在プレビュー版として提供されているCodeCatalystは、プロジェクトのリソース、課題管理、クラウドベースの開発環境、自動ビルドおよびリリース(CI/CD)パイプラインを設定するブループリントを提供する。
RedMonkのアナリストで共同創業者のJames Governor氏は、2023年をクラウド開発環境の年と表現し、こうコメントしている。
CodeCatalystは、最新の開発者ツール、プラットフォーム、ワークフローを利用したパッケージングの演習のように見えますが、パッケージングの勝利なのです。
Defiance Digitalのチーフ・クラウド・アーキテクトであるMatthew Bonig氏の質問だ。
誰か時間を節約できないか?CodeCatalystはどのような既存のサービスを置き換えるのか?
EventBridge Pipesは、サーバーレスイベントルーターEventBridgeの新機能で、イベントプロデューサーとコンシューマー間のポイントツーポイント統合を作成できる。まだプレビューだが、MLを利用した "コーディングコンパニオン"CodeWhispererもいくつかのアップデートを受けた。
フィードバックと総括
イベント期間中、AWSはre:Invent 2022の主な発表内容をまとめた記事を更新した。
サステナビリティは今回のカンファレンスのメイントピックだった。AWSは2025年までに100%再生可能エネルギーでオペレーションをし、2030年までに水をポジティブにすることを計画している。クラウド・サステイナビリティの提唱者であるAerin Booth氏のツイートだ。
私はre:Inventから戻ってホテルの部屋にいるが、Adam Selipsky氏が過剰と浪費で知られるラスベガスで技術会議を開催するという皮肉に衝撃を受けている。シン・シティで開催されるカンファレンスでサステナブルであろうとする挑戦について聞くために、身動きが取れないようにしてほしい。
Google CloudがCloud Storageの値上げを発表した1週間だったが、カンファレンスでは大きな価格変更はなかった。
皆さんのお気に入りの発表は何だっただろうか?以下のコメント欄で知らせてほしい。