Amazon Web Services Open Data (AWSOD) とAmazon Sustainability (AS)は、AWS Simple Storage Service (S3)でサステナビリティデータセットを利用できるようにするために協力して、最適な検索のためにデータセットを前処理することで一様に処理する重い処理を取り除く。持続可能なデータセットは一般に衛星、地質学的研究、気象レーダー、地図、農業研究、大気研究、政府、その他多くの情報源からのものである。
2018年12月10日に、AWSODとASチームは最初のデータセットのグループをリリースした。これらのデータセットは、既存のAWS Open Dataデータセットに新しいカテゴリのデータを追加する。これらのサステナビリティデータセットは以前は公開されていたが、AWSはデータセットへのアクセスのしやすさを改善している。たとえば、大きなアーカイブファイルを独立して取得できるように、小さなチャンクに分割するなどである。AWSは、パブリックアクセシビリティに設定されたバケットを使用したストレージにSimple Storage Service (S3)を使用する。Simple Notification Services (SNS)は新しいデータをコンシューマに通知するために使用され、CloudFrontはより速い検索のためにアプリケーションプログラミングインターフェースを介してデータを利用するいくつかのケースで使用される。
新しいデータセットの使用をさらに促進するために、AWSは地球観測に関する政府間会合(GEO)と協力して、地球に関する洞察を得るために150万ドルのクラウドクレジットを付与している。
AWSは、サステナビリティオープンデータセットを使用するためのドキュメントとデータセットを検索するためのタグを提供する。「Africa Soil Information Service (AfSIS) Soil Chemistry」というデータセットを、ウォークスルーJupyterノートブックで機械学習を適用してデータを開くことを学ぶための出発点として使用できる。オープンデータセットを使用している個人のコミュニティへのサードパーティコントリビュータは、公開データセットの使用方法に関するチュートリアルを含むブログを公開している。チュートリアルは次のとおりである。
さらに、AWSには、持続可能性プラクティスをサポートするためのクラウドでの作業に成功している顧客がいる。下に例を示す。
農業のためのデータ分析に取り組んでいるSebastian Fritschは、衛星データセットの使用法についてAWSとのQ&Aに参加し、「あなたにとって何か注目すべきことはあったか」と尋ねられた。彼は「数行のコードを変更するだけで、比較的小規模なパイロット地域から世界規模までデータ製品をスケールアップできることが、私たちの注目すべき点である」と答えた。
サステナビリティデータセットのリリース前に、AWSグローバルオープンデータリードのJed Sundwallは、AWSがペタバイト単位のオープンデータをステージングする方法を継続的に改善する方法について語った。AWSは、外部インデックス、ファイルの命名、内部インデックスなど、アクセスの容易さを高めるためにオープンデータセットにさまざまなインデックスを追加している。AWSのスタッフはコミュニティが集まってくるのを観察しており、コミュニティがそれらのデータセットを処理するために構築するメカニズムによってデータセットの成功を評価できることを認識している。最後に、AWSには、コストをカバーし、新しいコントリビュータがパブリックデータセットをAWS経由で利用できるようにするための明確に定義されたプログラムがある。