Stack Overflowは、そのデータセットをGoogleのBigQueryを通して利用可能となることを最近発表した。開発者は、標準のSQL文を使用して、投稿、投票、タグ、バッジなどのStack Overflowデータ全体を対象にクエリできる。BigQueryのREST APIから、開発者は、彼らが選択したツールを使用してオンデマンドでデータをエクスポートできる。BigQueryで利用可能なデータセットは、SQLを直接記述してJOINすることができるため、開発者はドメイン間で有用な情報を得ることができる。
Stack Overflowデータセットに加えて、BigQueryではHacker NewsのデータセットとGitHubのデータセットへのアクセスが可能である。それらが、Stack Overflowのデータセットと併せて提供されることで、有益な情報を得ることができる。また、最近、ニューヨークの情報について3つのデータセットが追加された。自動車の衝突、Citiの自転車の走行経路、緊急でない自治体へのサービス要求で311番への電話に関するものである。これらのデータセットは、すでにBigQueryで提供されている2009年から2015年までニューヨークのタクシーやリムジンでの移動経路のデータセットを補完する。
BigQueryのデータセットでは他に、1763年までの日付付きの気象情報、Medicareデータ、350万のデジタル化された書籍、900万URLのメタデータとラベル付けされた画像データセット、IRS、メジャーリーグのデータが現在入手可能である。15分ごとに更新される、ワールドワイドのニュースやイベントのデータセットもGDELTプロジェクトを通して利用可能である。また、Personal Genome Projectを通してGenomicsのデータセット、Wikipediaページビューのデータ、約20億のRedditのコメントを入手可能である。
Stack Overflowデータセットは、ここのBigQueryコンソールを介して利用可能である。より詳細な議論はredditコミュニティで参照可能である。
Rate this Article
- Editor Review
- Chief Editor Action