GitHub上の280万を超えるのオープンソースプロジェクトの全てのスナップショットがGoogleのBigQueryから問い合わせできる、とGoogle とGitHubが発表した。GitHub上のおよそ20億のソースファイルがSQLを使って検索できるようになる。
GitHubのBigQueryデータセットはGitHub Archive Projectをベースにしている。このプロジェクトはGitHubの特定の時点でのスナップショットを作成し、分析のために保存、アクセス可能にすることを目的にしている。このデータセットのおかげで、GitHub Archive ProjectのコンテンツはSQLライクな問い合わせで検索可能になった。
GitHubのオープンソースデータのプログラムマネージャであるArfon Smith氏によれば、この新しいBigQueryのデータセットは、例えば、Goでもっとも使われているパッケージやオープンソースのコントリビュータがもっとも多く在籍するアメリカの学校を探ることができる。また、オープンソースコミュニティや最新の開発トレンドを研究する研究者にも有用だ、と氏は言う。
GoogleのFelipe Hoffa氏によれば、特定のオープンソースライブラリを使っているプロジェクトを検索したり、使われ方を分析することでそのライブラリの将来の開発の行く末を決める役に立つデータを集めることもできる。
Mediumの記事で、氏はGoogleのエンジニアなどが作成したクエリを一覧している。Go言語を分析するためのクエリや、もっとも使われているJavaのインポート、Angularのディレクティブ、emacsのパッケージなどのクエリだ。
GitHubのBigQueryデータセットは1.5TBのデータを含み、毎時更新されている。利用するには、
- Google Developer Consoleにログイン
- プロジェクトを作成
- BigQuery APIのアクティベート
- GitHubの公開データセットを開いてクエリを実行
Googleは月間1TBのデータの処理は無料枠を提供している。しかし、メインのデータセット(bigquery-public-data:github_repos.contents)に対するひとつの問い合わせで無料枠のTBを消費すると警告している。23GBの公式の抽出データ(bigquery-public-data:github_repos.sample_contents)やGo、ruby、JavaScript、PHP、Python、Javaなどの人気言語の言語別のデータはGoogleが提供している。BigQueryではカスタムのデータセットも作成できるがユーザがストレージの料金を負担する必要がある。
Google BigQuery Public DatasetsはGoogleがBigQueryを通じて提供するデータセットであり、ユーザは問い合わせにのみ課金されるという特別なプランで提供されている。アメリカ人の名前や2006年からのHacker Newsの記事やコメント、1029年から2016年までの世界の気候データなどが提供されている。
Rate this Article
- Editor Review
- Chief Editor Action