BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース GitHubのすべてのオープンソースプロジェクトがGoogle BigQueryで検索可能に

GitHubのすべてのオープンソースプロジェクトがGoogle BigQueryで検索可能に

原文(投稿日:2016/07/08)へのリンク

GitHub上の280万を超えるのオープンソースプロジェクトの全てのスナップショットがGoogleのBigQueryから問い合わせできる、とGoogleGitHubが発表した。GitHub上のおよそ20億のソースファイルがSQLを使って検索できるようになる。

GitHubのBigQueryデータセットはGitHub Archive Projectをベースにしている。このプロジェクトはGitHubの特定の時点でのスナップショットを作成し、分析のために保存、アクセス可能にすることを目的にしている。このデータセットのおかげで、GitHub Archive ProjectのコンテンツはSQLライクな問い合わせで検索可能になった。

GitHubのオープンソースデータのプログラムマネージャであるArfon Smith氏によれば、この新しいBigQueryのデータセットは、例えば、Goでもっとも使われているパッケージオープンソースのコントリビュータがもっとも多く在籍するアメリカの学校を探ることができる。また、オープンソースコミュニティや最新の開発トレンドを研究する研究者にも有用だ、と氏は言う。

GoogleのFelipe Hoffa氏によれば、特定のオープンソースライブラリを使っているプロジェクトを検索したり、使われ方を分析することでそのライブラリの将来の開発の行く末を決める役に立つデータを集めることもできる。

Mediumの記事で、氏はGoogleのエンジニアなどが作成したクエリを一覧している。Go言語を分析するためのクエリや、もっとも使われているJavaのインポートAngularのディレクティブemacsのパッケージなどのクエリだ。

GitHubのBigQueryデータセットは1.5TBのデータを含み、毎時更新されている。利用するには、

Googleは月間1TBのデータの処理は無料枠を提供している。しかし、メインのデータセット(bigquery-public-data:github_repos.contents)に対するひとつの問い合わせで無料枠のTBを消費すると警告している。23GBの公式の抽出データ(bigquery-public-data:github_repos.sample_contents)やGo、ruby、JavaScript、PHP、Python、Javaなどの人気言語の言語別のデータはGoogleが提供している。BigQueryではカスタムのデータセットも作成できるがユーザがストレージの料金を負担する必要がある。

Google BigQuery Public DatasetsはGoogleがBigQueryを通じて提供するデータセットであり、ユーザは問い合わせにのみ課金されるという特別なプランで提供されている。アメリカ人の名前や2006年からのHacker Newsの記事やコメント、1029年から2016年までの世界の気候データなどが提供されている。

 
 

Rate this Article

Relevance
Style
 

この記事に星をつける

おすすめ度
スタイル

BT