BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース GoogleはRobots Exclusion Protocolをインターネット標準にしようとする活動において、それを正式にまとめた

GoogleはRobots Exclusion Protocolをインターネット標準にしようとする活動において、それを正式にまとめた

原文(投稿日:2019/07/18)へのリンク

Robots Exclusion Protocol(REP)は、1994年以来、クローラーがWebサイトにアクセスするのを防ぐ方法を定義するルールを管理している。現在、Googleはインターネット技術標準化のためにIETF(draft to the Internet Engineering Task Force)にドラフトを提出している。さらに、Googleはプロトコルの実装をオープンソース化した

提案されたREPドラフトは、Googlebotと他の主要なクローラーの両方で使用されるrobots.txtルールによる20年以上の実世界での経験と、REPを使っている約5億のWebサイトを反映している。

REPの基本的な定義を変更せずに残したが、考慮されていない多くのシナリオを定義し、最近のWebに適合するように拡張したとGoogleは言っている。特に、新しいREPはHTTPに限定されず、FTPやConstrained Application Protocolなどの他のプロトコルに使用できる。別の新しい規定では、開発者がコンテンツの少なくとも最初の500 KBを解析することを要求することにより、robots.txtファイルの最大サイズを実質的に制限している。それよりも大きい既存のrobots.txtファイルを無視することはありませんが、この要件はサーバの負荷を減らすことを目的としている。新しいREPは、robots.txtファイルがキャッシュされる期間も定義する。基本的に、Googleがかなり長い間実施してきたルールを正式に定めた。そのルールでは、キャッシュ制御ディレクティブがない場合、最大キャッシュ有効期間を24時間に設定する。HTTP Cache-Controlが指定されている。サーバの障害によりrobots.txtファイルにアクセスできなくなった場合、このルールには例外がある。この場合、キャッシュを延長して、以前は許可されていなかったページのクロールを回避できる。

crawl-delay、nofollow、noindexなど、使用中の多くのディレクティブはドラフトに含んでおらず、Googleはこのようなルールを処理するすべてのコードを2019年9月1日までに廃止する。これは、特に、noindexを使ってページがGoogleのインデックスに入るのを防いでいたウェブマスターは代替手段を探す必要がある。例えば、HTTP応答ヘッダーのHTMLでnoindex robotsメタタグを使用するか、404または410 HTTPステータスコードを返す。Googleはまた、robots.txtのDisallowディレクティブはページがGoogleインデックスにリストされないことを保証しないが、何らかの理由でインデックスに登録された場合、それらのページを見えにくくすることを将来目指している。

前述のように、Googleはクローラーで使用していたC++ライブラリもオープンソース化した。このライブラリは、ドラフトプロトコルのリファレンス実装と見なされる可能性があり、robots.txtルールのテストツールが含まれている。Googleの新しいREPドラフトには、robots.txtファイルが従わなければならない更新されたBackus-Naur記述が構文規則として含まれている。C++ライブラリとBackus-Naur仕様はどちらも、開発者が確実なrobots.txtパーサーを容易に構築できる方向に向かっている。

現在、新しいREPドラフトにはコメント要求(RFC)のステータスがあり、関係者からのフィードバックを待っている。

この記事に星をつける

おすすめ度
スタイル

BT