お行儀の悪い巡回ロボット

現在位置のナビ

トップコンピュータの国雑記帳 → お行儀の悪い巡回ロボット

説明

WEB の世界には巡回ロボットというものが存在します。 主に検索エンジンで表示するページ情報を集めるために、世界中の WEB をめぐって HTML ファイルを調べています。

検索エンジンに使用する以外にも、技術的、統計的な研究のために大学や企業が巡回ロボットを動かすことがあるようです。 ここでは、当サイトを訪れる巡回ロボットのうち、お行儀の悪いものについて解説します。

IBM の場合

ホスト wfp2.almaden.ibm.com から巡回ロボットのアクセスが来ます。 このロボットは、HTML ファイルの META タグでロボットに指示してあることを無視します。

WEB は全ての人に対して公開している情報ばかりではありません。 中には一部の人を対象にした情報や、制限付きライセンスで公開されたフリーソフトも存在します。 そのように『巡回ロボットに発見して欲しくないページ』をロボットに知らせる手段が存在します。

1つは /robots.txt というファイルを用意して、その中にアクセスして欲しくないページを列挙する方法です。

もう1つは、アクセスして欲しくない HTML ファイルにロボット宛の META タグを記述して『このページのことは忘れてくれ』『この先のリンクはたどるな』などと指示する方法です。

どちらも一般的な手法ですが、巡回ロボットはこれに従う義務はありません。

IBM の巡回ロボットは、一つめの方法をサポートしているのですが、二つめの方法をサポートしていません。 当サイトでは一つめの方法を採用していません。 なぜなら、アクセスして欲しくないページ情報を /robots.txt ファイルに書くと、/robots.txt ファイルを覗くことでアクセスして欲しくないページを見付けられてしまうからです。 このような理由により一つめの方法は今では推奨されていません。 ところが IBM は一つめだけを採用して2番目を採用していないのです。 採用の義務が無いとはいえ、インターネットを使った e-business を推進している国際企業がこんなところで手を抜いているのは非常にアンバランスです。 この巡回ロボットを運営している部署は IBM の中でレベルの低い部署ではないかなどと勘ぐってしまいます。

そのほか、IBM の巡回ロボットはときどき LZH ファイルを持っていきます。 なぜときどきなのか、tgz ファイルを持っていかないのはなぜかなど疑問が残ります。

MSN の場合

ホスト msnbot64044.search.msn.com から巡回ロボットのアクセスが来ます。 このロボットは、アクセスの間隔が変で、lzh ファイルを毎回持っていきます。

普通、巡回ロボットは無駄にアクセスを重ねないような仕組を持っています。 ある HTML ファイルに一度アクセスしたら、その時刻を覚えていて一定の日時が過ぎないと再訪しません。 ところが、MSN の巡回ロボットは1日に同じファイルを数回アクセスしたり、その後数日来なかったりします。 特に悪影響があるわけではありませんが、当方にとっても MSN にとっても無駄なのでアクセス頻度をコントロールして欲しいです。

さらに MSN の巡回ロボットは HTML ファイルを調べるだけではなくて、リンクを張ってある lzh ファイルを必ず持っていきます。 JPEG や tgz ファイルにはノータッチなのにlzh ファイルだけを持っていくところが不思議です。

2004年6月18日 初出


back button 雑記帳へ