2004年06月30日
◆ 検索ロボット
アクセスログを見ると、ほんとにまぁ、検索ロボットがたくさんきていらっしゃいます。
アクセスの半分は検索ロボットではなかろうか(^_^;)
検索ロボットとは、検索エンジンなどが登録してあるサイトの情報を読み込むために使っているものです。
このロボットくんが、サイトにやってきて情報を読み込んでいくわけです。
わたしが登録したところもあれば、勝手に登録されたところもあり、しかも調べてみると日本からだけでなく、アメリカ、韓国、台湾からもきてました。
しかも同じところから1日に何回もきているロボットもあって、ご苦労なことです。
検索ロボットは、imgを使うタイプやJavaScriptを使うタイプのアクセスログにはひっかからないので、SSI式のアクセスログを使うといいです。
わたしの場合は、XREAでサイトを開くともれなくついてくるオプションのアクセスログでロボットをみつけています。
検索ロボットを拒否したい場合は、robots.txtを使います。
そこに、
User-agent: *
Disallow: /
と記述すると、お行儀のいいロボットたちは、サイト全体を読み込まないでくれます。
特定のディレクトリだけを読み込んでほしくないときは、
User-agent: *
Disallow: /cgi-bin/
と、読み込まれたくないディレクトリを記述します。
特定のロボットに読み込まれたくないときは、
User-agent: OoBot
Disallow: /
と、*ではなく、検索ロボットを指定すればそのロボットだけを拒否します。
ちなみに、robots.txtをアップするときは、1番上のディレクトリにアスキーモードで。
ページごとに拒否したいときは、METAタグを使います。
<HEAD></HEAD>の間に、
<META name="robots" content="noindex,nofollow">
と、記述すると、お行儀のいいロボット全部は拒否されます。
特定のロボットの場合は、
<META name="OoBot" content="noindex,nofollow">
とご指名してください。
ただ、robots.txtの場合も、METAタグの場合も、お行儀の悪いロボットには無視されるので効き目はないです。
参考にしたサイトは、検索ロボットを使っている検索サイトや以前検索して見つけたサイト(ブックマークしてなかったのでまた探したけれど、見つからなかったです)です。
Posted by ayano : Webのおはなし | 2004年06月30日 20:23
トラックバック
このエントリーのトラックバックURL:

