百度(Baidu)に四苦八苦

最近、Baiduという中国系サーチエンジンのクローラのアクセスで困っています。
robots.txtを見ると書いてあり、確かに1日1回くらいは取っていっているのですが、内容を完全無視で禁止としているエリアもガンガンアクセスしているようです。

とりあえず、robots.txtで Baiduspider+, BaiduImagespiderは全部 Disallowとしましたが、未だにアクセスしてきます。
どうなってんでしょうね??

他の方のように、IPでブロックしかないのでしょうか。。。
困ったものです。

# WEBでの情報を元に、robots.txt以外は 403を返すようにしました。
# Baiduの場合、robots.txtが反映されるまで1週間~1ヶ月だそうなので、1ヵ月後くらいに再度チェックしてみようかと思います。
# それにしても、反映に時間がかかりすぎですよ。
# はじめから設定されている部分も、1ヶ月は無視してやりたい放題ってことですかね(苦笑)

4/18追記:
Baiduの IPから、クローラではない Agentでのアクセスがありました。
なんでクロールできないか調べているんでしょうね。

4/23追記:
毎朝、繰り返しクロールで失敗した URLを違う Agent名で見に来ているフシがあるので、結局 IPではじくようにしました。

Leave a Reply

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>