百度(Baidu)に四苦八苦

最近、Baiduという中国系サーチエンジンのクローラのアクセスで困っています。
robots.txtを見ると書いてあり、確かに１日１回くらいは取っていっているのですが、内容を完全無視で禁止としているエリアもガンガンアクセスしているようです。

とりあえず、robots.txtで Baiduspider+, BaiduImagespiderは全部 Disallowとしましたが、未だにアクセスしてきます。
どうなってんでしょうね？？

他の方のように、IPでブロックしかないのでしょうか。。。
困ったものです。

# WEBでの情報を元に、robots.txt以外は 403を返すようにしました。
# Baiduの場合、robots.txtが反映されるまで１週間～１ヶ月だそうなので、１ヵ月後くらいに再度チェックしてみようかと思います。
# それにしても、反映に時間がかかりすぎですよ。
# はじめから設定されている部分も、１ヶ月は無視してやりたい放題ってことですかね（苦笑）

4/18追記:
Baiduの IPから、クローラではない Agentでのアクセスがありました。
なんでクロールできないか調べているんでしょうね。

4/23追記:
毎朝、繰り返しクロールで失敗した URLを違う Agent名で見に来ているフシがあるので、結局 IPではじくようにしました。

Tagebuch des Kaffeemeister

カテゴリー

アーカイブ

百度(Baidu)に四苦八苦

Leave a Reply Cancel reply