29
Nov

匿名盗抓的Baidu Spider


版权声明:可以在网上任意转载,转载时请务必以超链接形式标明文章原始出处、作者信息及本声明文字。
作者:shunz,出处:http://shunz.net/2006/11/baiduspider.html

chedong最近的一篇blog分析了各大spider是否遵循robots协议,据他称,baidu spider是非匿名抓取的,但是我在仔细分析了日志后发现,Baidu Spider是真名与匿名同时抓取,并且匿名抓取的数量是真名抓取数量的三倍以上,证据如下:

202.108.23.174 - - [27/Nov/2006:08:38:37 +0800] "HEAD /2005/04/157.html HTTP/1.0" 200 - "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)"
202.108.23.174 - - [27/Nov/2006:08:38:38 +0800] "GET /2005/04/157.html HTTP/1.0" 200 34292 "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)"
202.108.23.174 - - [27/Nov/2006:08:38:44 +0800] "HEAD /2005/06/239.html HTTP/1.0" 200 - "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)"
202.108.23.174 - - [27/Nov/2006:08:38:47 +0800] "GET /2005/06/239.html HTTP/1.0" 200 31793 "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)"

IP查询结果:

202.108.23.174 查询结果:北京市 百度公司

抓取数量:

202.108.23.174 China 122500 122500 2.96 G字节 2006年 十一月 29日 10:56
202.108.23.135 China 4913 4913 109.98 M字节 2006年 十一月 29日 06:36

而真名的正常抓取数量:

BaiDuSpider 35607+81 1014.62 M字节 2006年 十一月 29日 22:19

该IP偶尔会以真名来抓取:

202.108.23.174 - - [29/Nov/2006:03:07:37 +0800] “GET /2006/09/22/ HTTP/1.1″ 200 30994 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”

而且从日志中可以看出来,BaiduSpider事先用HEAD检查文件是否更新好像没有作用,因为没有更新的文件在HEAD之后照样抓取。

7 条评论了已经

发表评论

名字(必须)
邮箱(不会被公布)(必须)
网址

字体为 粗体 是必填项目,邮箱地址 永远不会 公布。

允许部分 HTML 代码:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
URIs must be fully qualified (eg: http://shunz.net/) and all tags must be properly closed.

超出部分系统将会自动分段及换行。

请保证评论内容是与日志或 Blog 内容相关的,灌水、攻击性或不恰当的评论 may 会被编辑或删除。

    关于

      我,shunz,在这里默默记录自己的所学所思以及所关注的事情...
      Blog del.icio.us Flickr Furl Gmail/Google Talk Google Reader Google Shared Stuff Picasa Web Albums Twitter YouTube Zooomr douban

    订阅

    页面

    广告

    分类