作者:shunz,出处:http://shunz.net/2006/11/baiduspider.html
chedong最近的一篇blog分析了各大spider是否遵循robots协议,据他称,baidu spider是非匿名抓取的,但是我在仔细分析了日志后发现,Baidu Spider是真名与匿名同时抓取,并且匿名抓取的数量是真名抓取数量的三倍以上,证据如下:
202.108.23.174 - - [27/Nov/2006:08:38:37 +0800] "HEAD /2005/04/157.html HTTP/1.0" 200 - "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)" 202.108.23.174 - - [27/Nov/2006:08:38:38 +0800] "GET /2005/04/157.html HTTP/1.0" 200 34292 "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)" 202.108.23.174 - - [27/Nov/2006:08:38:44 +0800] "HEAD /2005/06/239.html HTTP/1.0" 200 - "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)" 202.108.23.174 - - [27/Nov/2006:08:38:47 +0800] "GET /2005/06/239.html HTTP/1.0" 200 31793 "-" "Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)"
IP查询结果:
202.108.23.174 查询结果:北京市 百度公司
抓取数量:
| 202.108.23.174 | China | 122500 | 122500 | 2.96 G字节 | 2006年 十一月 29日 10:56 |
| 202.108.23.135 | China | 4913 | 4913 | 109.98 M字节 | 2006年 十一月 29日 06:36 |
而真名的正常抓取数量:
| BaiDuSpider | 35607+81 | 1014.62 M字节 | 2006年 十一月 29日 22:19 |
该IP偶尔会以真名来抓取:
202.108.23.174 - - [29/Nov/2006:03:07:37 +0800] “GET /2006/09/22/ HTTP/1.1″ 200 30994 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
而且从日志中可以看出来,BaiduSpider事先用HEAD检查文件是否更新好像没有作用,因为没有更新的文件在HEAD之后照样抓取。
7 条评论了已经
发表评论
字体为 粗体 是必填项目,邮箱地址 永远不会 公布。
允许部分 HTML 代码:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
URIs must be fully qualified (eg: http://shunz.net/) and all tags must be properly closed.
超出部分系统将会自动分段及换行。
请保证评论内容是与日志或 Blog 内容相关的,灌水、攻击性或不恰当的评论 may 会被编辑或删除。













还以为 Baidu 洗心革面做好人了呢,sigh…
我在以前写“弱智的baidu蜘蛛”时,它曾经一天抓我2个多G的流量。
后来我ban掉它后,的确在baidu里再也找不到我的网站记录,那时挺悔的。
之后给它恢复了,现在baidu里已经又能够找到了我的网站,但在统计数据里却显示不出来它的蜘蛛,流量也比以前小了太多,很奇怪现在的它是怎么抓录我的网站的。
…百度也够无耻的
it is good
百度抽风
感谢你的提醒…
我在百度住了2id
100度也不知道
100度并不知道
無恥阿
谁能提供一份百度spider的ip list?