当前位置: 首页 > IT > 正文

不按套路出牌的爬虫!!

今天看了一下公司HTTP服务器的log,发现爬虫活动异常频繁,有将近1/10的流量来自爬虫们,说起来也挺恐怖的。

其实那点东西也没有必要爬来爬去的吧,于是写了个robots.txt 做了一下限制。

vi robots.txt

User-agent: *
Disallow: /

按照套路,原则上禁止掉了所有的爬虫的骚扰。

下班前,上去看了一眼是否生效了,他奶奶的,爬虫居然如此张狂,继续爬我没商量。

首先就是Baiduspider不守规矩,继续爬网站,而且变本加厉的爬,流量有增无减。

61.135.190.24`-`-`2008-03-18 02:33:37`HEAD /index.html HTTP/1.1`200`2775`-`Baiduspider+(+http://www.baidu.com/search/spider.htm)`-

再有就是google,也有一些,有些是当访问到了robots.txt就停止了。但是还有一些不要脸的仍在爬着。

比如这条:
203.208.60.22`-`-`2008-03-17 13:27:25`GET /Index.html?id=1714 HTTP/1.1`200`2530`-`Mozilla/5.0 (compatible; Googlebot/2.1; +http://www…google.com/bot.html)`-

我查了一下那个IP:真他妈服了,居然有人在冒充google的爬虫在网络世界横行,这不是真正的谷歌,这是假冒伪劣产品哟!

那个真正的Google还是蛮守规矩的,但到robots.txt的内容就停下了匆匆的脚步。

66.249.70.130`-`-`2008-03-18 02:30:40`GET /robots.txt HTTP/1.1`200`27`-`Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)`-

经核实,假冒google的爬虫IP:

IP查询(搜索IP地址的地理位置)
您查询的IP:203.208.60.22
本站主数据:北京市 飞翔人信息技术有限公司
查询结果2:北京市 飞翔人信息技术有限公司
查询结果3:北京市 飞翔人信息技术有限公司

“飞翔人”何许人也,原来是大名顶顶的ganji.com(赶集网),哎,枉我当初对赶集的一片痴心。

顺便也查了一下这斯的来历,原来赶集与Google也曾有着一段“姻缘”哩。

怪不得敢打着Googlebot的名义在网络横行!!!

作为弱势群体的我们普通小站点,只能忍了,这里发发牢骚,骂骂人,自个心里爽爽罢了。

或许ganji凭借google的余威在“爬虫”界也是很吊、很暴力? 

 

PS :

强列鄙视Baidu,这么大的站点不遵守最起码的游戏道德。

表扬一下真正的Googlebot,实实在在老实人,我喜欢! 以后搜索还是使用Google.

 

本文固定链接: http://2hei.net/robots_rule.html | 2hei's site

该日志由 2hei 于2008年03月17日发表在 IT 分类下,
原创文章转载请注明: 不按套路出牌的爬虫!! | 2hei's site

报歉!评论已关闭.