正 文:
今天QQ上有位网友“银狐云枫”给我发来消息说,他的网站之前被人入侵挂了马,被百度K掉了,原来百度爬虫正常抓取页面的时候,返回的http状态是200 0 0,现在爬到他的网页总是200 0 64,他问这个64是什么意思,是不是百度清除页面,有什么解决方法。
我之前也写过一篇关于百度,google,yahoo搜索引擎的蜘蛛爬虫的文章,谈到了三大搜索引擎抓取网站页面的特点。但是没有针对返回的http状态诸如200 0 64进行分析说明。
这是IIS里的相关解释:net helpmsg 64--The specified network name is no longer available. 意思是指定的网络名不可用,或许是路径错误,或许是文件已经不存在,但这仅仅是IIS自身的http状态说明。而在百度爬虫日志里返回200 0 64,而众所周知,百度是有人工干预的,这64说明了什么?
在百度研究院(www.baidustu.cn)的论坛里看到一位版主有这样的一段解释:
蜘蛛在IIS里的行为200 0 64 的解释
根据我前段时间到现在的观察,虽然没有足够的证据,但是基本上可以肯定在IIS中,如果蜘蛛后面的号码出现200 0 64
那么网站中的这个单页面就会在搜索引擎中消失了.我被K的页面后面都写着200 0 64 ,不知道大家是否认同,还有其他看法,当然,我说这个不够绝对,因为我也有一个页面后面显示着200 0 64 但是在搜索引擎中依旧可以找到.这也说明着问题,但大多200 0 64行为的网页就已经没有了.
所以我觉得蜘蛛的200 0 64行为可以被解释为清除数据。
这个解释,目前看上去还是有可信度的。我认为,抓取状态成200 0 64是不正常的抓取,正常的抓取是成功标志200 0 0,当变成了200 0 64的状态时说明搜索引擎在抓取这个页面的时候出现了错误,没有正常的进行常规抓取;对于百度来说,百度很可能是已经不再把这些页面抓进主索引库,而是放进了“百度沙盒”里进行考察,考察多久,就看你如何改进,也许,你看不到百度把这些被K的网站释放出来的时候,人是没有规律的。
正好,flymorn也有被百度K的网站,打开这个网站的IIS日志(.log后缀,如ex080222.log),果不其然,也发现了百度返回200 0 64的状态:
2008-02-22 07:14:37 W3SVC78302822 58.17.36.91 GET /article/1/79.html - 80 - 61.135.163.102 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64
2008-02-22 07:18:07 W3SVC78302822 58.17.36.91 GET /article/1/11.html - 80 - 61.135.163.102 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64
对于已经被百度拔毛的网站来说,如果你还在乎百度,那就赶紧改正网站上的一切作弊的地方,消除过度优化,消除恶意链接,等待百度再次光临,一般来说,这需要2-3个月的时间,还是认真做站,先想着用户为好。
适当优化是可以的,不过如果过度的话就过犹不及;
我们应该首先考虑用户体验……试想下,如果没有搜索引擎,我该怎么吸引用户……
是的,也许时间远超过两三个月;
如果你积极的处理,还是有助于缩短百度重新收录网站的时间的 ^)^
这两天继续观察了下,开始有200 0 0的GET,但是只是局限于凌晨的那一时段中。大概从7点以后又变成了200 0 64。还未见分晓,不知道是不是会有恢复的机会。另外,在24号的晚上,我发现木马可能没有清楚干净,还有一段弹窗。不知道是怎么调用的。努力排查中……
我的网站,寒假全面改版被封,到现在没有恢复,但是日志里 有很多200 0 0的GET 但是还是没有收录结果 ,这是怎么回事?? 非常郁闷,希望楼主能帮帮我
请问博主,这帖子是原创还是转贴?经我分析,这种说法有些不当。
不仅仅百度会留下64,一般浏览者也会留下64,那又怎么解释呢?我博客上有我前几天写的关于IIS日志出现64的文章,不妨看看,共同讨论一下到底是什么原因。或者在Google直接搜索“再说IIS日志的200 0 64”就可以找到。
IIS日志里状态为 200 0 64出现的真正原因,经过我对其他网友观点和分析和对我自己服务器日志的分析,现得出结论,而且个人觉得这个结论将是终结版。
首先,200状态,大家都很清楚,只有浏览器发出请求到收到完整请求时,才会是200状态,这证明此次请求无程序和网络错误。
其次,至于64出现的原因,过程是这样的(首先要想到:客户端浏览器具有缓存,各搜索引擎爬虫拥有快照): 客户端发起请求,服务器正常影响产生并记录200状态,客户端收到服务器返回数据后,进行了自身的操作(如,浏览器会依据缓存,判断是否从缓存妈数据还是重新下载,搜索引擎依据自己的标准判断该页面是否需要更新快照),然后,当得到当前数据不需要重新下载后,就主动断开与服务器的此次对话,这时服务器就将标注为64状态(大家知道,64代表指定的网络名不再可用),整个过程就是这样,所以对那些妄言说,64代表被K或者其它言论的人来说,不再要继续误导网友哦。如果想解决这个问题,那就是更新。
转发此文章请注明:文章来源(中国核心期刊网www.qikanw.org技术)
我观察我的网站,在日志里有 64状态的页面 都是没有内容的, 楼上的也说的很正确,但是 我看大家都没有说到这点 ,顺便加上。 AD 下 我的站 www.52zlw.com
我是今天才开始分析日志的,昨天百度蜘蛛抓取了我1000+网页,请问下,百度抓取的这些页面什么时候能在搜索引擎出现呢?
请站长回复下我的邮箱,谢谢!
原来是这么一回事啊,学习了啊,随便谁给我看下我的网站啊 www.zhuanpf.com
帮我的看看我的网站是怎么回事?
http://www.mobifocus.net