正 文:
前两天,flymorn偶尔发现自己的一个网站被别人全站抄袭/采集了;看了一下采集的这个站,除了我的域名改成他的域名后,其他包括友情链接都没有改,可见这位采集者有多懒了。而这对于采集者来说,其实是一个很危险的举动。
flymorn再仔细分析了一下他的布局,包括了图片的调用路径都是和我的网站完全一样;这样的采集方式应该是使用了整站采集器这样的采集程序做的。但是这个站一旦采集过去,就不容易更新了,因为我的站有后台系统,而采集的站只是采集的我部分前台网页,而我的站几乎天天更新,所以他要的站就成了一潭死水了。
呵呵。采集只能采集我的外表(部分网页),却采集不了我的心(后台+域名权重+外链)!在今天百度、谷歌争先恐后地打击采集的政策下,采集大幅度的网站内容无疑是自寻死路,尤其是对于一个新生的网站来说,更是不能碰采集的边,否则,网站没权重不说,域名一旦被K,就翻不了身啦。
采集的弊端非常大,但作为我们网站主,如何防止自己的网站被别人采集呢?flymorn这里就提供几个建议,希望和大家一起探讨。
1、网站内容采用多套模板,随机模板,给采集程序设置过高的门槛;但这招对整站采集器不起作用。
2、网站内容里随机插入本网站的版权,如域名,网站名称,网站主人,而这些标识可以分开来写,或中间加短横-,或换成全角字符,防止被自动过滤,例如www.piaoyi.org等。
3、给我们网站里的图片打上自己的logo标识,比如在图片的右下角打上网站的名称+域名;采集者把我们的网站的图片采集过去,不可能一张一张图片都ps;所以,他们采集我们的网站内容,等于变相地帮助我们宣传网站。
4、这招比较损。如果对方采集的程序几乎和你的网站同步,那么你可以采用这招了。先在我们的网站里添加几篇标题以及文章开头结尾都很正规的内容,而在文章内容中间偷偷插入
非法关键字,有多非法就要多非法,多插入几个,隐蔽工作做的也要到位,然后在我们的网站robots.txt文件里禁止搜索引擎抓取这几篇文章。等对方采集了这几篇文章后,我们立即删除自己网站上的这些文章,然后向采集者服务器当地网警举报。呵呵。后果如何,大家可想而知了。
5、利用手里的大量的肉鸡资源或朋友的资源,进攻对方服务器,俗称DDOS洪水攻击,直到对方瘫痪,无力再采集为止。这也是迫不得已而为之,也需要一定的技术基础。小心,不要滥用了,适可而止。
所以,采集者们也要小心了,这天下没有不劳而获的好事。把别人惹急了,也要栽跟头的,一旦被阴,采集者损失的就不是一个网站那么简单了,很有可能整个服务器都被抱走没收了,说不定人身自由还要受到一定的限制。
还是那句话,认真做站,随便采集一些内容然后N年不更新的网站,连自己的网站都不认真对待,难道你还想搜索引擎、用户留恋你的网站么?!记住一句话:天上没有掉下馅饼!
PS:今天再次访问那个采集站,发现这个网站提示:“该网站含有非法内容,已被关停。”虽然不是我在整他,但估计他采集过多了,被其他人报复了;呵呵,常在河边走,哪能不湿鞋啊。采集的多了,危险也越来越大了。
啊,谢谢作者的文章,我订阅的收到了 不过收到的都是乱码 呵呵 不知道为什么
2楼,你是邮件订阅的么?什么样的邮箱?163?gmail?看来是feedsky的系统又出问题了……
恩 是的 我的是yahoo的邮箱 呵呵 还是谢谢了
你的第2和第4岁够损的,
不过,我还是觉得第2点比较实用。
还是采集的水平不够,采集也来个敏感字过滤,过滤外部链接,然后再来个段落通用词微调,看你有什么办法
大哥,你这第四招,真是够NB。呵呵,采你网站的那位兄台,都是报应呀......呵呵
把程序的一些结构\规则稍改变一下,别人就采集不到了.
不错,以前我提交过一个博客,结果现在每篇文章都被他采集,怎么办呢。
哥儿们
你这招不错
我得学以致用!
马上行动
从服务器端能不能设置?