飘易博客(作者:Flymorn)
订阅《飘易博客》RSS,第一时间查看最新文章!
飘易首页 | 留言本 | 关于我 | 订阅Feed

如何防止网站内容被采集?

Author:Flymorn Source:飘易博客
Categories:网络技术 PostTime:2008-7-15 12:07:24
正 文:
    前两天,flymorn偶尔发现自己的一个网站被别人全站抄袭/采集了;看了一下采集的这个站,除了我的域名改成他的域名后,其他包括友情链接都没有改,可见这位采集者有多懒了。而这对于采集者来说,其实是一个很危险的举动。

    flymorn再仔细分析了一下他的布局,包括了图片的调用路径都是和我的网站完全一样;这样的采集方式应该是使用了整站采集器这样的采集程序做的。但是这个站一旦采集过去,就不容易更新了,因为我的站有后台系统,而采集的站只是采集的我部分前台网页,而我的站几乎天天更新,所以他要的站就成了一潭死水了。

    呵呵。采集只能采集我的外表(部分网页),却采集不了我的心(后台+域名权重+外链)!在今天百度、谷歌争先恐后地打击采集的政策下,采集大幅度的网站内容无疑是自寻死路,尤其是对于一个新生的网站来说,更是不能碰采集的边,否则,网站没权重不说,域名一旦被K,就翻不了身啦。

    采集的弊端非常大,但作为我们网站主,如何防止自己的网站被别人采集呢?flymorn这里就提供几个建议,希望和大家一起探讨。

1、网站内容采用多套模板,随机模板,给采集程序设置过高的门槛;但这招对整站采集器不起作用。

2、网站内容里随机插入本网站的版权,如域名,网站名称,网站主人,而这些标识可以分开来写,或中间加短横-,或换成全角字符,防止被自动过滤,例如www.piaoyi.org等。

3、给我们网站里的图片打上自己的logo标识,比如在图片的右下角打上网站的名称+域名;采集者把我们的网站的图片采集过去,不可能一张一张图片都ps;所以,他们采集我们的网站内容,等于变相地帮助我们宣传网站。

4、这招比较损。如果对方采集的程序几乎和你的网站同步,那么你可以采用这招了。先在我们的网站里添加几篇标题以及文章开头结尾都很正规的内容,而在文章内容中间偷偷插入非法关键字,有多非法就要多非法,多插入几个,隐蔽工作做的也要到位,然后在我们的网站robots.txt文件里禁止搜索引擎抓取这几篇文章。等对方采集了这几篇文章后,我们立即删除自己网站上的这些文章,然后向采集者服务器当地网警举报。呵呵。后果如何,大家可想而知了。

5、利用手里的大量的肉鸡资源或朋友的资源,进攻对方服务器,俗称DDOS洪水攻击,直到对方瘫痪,无力再采集为止。这也是迫不得已而为之,也需要一定的技术基础。小心,不要滥用了,适可而止。

    所以,采集者们也要小心了,这天下没有不劳而获的好事。把别人惹急了,也要栽跟头的,一旦被阴,采集者损失的就不是一个网站那么简单了,很有可能整个服务器都被抱走没收了,说不定人身自由还要受到一定的限制。

    还是那句话,认真做站,随便采集一些内容然后N年不更新的网站,连自己的网站都不认真对待,难道你还想搜索引擎、用户留恋你的网站么?!记住一句话:天上没有掉下馅饼!

    PS:今天再次访问那个采集站,发现这个网站提示:“该网站含有非法内容,已被关停。”虽然不是我在整他,但估计他采集过多了,被其他人报复了;呵呵,常在河边走,哪能不湿鞋啊。采集的多了,危险也越来越大了。
作者:Flymorn
来源:飘易博客
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。
上一篇:笔记本小黑:无线路由上网
下一篇:百度的相关搜索也能刷出来?!
12条评论 “如何防止网站内容被采集?”
1 i0ne
2008-7-15 22:21:40
哥们儿 你够狠!PFpf~
2 go_stop
2008-7-18 10:21:19
啊,谢谢作者的文章,我订阅的收到了 不过收到的都是乱码 呵呵 不知道为什么
3 flymorn
2008-7-18 10:26:27
2楼,你是邮件订阅的么?什么样的邮箱?163?gmail?看来是feedsky的系统又出问题了……
4 go_stop
2008-7-18 11:20:52
恩 是的 我的是yahoo的邮箱 呵呵 还是谢谢了
5 挖网络
2008-7-19 10:18:11
嘿嘿 八成也是不懂网络的
2008-7-21 16:48:11
你的第2和第4岁够损的,
不过,我还是觉得第2点比较实用。
7 麻痹的,名字不够长
2008-7-23 10:08:52
还是采集的水平不够,采集也来个敏感字过滤,过滤外部链接,然后再来个段落通用词微调,看你有什么办法
2008-7-29 9:15:08
大哥,你这第四招,真是够NB。呵呵,采你网站的那位兄台,都是报应呀......呵呵
2008-7-29 14:15:04
把程序的一些结构\规则稍改变一下,别人就采集不到了.
2009-6-21 17:09:14
够狠,就是该整整这些人啊
2009-10-11 12:51:58
不错,以前我提交过一个博客,结果现在每篇文章都被他采集,怎么办呢。
2010-7-7 7:05:25
哥儿们
你这招不错
我得学以致用!
马上行动
从服务器端能不能设置?
发表评论
名称(*必填)
邮件(选填)
网站(选填)

记住我,下次回复时不用重新输入个人信息
© 2007-2010 飘易博客 Www.Piaoyi.Org 原创文章版权由飘易所有 渝ICP备07006361号