网站被数据被采集了,怎么办?
做网站的童鞋都知道,网站内容采集是做网络的常规手法,特别是那些专门做垃圾网站的人,其网站的内容基本上都是用平台进行采集,然后经过加工生成自己的网站内容。
如果我们自己的网站被别人采集了,会有什么样的后果呢?一般情况下,如果你的网站权重够高,又基本是原创内容,那么被人采集去了,也不会有太大的问题,无非是内容被转载了。但是,如果你自己的网站本身权重一般,而内容被采集了去之后,权重还高于你的网站,那么你的网站就有可能会被搜索引擎认为是采集了它的,这样你的网站就有被降权的风险。
如果我们一旦发现网站信息被采集了,首先要做的是尽可能要防止这类事情的发生。
今天我们在查询网站访问日志的时候,发现有很多条这个记录十分可疑:
80 - 175.29.18.154 Mozilla/5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/73.0.3683.103+Safari/537.36 200 0 0 921
这是IIS访问日志的访问记录,有一个来自可疑的IP有大量的爬行记录,所以,我们有理由怀疑这是一条来自可疑IP的采集记录。网站被数据被采集了,那么当务之急就是要限制来自这个IP的访问。
网站要限制某个IP的来访,常见的有两个方式,
一是通过网站服务器端的设置来进行限制,可疑从服务器IIS管理器来进行设置,也可以通过网站空间管理平台来进行设置(如果平台有这个功能的话)
。
二是用网站config文件来进行限制,首先用记事本打开网站的config文件,在rules内加上限制规则代码:
<rule name="band ip" stopProcessing="true">
<match url="(.*)" />
<conditions logicalGrouping="MatchAny">
<add input="%{HTTP_X_FORWARDED_FOR}&%{REMOTE_ADDR}&%{HTTP_X_Real_IP}" pattern="(175.29..)" />
</conditions>
<action type="AbortRequest" />
</rule>
这样,就成功的限制了来自175.29.*.*IP段的所有访问。
保存后上传到网站空间内,这样就可以对当前IP段的采集访问进行限制,那么接下来,我们可以观察几天日志文件,看是否没有了来自这个段的采集记录。所以,总的来说,我们要养成经常查看并详细分析日志文件的习惯,从各种数据中去发现问题并有针对性的解决问题。