的话找空间商协调设置即可。
f三、IIS日志的分析。1日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,同时用搜索功能搜索BaiduSpider和Googlebot这两个蜘蛛。例如:百度蜘蛛20120313004710W3SVC17711625516937GET8022018151144Baiduspiderfavobaidusearchspider2000015256197265谷歌机器人20120313081848W3SVC17711625516937GETrobotstxt802221862426Googlebot21googlebot2000098520031我们分段来解释20120313004710蜘蛛爬取的日期和时间点W3SVC177这个是机器码这个是惟一的我们不去管它11625516937这个IP地址是服务器的IP地址GET代表事件GET后面就是蜘蛛爬取的网站页面,斜杠就代表首页80是端口的意思22018151144这个IP则是蜘蛛的IP,这里告诉大家一个鉴别真假百度蜘蛛的方法,我们电脑点击开始运行输入cmd打开命令提示符,输入
slookup空格加蜘蛛IP点击回车,一般真百度蜘蛛都有自己的服务器IP而假蜘蛛则没有。如果网站中出现了大量的假蜘蛛则说明有人冒充百度蜘蛛来采集你的内容,你就需要注意了,如果太猖獗那会很占用你的服务器资源,我们需要屏蔽他们的IP20000这里是状态码状态码的意思可以在百度里搜索下197265最后两个数字则代表着访问和下载的数据字节数。
2我们分析的时候先看看状态码200代表下载成功,304代表页面未修改,500代表服务器超时,这些是一般的其他代码可以百度一下,对于不同的问题我们要处理。3我们要看蜘蛛经常爬取哪些页面,我们要记录下来,分析他们为什么会经常被蜘蛛爬取,从而分析出蜘蛛所喜欢内容。4有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。5我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。6蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。7不同IP的蜘蛛他们的抓取频率也是不相同的
fr