下載日志,再使用工具editplus打開日志
一、查看有沒有大量重復(fù)訪問的IP
一般這種IP都是搜索引擎抓取IP段,比如谷歌蜘蛛抓?。℅ooglebot),百度蜘蛛抓?。˙aiduspider、Baiduspider-render)。
注意:Baiduspider-render是訪問網(wǎng)站的 CSS、Javascript 和圖片信息。
如果查看到這個蜘蛛出現(xiàn)的次數(shù)很多,而客戶網(wǎng)站圖片又比較大,則消耗的流量就會增加,建議把圖片處理小。
IP段:
谷歌蜘蛛(Googlebot):
百度蜘蛛(Baiduspider):
百度蜘蛛(Baiduspider-render):
針對以上的異常蜘蛛抓取,處理方法如下:
1、在后臺robots禁止谷歌抓取
User-agent: Googlebot
Disallow: /
參考位置,加在這里:
2、調(diào)低百度蜘蛛抓取頻率。
登陸百度站長調(diào)整。
3、還有個方法,就是幫屏蔽這些抓取IP(僅限客戶自有服務(wù)器)。
二、移動端抓取
思途cms系統(tǒng),后臺做的robots屏蔽僅針對PC端,手機(jī)端沒做。
但可以把robots屏蔽里面的代碼另存為txt文檔,上傳到服務(wù)器手機(jī)端根目錄下。
主要就是1、2點,屏蔽搜索引擎的大量抓取,再觀察后續(xù)流量是否降低。
其他處理(針對網(wǎng)站優(yōu)化)
三、屏蔽列表頁抓取
為什么要屏蔽搜索引擎抓取列表頁?
原因:列表頁url很長,收錄也沒內(nèi)容,對于排名沒作用,還會分散權(quán)重
看日志里,搜索引擎訪問的頁面鏈接地址,分辨列表頁:
以上這些就是列表頁,可以看到搜索引擎抓取了很多列表頁。
Disallow: /*-*
Disallow: /*?*
用這段代碼,屏蔽搜索引擎抓取列表頁。
可以加在這個位置:
四、處理404頁面
訪問日志中如看到大量404頁面,就要去百度站長提交處理死鏈
在HTTP/1.1 后面,是404就表示訪問的頁面已經(jīng)不在了,死頁面,要處理;
后面顯示200,就表示正常抓取,頁面存在
其他要點:
在網(wǎng)址后面+robots.txt 可以不登錄后臺就看到它的robots設(shè)置。
會員評論