一、Robots功能:
用于約定允許,還是禁止搜索引擎抓取網(wǎng)站內(nèi)容。
二、概念:
Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
三、通常具有以下作用:
(1)在robots中提供SiteMap(網(wǎng)站地圖),為搜索引擎指路,方便搜索引擎抓取網(wǎng)頁(yè)內(nèi)容;
(2)屏蔽網(wǎng)站中一些不必要的網(wǎng)頁(yè),如:搜索結(jié)果頁(yè),幫助內(nèi)容頁(yè)等;
(3)屏蔽網(wǎng)站比較大的文件,如:視頻、圖片等,節(jié)省服務(wù)器帶寬;
(4)屏蔽網(wǎng)站內(nèi)的一些死鏈接,利于搜升搜索引擎排名提升。
說(shuō)明(1)
一般網(wǎng)站都會(huì)提供網(wǎng)站地圖,便于搜索引擎更好的理解網(wǎng)站的結(jié)構(gòu),以及理解網(wǎng)頁(yè)的重要性關(guān)系,思途系統(tǒng)即提供了自動(dòng)網(wǎng)站地圖功能,自動(dòng)存放在網(wǎng)站根目錄下。
引導(dǎo)搜索引擎前往抓取的語(yǔ)句:
User-agent: *
Allow:/Sitemap.xml
(注:思途CMS系統(tǒng)提供sitemap生成工具,位置:站長(zhǎng)工具 > Sitemap)
說(shuō)明(2)
列表頁(yè),搜索頁(yè),往往是多條件組合出來(lái)的頁(yè)面,排列組合下來(lái),數(shù)量眾多,重復(fù)度高;
網(wǎng)站底部的幫助欄目往往與網(wǎng)站目標(biāo)關(guān)鍵詞無(wú)關(guān),從搜索算法角度來(lái)講,建議禁止抓取為好。
禁止抓取語(yǔ)句示例:
User-Agent: *
Disallow: /*-* (備注:多條件列表頁(yè))
Disallow: /*?* (備注:搜索頁(yè)面以及帶?號(hào)的所有頁(yè)面)
Disallow: /*help* (備注:底部幫助頁(yè)面)
Disallow:/*servers* (備注:底部導(dǎo)航)
說(shuō)明(3)
視頻,圖片等都很大,搜索引擎爬蟲(chóng)來(lái)抓取時(shí),就會(huì)下載這些內(nèi)容,搜索引擎數(shù)量重多,如:百度、google、360、搜狗等等。加上爬行頻次高時(shí),一天會(huì)來(lái)很多次,這樣就會(huì)不斷的請(qǐng)求下載服務(wù)器上的這些資源,占用服務(wù)器流量。有時(shí)會(huì)出現(xiàn)網(wǎng)站沒(méi)有真實(shí)的用戶(hù)訪問(wèn),但服務(wù)器商統(tǒng)計(jì)的流量也會(huì)很高,往往就是這些原因?qū)е碌摹?/p>
解決這個(gè)問(wèn)題的方法,一般包括:
1、使用外部圖片、視頻服務(wù)器;(思途有提供三方服務(wù)器支持)
2、壓縮圖片(思途有提供圖片壓縮算法)、視頻大??;
3、禁止搜索引擎抓取。
禁止抓取的語(yǔ)句:
禁止搜索引擎抓取以下格式圖片語(yǔ)句:
User-Agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
說(shuō)明(4)
網(wǎng)站因?yàn)楦陌?,原?lái)的一些鏈接訪問(wèn)不了,或者錯(cuò)誤填寫(xiě)了網(wǎng)址,這些都會(huì)帶來(lái)錯(cuò)誤鏈接,即死鏈接,搜索引擎抓取到這些頁(yè)面,算法會(huì)認(rèn)為網(wǎng)站的用戶(hù)體驗(yàn)不好,經(jīng)營(yíng)者不夠用心等,從而可能降低網(wǎng)站的關(guān)鍵排名,因此,利用思途后臺(tái)死鏈生成功能,獲取鏈接,通過(guò)站長(zhǎng)平臺(tái)進(jìn)行死鏈提交,就有利于提升搜索引擎對(duì)網(wǎng)站的評(píng)價(jià)(排名)
禁止某錯(cuò)誤網(wǎng)址被抓取語(yǔ)句:
User-Agent: *
Disallow: /http://www.xxx.com/aaa.html
(注:思途CMS系統(tǒng)有提供404Sitemap,死鏈地圖生成工具,位置:站長(zhǎng)工具 > 死鏈排查。當(dāng)死鏈頁(yè)面數(shù)量比較多時(shí),可以使用百度站長(zhǎng)工具,提供的批量404頁(yè)面提交功能。百度404頁(yè)面提交禁止抓取的方法)
首先點(diǎn)擊生成死鏈,生成后點(diǎn)擊復(fù)制鏈接地址,到站長(zhǎng)平臺(tái)進(jìn)行地址提交。
四、設(shè)置位置:
后臺(tái)--站長(zhǎng)工具--robots設(shè)置
更多幫助:
會(huì)員評(píng)論