robots在英語(yǔ)之中的意思是機器人,Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人協(xié)議等)全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。Robots協(xié)議的本質(zhì)是網(wǎng)站和搜索引擎爬蟲(chóng)的溝通方式,用來(lái)指導搜索引擎更好地抓取網(wǎng)站內容,而不是作為搜索引擎之間互相限制和不正當競爭的工具。
當搜索引擎在訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),首先檢索的將是該站點(diǎn)根目錄下面的robots.txt文件(如果沒(méi)有我們可以建立一個(gè)空白的文本文檔,命名為robots.txt放在網(wǎng)站的根目錄下即可?。?,如果此文件存在,那么搜索引擎將率先訪(fǎng)問(wèn)并識別此文件的規則,它會(huì )按照此文件里面的規則進(jìn)行爬??!下面詳細敘述一下相關(guān)語(yǔ)法:
1、允許所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的所有部分:
User-agent:*
Disallow:
2、禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的所有部分:
User-agent:*
Disallow:/
3、如果不需要某一個(gè)搜索引擎抓取的話(huà),比如百度,禁止百度索引我們的網(wǎng)站
User-agent:Baiduspider
Disallow:/
注:如果我們需要禁止Google索引我們的網(wǎng)站,就把User-agent:蜘蛛名字改成 谷歌的Googlebot即可!
4、如果我們禁止除Google外的一切搜索引擎索引我們的網(wǎng)站
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
5、如果我們需要禁止蜘蛛訪(fǎng)問(wèn)某一個(gè)目錄,比如禁止login、newtravel等目錄被索引
User-agent:*
Disallow:/login/
Disallow:/newtravel/
6、如果我們允許蜘蛛訪(fǎng)問(wèn)網(wǎng)站某個(gè)目錄中的某些特定網(wǎng)址
User-agent:*
Allow:/login/my
Allow:/newtravel/html
Disallow:/login/
Disallow:/newtravel/
7、很多網(wǎng)站的robots.txt里的Disallow或者Allow里面會(huì )有很多的符號,比如星號、問(wèn) 號什么的,如果使用“*”號,主要是限制訪(fǎng)問(wèn)某個(gè)后綴的域名,比如禁止訪(fǎng)問(wèn)/html/ 目錄下的所有以“.htm”為后綴的URL(包含子目錄)
User-agent:*
Disallow:/html/*.htm
8、使用“$”符號是僅允許訪(fǎng)問(wèn)某目錄下某個(gè)后綴的文件
User-agent:*
Allow:.asp$
Disallow:/
9、如果是禁止搜索引擎索引網(wǎng)站中所用動(dòng)態(tài)的頁(yè)面(這里演示的是以“?”號為域名, 例如:index.asp?id=1)
User-agent:*
Disallow:/*?*
10、為了節省服務(wù)器資源,需要禁止各類(lèi)蜘蛛來(lái)索引網(wǎng)站的圖片,除了使用常見(jiàn)的 “Disallow:/images/”這樣直接屏蔽圖片文件夾的方式以外,還可以采取直接屏蔽圖片 后綴名的方式。如果我們禁止百度搜索引擎索引我們網(wǎng)站的圖片:
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
11、僅允許百度抓取網(wǎng)站上的“JPG”格式的文件
User-agent:baiduspider
Allow:.jpg$
Disallow:jpeg$
Disallow:gif$
Disallow:png$
12、僅僅禁止百度抓取網(wǎng)站上的“JPG”格式的文件
User-agent:Baiduspider
Disallow:.jpg$
更多詳細幫助,參考閱讀
贊
1
有一點(diǎn)幫助
0
沒(méi)有幫助
參與評論