Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在文件中聲明該網(wǎng)站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
珠海網(wǎng)絡推廣
robots.txt文件的用處是非常大的,它在網(wǎng)站建設和
SEO優(yōu)化中起著很關鍵的作用。搜索引擎在訪問任意網(wǎng)站的網(wǎng)頁之前,都會查看是否存在阻止它們訪問特定網(wǎng)頁的robots.txt文件。
我們給出樣本,并且應該把robots.txt文件放置在網(wǎng)站根目錄下:
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
譬如,如果您想告訴Excite搜索引擎的Spider(ArchitextSpider),不檢索您站點中三個特定頁面,您可這樣操作:
User-agent: ArchitextSpider
Disallow: /orderform.html
Disallow: /product1.html
Disallow: /product2.html
如果您不想讓Excite的Spider檢索在abc目錄下的def.htm文件:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
不檢索整個mydirectory目錄:
User-agent: ArchitextSpider
Disallow: /mydirectory/
不讓所有Spider檢索:
User-agent: *
不檢索整個站點:
Disallow: /
我們給出其他實例:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
User-agent: Infoseek
Disallow: /ghi/jkl.htm
User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: /abc/def.htm