網(wǎng)站建設(shè)中robots文件的編寫方式說明

文章來源：廊坊網(wǎng)絡(luò)公司 | 本文作者：小編 | 發(fā)布時間：2016-11-16 13:21:33 | Tag標(biāo)簽：網(wǎng)站建設(shè)知識

16 2016

Robots.txt文件是網(wǎng)站與搜索引擎之間的一種協(xié)議，當(dāng)搜索引擎來抓取你網(wǎng)站的時候，首先會看你網(wǎng)站根目錄的Robots文件，搜索引擎會根據(jù)你寫的這個協(xié)議來抓取你的網(wǎng)站內(nèi)容，當(dāng)然抓取的頁面都是由你寫的Robots來確定的。搜索引擎使用spider程序來訪問網(wǎng)站里面的內(nèi)容，但是你的Robots文件可以告訴它那個頁面可以訪問，那個頁面不可以訪問，有些人認(rèn)為網(wǎng)站當(dāng)然容許抓取訪問了，錯，一些網(wǎng)站后臺隱私文件、js、死鏈這些都是需要屏蔽的。

了解下Robots常見的規(guī)則：

1、User-agent指令: 此指令定義了此指令下面的內(nèi)容對哪些蜘蛛有效。默認(rèn)所有蜘蛛都允許抓取，如果此指令指定了特定的蜘蛛，那么此指令下跟的內(nèi)容就對特定蜘蛛有效。

2、Disallow指令：指禁止搜索引擎抓取的路徑?，也就是說此指令定義了禁止蜘蛛抓取哪些內(nèi)容

3、Allow指令: ?允許搜索引擎收錄的地址，此指令定義了允許蜘蛛抓些哪些內(nèi)容，如果是某些內(nèi)容允許，其它全部拒絕，則可以用這個指令，大多數(shù)網(wǎng)站只用到禁止指令。

User-agent的用法示例

此指令是用來定義蜘蛛名的：常見的蜘蛛名包括：Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。

Disallow的用法示例

1、禁止整站被抓取：

Disallow: /

2、禁止根目錄下的woniuseo目錄抓取：

Disallow: /woniuseo/

3、禁止根目錄下的woniuseo目錄下的單個頁面woniuseo.html被抓取：

Disallow：/woniuseo/woniuseo.html

4、禁止全站含有？的頁面被抓取：

Disallow: /*？*

5、禁止全站含有woniuseo的頁面被抓取：

Disallow: /*woniuseo*

6、禁止全站后綴為.aspx的頁面被抓取：