主页 > 谷歌网站建设 > 如何正确设置robots.txt协议文件?

如何正确设置robots.txt协议文件?

有的时候,站长并不希望某些页面被抓取,如付费内容、测试阶段的网站等。要想确保页面不被抓取,需要使用robots文件。那么该如何正确设置呢?

 

作为一名SEOer人员来说,我们清楚通常情况下,搜索引擎蜘蛛访问网站时,首先会查看网站根目录下有没有robots.txt的纯文本文件。

 

一、什么是robots.txt文件

 

用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。

 

只有需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

 

注意:有些因服务器设置的问题,robots.txt文件不存在时会返回状态码“200”,而不是“404”状态码。这可能导致搜索引擎错误解读robots文件。因此为了避免此类情况的发生,即使你允许抓取网站上所有的内容,也要在网站根目录下放一个空的robots.txt文件。

 

二、robots.txt文件对网站有什么优点

 

1、疾速增加网站权重和拜访量;

 

2、制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;

 

3、为查找引擎供给一个简洁明了的索引环境
 

robots.txt文件

 

三、、robots.txt文件由记录组成,记录之间以空行分开。

 

格式:<域>:<可选空格><域值><可选空格>

 

注意:记录之间应以空行分开。

 

四、robots.txt基本语法:

 

User-agent:指定规则适用于哪个蜘蛛(如:如百度是Baiduspider,谷歌是Googlebot或是其他搜索引擎)

 

Allow:允许抓取什么URL路径

 

Disallow:不允许抓取什么URL路径

 

通配符*代表所有搜索引擎

 

结束符$:表示以前面字符结束的u

 

注意:允许或禁止的目录或文件必须分开写,每个一行

 

五、实例分析

 

(1) 禁止所有搜索引擎抓取任何页面

 

User-agent: *

 

Disallow: /

 

(2)允许所有的搜索引擎访问网站的任何部分

 

User-agent: *

 

Disallow:

 

(3)仅禁止Googlebot访问您的网站

 

User-agent: Googlebot

 

Disallow: /

 

也可换为其他搜索引擎

 

(4) 仅允许Googlebot访问您的网站

 

User-agent: Googlebot

 

Disallow:

 

也可换为其他搜索引擎

 

(5)禁止spider访问特定目录

 

User-agent: *

 

Disallow: /cgi-bin/

 

Disallow: /tmp/

 

注意事项:1)目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

 

(6)允许访问特定目录中的部分url:如:不抓取/ab/目录下的其他目录和文件,但允许抓取其中/cd/目录下的内容

 

User-agent: *

 

Disallow: /ab/

 

Allow: /ab/cd/

 

注:允许收录优先级要高于禁止收录。

 

(7) 禁止访问网站中所有的动态页面

 

User-agent: *

 

Disallow: /*?*

 

(8)禁止搜索引擎抓取网站上所有图片

 

User-agent: *

 

Disallow: /*.jpg$

 

Disallow: /*.jpeg$

 

Disallow: /*.gif$

 

Disallow: /*.png$

 

Disallow: /*.bmp$

 

(9)允许抓取以.htm为后缀的URL

 

User-agent: *

 

Allow: .htm$

 

(10)禁止抓取所有htm文件

 

User-agent: *

 

Disallow: /*.htm

 

六、特殊情况

 

被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在,虽然不会抓取页面内容,但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。

 

(1)只显示URL,没有标题和描述

 

(2)显示开放目录或雅虎等重要目录收录的标题和描述

 

(3)导入链接的锚文字显示为标题和描述

 

(4)搜索引擎从其他地方获得的信息显示为标题和描述

 

其实很多情况呢,要具体分析,只有掌握了robots文件基本语法,才能合理正确的设置robots.txt文件。

 

针对以上特殊情况,要想使URL完全不出现在搜索结果中,则需要使用noindex meta  robots标签禁止索引。下一期的话就会大家具体分析、阐述一下noindex meta  robots标签。
 

原标题:如何正确设置robots.txt协议文件?


发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

56谷歌SEO优化致力于提供最专业的谷歌SEO优化,外贸SEO推广及外贸建站服务。通过Google优化提升网站搜索排名,打破谷歌推广高价门槛,让你能够以最低的成本做好谷歌优化,提高Google排名。

Copyright 2015—2018 网站地图|网站地图txt
在职研究生 成人自考 在职研究生 成人自考 专升本自考 广东自考 本科自考 自考专升本 自考本科 自学考试 自考报名 在职自考 自考专业 自考网 自考学历 研究生自考 考研报名 考研 考研预报名 研究生考试 同等学力申硕 研究生招生 研究生院 同等学力申硕英语 在职研究生报考条件 硕士研究生