主页 > 谷歌SEO > robots文件如何屏蔽搜索引擎蜘蛛抓取页面?

robots文件如何屏蔽搜索引擎蜘蛛抓取页面?

有的时候,SEO站长并不希望某些页面被抓取和收录,如:付费内容、还在测试阶段的页面、复制内容页面等。网站上不出现链接,或者使用JavaScript,Flash链接,使用nofollow等方法都不能保证页面一定不被收录。SEO站长自己虽然没有链接到不想被收录的页面,其他网站可能由于某种原因出现导入链接,导致页面被收录。要确保页面不被收录,需要使用robots文件或Meta Robots标签。

 

1、robots文件

 

搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。江西SEO曾庆平的robots文件位于: 

 

只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。如图:
 

百度robots文件

 

robots文件由记录组成,记录之间以空行分开。记录格式为:

 

<域>:<可选空格><域值><可选空格>

 

最简单的robots文件:

 

User-agent: *

 

Disallow: /

 

上面这个robots文件禁止所有搜索引擎抓取任何内容。

 

User-agent:指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。只适用于百度蜘蛛则用:

 

User-agent: Baiduspider

 

只适用于Google 蜘蛛则用:

 

User-Agent: Googlebot

 

Disallow: 告诉蜘蛛不要抓取某些文件或目录。例如下面的代码将阻止所有蜘蛛抓取/cgi-bin/和/tmp/两个目录下的内容及文件/aa/index.html:

 

Disallow: 禁止的目录或文件必须分开写,每个一行,不能写成:

 

Disallow: /cgi-bin/ /tmp/ /aa/index.html

 

下面的指令相当于允许所有搜索引擎抓取任何内容:

 

User-agent: *

 

Disallow:

 

下面的代码禁止除百度外的所有搜索引擎抓取任何内容:

 

User-agent:Baiduspider

 

Disallow:

 

User-agent: *

 

Disallow: /

 

Allow:告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取,Allow:单独写没有意义,Allow和Disallow配合使用,可以告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分。例如,下面的代码将使蜘蛛不抓取/ab/目录下其他目录和文件,但允许抓取其中/cd/目录下的内容:

 

User-agent: *

 

Disallow: /ab/

 

Allow: /ab/cd/

 

$ 通配符:匹配URL结尾的字符。例如,下面的代码将允许蜘蛛抓取以.htm为后缀的URL:

 

User-agent: *

 

Allow: .htm$

 

下面的代码将禁止百度抓取所有.jpg文件:

 

User-agent: Baiduspider

 

Disallow: .jpg$

 

*通配符:告诉蜘蛛匹配任意一段字符。例如,下面一段代码将禁止蜘蛛抓取所有htm文件:

 

User-agent: *

 

Disallow: /*.htm

 

Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:

 

Sitemap:<网站地图位置>

 

比如:江西SEO曾庆平网站地图的设置 sitemap:

 

主流搜索引擎都遵守robots文件指令,robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被robots文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是可能以下面几种形式显示在搜索结果中:

 

只显示URL,没有标题、描述。Google常这样处理。

 

显示开放目录或雅虎等重要目录收录的标题和描述。

 

导入链接的锚文本显示为标题和描述。百度常这样处理。

搜索引擎从其他地方获得的信息显示为标题和描述。最著名的例子淘宝robots文件屏蔽百度蜘蛛的抓取,如图:

 

淘宝robots文件屏蔽百度蜘蛛

淘宝robots文件

原标题:robots文件如何屏蔽搜索引擎蜘蛛抓取页面?


发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

56谷歌SEO优化致力于提供最专业的谷歌SEO优化,外贸SEO推广及外贸建站服务。通过Google优化提升网站搜索排名,打破谷歌推广高价门槛,让你能够以最低的成本做好谷歌优化,提高Google排名。

Copyright 2015—2018 网站地图|网站地图txt