robots.txt?协议
来源:seo知识 日期:2020-10-17 18:56 作者:郭毅峰

1. 什么是robots.txt?
  robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。
2. robots.txt语法
 
   1) 允许所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
          User-agent:  *
          Disallow:
       或者
         User-agent:  *
         Allow:  /
 
      注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
 
   2) 禁止所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
           User-agent:  *
            Disallow:  /
 
   3) 只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
       robots.txt写法如下:
             User-agent:  *
             Disallow:  /css/
             Disallow:  /admin/
             Disallow:  /images/
 
         注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽
 
        4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
            robots.txt写法如下:
                 User-agent:   *
                 Disallow:  /templets
                 Allow:  /main
 
       5)  禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)
 
              robots.txt写法如下:
                    User-agent:  *
                    Disallow: html/*.php
 
        6) 仅允许访问某目录下某个后缀的文件,则使用“$”
             robots.txt写法如下:
                   User-agent:  *
                   Allow:  .html$
                   Disallow:  /
 
         7)禁止索引网站中所有的动态页面
                比如这里限制的是有“?”的域名,例如index.php?id=1
                robots.txt写法如下:
                        User-agent:  *
                        Disallow:  /*?*
         
      8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
          有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。
        robots.txt写法如下:
             User-agent: *
             Disallow:  .jpg$
             Disallow:  .jpeg$
             Disallow:  .gif$
             Disallow:  .png$
             Disallow:  .bmp$
 
 
写robots.txt要注意的地方
       1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
  2. 斜杠:/ 代表整个网站
  3.如果“/”后面多了一个空格,则屏蔽整个网站
  4.不要禁止正常的内容
  5.生效时间是几天到两个月 
上一篇:伪静态 下一篇:404错误页面的设置方法详解
猜你喜欢
各种观点
热门排行
精彩