当前位置:首页-优化知识
    济南亘安信息帮你盘点搜索引擎robots规则
    2014-6-10 12:05:32
    浏览次数:

      robots.txt是网站主建立与搜索引擎之间沟通的一座桥梁。基本上每个网站做好之后都会加上robots.txt,因为的们的网站一些内容是想让搜索收录(比如说我们的后台)其实robots.txt常见问题很多,这里济南网站优化只是列举一些我们经常犯的一些错误:

    一、robots.txt的位置应该放在那里?

      robots.txt文件应该放置在网站根目录下。当搜索引擎的蜘蛛程序访问一个网站(比如http://www.jngenan.com/)时,首先会检查该网站中是否存在http://www.jngenan.com/robots.txt这个文件,如果找到这个文件,它就会根据这个文件的内容,来确定它即将要访问的范围。

    二、济南seo建立了robots.txt文件屏蔽了网页,为什么还会出现在搜索结果中呢?

      如果在robots.txt中屏蔽了该url路径,按常理来将是不会出现的搜索结果中的,但是很多情况下并不是这样,原因如下:

      1.蜘蛛程序通过其他链接直接进入网站的内页,导致被爬取并收录;

      2.robots.txt文件是后期修改,搜索结果还未进行更新;

      以上经过一段时间的更新就会逐渐消失,如果被抓取的网页涉及到一些隐私,可以直接想相关搜索引擎反映。

    三、robots.txt中的一些细节问题

      文件中头字母大小写;

      注意空格和“/”

    四、robots.txt的一些操作事例

      1.禁止搜索搜索引擎访问网站的任何部分

      User-agent:*

      Disallow:/

      2.允许访问所有的内容

      User-agent:*
      Disallow:

        或者

      User-agent:*
      Allow:/

      济南网站优化建议您:也可以建立一个空的robots.txt文件

      3.仅仅允许google访问我的网站

      User-agent:Googlebot
      Disallow:/
      User-agent:*
      Disallow:/

      4.禁止访问指定目录

      User-agent:*
      Disallow:/abc/
      Disallow:/def/
      Disallow:/ghp/

      5.允许访问特定目录

      User-agent:*
      Allow:/abc/abc
      Allow:/def/ef
      Allow:/ghp/look
      Disallow:/abc/
      Disallow:/def/
      Disallow:/ghp/

      6.禁止访问/abc/目录下的所有以”.html”为后缀的URL(包含子目录)

      User-agent:*
      Disallow:/abc/*.html

      7.仅允许访问以”.html”为后缀的URL

      User-agent:*
      Allow:.html$
      Disallow:/

      8.禁止访问网站中所有的动态页面

      User-agent:*
      Disallow:/*?*

      9.禁止抓取网站上所有图片

      User-agent:*
      Disallow:.jpg$
      Disallow:.jpeg$
      Disallow:.gif$
      Disallow:.png$
      Disallow:.bmp$

      济南seo提示您:如果还有其他格式,可以再进行添加Disallow:如果允许抓取某一类型的图片,将“Disallow”修改为“Allow”即可。

      注意以上格式中空格和“/”的使用

      10.允许所有搜索引擎抓取,将自己的网站地图放进robots.txt文件

      User-agent:*
      Disallow:
      Sitemap:http://www.jngenan.com/sitemap1.xml

      robots.txt存在的问题比较多,大家有什么疑问也可以直接留言,方便进一步完善robots.txt常见问题,济南网站优化希望您你一起成长。

  • 客服在线
  • 客服在线