以下域名转让或合作:电气 大庆DQOL.NET,电工 东莞DGOL.NET,投资 台州TZOL.NET,金融 句容JROL.NET ,有声杂志YouShengZaZhi.COM 乐音清和 YueYinQingHe.COM
当前位置:乐清SEO_百度优化_

robots协议的原理

SEO技术部: 乐清网站建设 01-04 转载自:www.dqol.net robots

robots是网站和搜索引擎之间的一个协议,那么他有什么作用呢,说这个咱们需要搞清楚搜索引擎爬虫的原理。当蜘蛛下载一个网页;保存一个txt纯文本,就是那个快照缓存文本。爬虫还会提取一些标记和标签比如a标签。他把站外的链接和内部链接进行分开然后再次抓取。就是这样来连接整个互联网。这个就是一个爬去原理。这就出现了一个问题,如果咱们不想让爬虫爬取,那怎么办呢,于是就出现了一个协议,叫做robots协议。robots协议的早期是防止网站内的隐私,防止抓取用户不用想让搜索引擎进行曝光的页面。

  robots协议,他是一个协议不是一个命令,命令是马上要执行的,而协议是在搜索引擎的爬虫爬取后一段时间后才会生效,百度和google声明24小时就会生效,事实上并非如此我观察了一下,有的页面甚至一个月才会生效,我给robots协议生效的时间做了一个总结,那就是24小时到一个月。那么robots协议到底有什么作用呢。robots协议用得好,会让我们网站边的更纯净,下面一起来看一下。

  1.可以屏蔽无内容页面,我内容页面比如说 登陆页 打印页 个人信息页 商城的购物页等等 大家都知道江礼坤无内容页面会影响页面和全站的质量以及权重

  2.可以屏蔽重复页面,比如页面的简写版本以及空评论页,再或者多个路径可以打开同一页面,等等重复页面。重复的页面对于站内页面的质量也是会受到非常严重的影响的。

  3.可以屏蔽死链接。当然站内的错误和服务器问题,所造成的死链接是没办法屏蔽的。

  robots语法,他一共有三个语法,第一个 Disallow:禁止的意思 第二个 Allow 允许的意思 第三个User-agent:定义搜索引擎的。当然有的robots文件开头和结尾有“#”这个字符是注释的意思搜索引擎会忽略。还有两个通配符,“$”和“*” “$”这个是结束符(所有以他结尾的都能够进行匹配。)。“*”是匹配零或者多个任意字符。这里说三个大家一直很难理解的地方。

  禁止语法:Disallow

  请看这个代码 Disallow: /seo/ 禁止 该网站的 SEO目录;Disallow: /seo 它不仅仅能够禁seo这个目录下的路径,他还能够禁止所有以SEO开头的目录和文件。这里的斜杠代表目录。如果Disallow: /直接加斜杠就代表禁止根目录。没有禁止的页面,默认是允许的这样也许大家会有疑问,既然默认是允许还要Allow这个允许含义的语法有何意义?下面我就来举例说一下。

  允许语法:Allow

  Disallow: /citations?

  Allow: /citations?user=

  Allow: /citations?view_op=new_***ofile

  这三条代码的意思是禁止所有以citations?开头的所有路径。但是除了 “Allow”允许的两个路径。其实allow的用处就是简写robots代码。让robots文件变得更精简。

  通配符“$”的使用

  Disallow: /places/

  Allow: /places/$

  只收录 /places/ 这个路径不收录这个路径里面所有的页面和路径。

  robots语法对网站非常重要,运用好robots会让你的网站更健康更纯净。

版权申明: 本文转载自网络,转载的目的在于传递更多信息及网络分享,并不代表本站赞同文章的观点和对文章的真实性负责。做为非盈利性个人网站,站长没权力也没能力承担任何经济及法律责任。如若本站的文章侵犯了你的相关权益,请联系站长删除或修正。

乐清SEO站长温州青年
八零后,资深站长。业余SEO爱好者。本人非科班出身,非SEO技术大牛,在温州SEO/SEM业界无排名

站长微信:QQ595915035

微信公众号: 乐清上班族

微信公众号: 青年有声杂志

网站宣传位置