robots协议的原理

SEO技术部：乐清网站建设 01-04 转载自:www.dqol.net

robots是网站和搜索引擎之间的一个协议，那么他有什么作用呢，说这个咱们需要搞清楚搜索引擎爬虫的原理。当蜘蛛下载一个网页;保存一个txt纯文本，就是那个快照缓存文本。爬虫还会提取一些标记和标签比如a标签。他把站外的链接和内部链接进行分开然后再次抓取。就是这样来连接整个互联网。这个就是一个爬去原理。这就出现了一个问题，如果咱们不想让爬虫爬取，那怎么办呢，于是就出现了一个协议，叫做robots协议。robots协议的早期是防止网站内的隐私，防止抓取用户不用想让搜索引擎进行曝光的页面。

　　robots协议，他是一个协议不是一个命令，命令是马上要执行的，而协议是在搜索引擎的爬虫爬取后一段时间后才会生效，百度和google声明24小时就会生效，事实上并非如此我观察了一下，有的页面甚至一个月才会生效，我给robots协议生效的时间做了一个总结，那就是24小时到一个月。那么robots协议到底有什么作用呢。robots协议用得好，会让我们网站边的更纯净，下面一起来看一下。

　　1.可以屏蔽无内容页面，我内容页面比如说登陆页打印页个人信息页商城的购物页等等大家都知道江礼坤无内容页面会影响页面和全站的质量以及权重。

　　2.可以屏蔽重复页面，比如页面的简写版本以及空评论页，再或者多个路径可以打开同一页面，等等重复页面。重复的页面对于站内页面的质量也是会受到非常严重的影响的。

　　3.可以屏蔽死链接。当然站内的错误和服务器问题，所造成的死链接是没办法屏蔽的。

　　robots语法，他一共有三个语法，第一个 Disallow：禁止的意思第二个 Allow 允许的意思第三个User-agent:定义搜索引擎的。当然有的robots文件开头和结尾有“#”这个字符是注释的意思搜索引擎会忽略。还有两个通配符，“$”和“*” “$”这个是结束符(所有以他结尾的都能够进行匹配。)。“*”是匹配零或者多个任意字符。这里说三个大家一直很难理解的地方。

　　禁止语法：Disallow

　　请看这个代码 Disallow: /seo/ 禁止该网站的 SEO目录;Disallow: /seo 它不仅仅能够禁seo这个目录下的路径，他还能够禁止所有以SEO开头的目录和文件。这里的斜杠代表目录。如果Disallow: /直接加斜杠就代表禁止根目录。没有禁止的页面，默认是允许的这样也许大家会有疑问，既然默认是允许还要Allow这个允许含义的语法有何意义?下面我就来举例说一下。

　　允许语法：Allow

　　Disallow: /citations?

　　Allow: /citations?user=

　　Allow: /citations?view_op=new_***ofile

　　这三条代码的意思是禁止所有以citations?开头的所有路径。但是除了 “Allow”允许的两个路径。其实allow的用处就是简写robots代码。让robots文件变得更精简。

　　通配符“$”的使用

　　Disallow: /places/

　　Allow: /places/$

　　只收录 /places/ 这个路径不收录这个路径里面所有的页面和路径。

　　robots语法对网站非常重要，运用好robots会让你的网站更健康更纯净。

版权申明: 本文转载自网络，转载的目的在于传递更多信息及网络分享，并不代表本站赞同文章的观点和对文章的真实性负责。做为非盈利性个人网站，站长没权力也没能力承担任何经济及法律责任。如若本站的文章侵犯了你的相关权益，请联系站长删除或修正。

上一篇：开源网店商城系统比较
下一篇：谷歌网站管理员博客对于改善网站的若干基本建

robots协议的原理

站长微信：QQ595915035

微信公众号：乐清上班族

微信公众号：青年有声杂志

网站宣传位置

有偿服务

个人优势

联系方式

robots协议的原理

站长微信：QQ595915035

微信公众号： 乐清上班族

微信公众号： 青年有声杂志

网站宣传位置

有偿服务

个人优势

联系方式

微信公众号：乐清上班族

微信公众号：青年有声杂志