robots协议的原理
robots是网站和搜索引擎之间的一个协议,那么他有什么作用呢,说这个咱们需要搞清楚搜索引擎爬虫的原理。当蜘蛛下载一个网页;保存一个txt纯文本,就是那个快照缓存文本。爬虫还会提取一些标记和标签比如a标签。他把站外的链接和内部链接进行分开然后再次抓取。就是这样来连接整个互联网。这个就是一个爬去原理。这就出现了一个问题,如果咱们不想让爬虫爬取,那怎么办呢,于是就出现了一个协议,叫做robots协议。robots协议的早期是防止网站内的隐私,防止抓取用户不用想让搜索引擎进行曝光的页面。
robots协议,他是一个协议不是一个命令,命令是马上要执行的,而协议是在搜索引擎的爬虫爬取后一段时间后才会生效,百度和google声明24小时就会生效,事实上并非如此我观察了一下,有的页面甚至一个月才会生效,我给robots协议生效的时间做了一个总结,那就是24小时到一个月。那么robots协议到底有什么作用呢。robots协议用得好,会让我们网站边的更纯净,下面一起来看一下。
1.可以屏蔽无内容页面,我内容页面比如说 登陆页 打印页 个人信息页 商城的购物页等等 大家都知道江礼坤无内容页面会影响页面和全站的质量以及权重。
2.可以屏蔽重复页面,比如页面的简写版本以及空评论页,再或者多个路径可以打开同一页面,等等重复页面。重复的页面对于站内页面的质量也是会受到非常严重的影响的。
3.可以屏蔽死链接。当然站内的错误和服务器问题,所造成的死链接是没办法屏蔽的。
robots语法,他一共有三个语法,第一个 Disallow:禁止的意思 第二个 Allow 允许的意思 第三个User-agent:定义搜索引擎的。当然有的robots文件开头和结尾有“#”这个字符是注释的意思搜索引擎会忽略。还有两个通配符,“$”和“*” “$”这个是结束符(所有以他结尾的都能够进行匹配。)。“*”是匹配零或者多个任意字符。这里说三个大家一直很难理解的地方。
禁止语法:Disallow
请看这个代码 Disallow: /seo/ 禁止 该网站的 SEO目录;Disallow: /seo 它不仅仅能够禁seo这个目录下的路径,他还能够禁止所有以SEO开头的目录和文件。这里的斜杠代表目录。如果Disallow: /直接加斜杠就代表禁止根目录。没有禁止的页面,默认是允许的这样也许大家会有疑问,既然默认是允许还要Allow这个允许含义的语法有何意义?下面我就来举例说一下。
允许语法:Allow
Disallow: /citations?
Allow: /citations?user=
Allow: /citations?view_op=new_***ofile
这三条代码的意思是禁止所有以citations?开头的所有路径。但是除了 “Allow”允许的两个路径。其实allow的用处就是简写robots代码。让robots文件变得更精简。
通配符“$”的使用
Disallow: /places/
Allow: /places/$
只收录 /places/ 这个路径不收录这个路径里面所有的页面和路径。
robots语法对网站非常重要,运用好robots会让你的网站更健康更纯净。
版权申明: 本文转载自网络,转载的目的在于传递更多信息及网络分享,并不代表本站赞同文章的观点和对文章的真实性负责。做为非盈利性个人网站,站长没权力也没能力承担任何经济及法律责任。如若本站的文章侵犯了你的相关权益,请联系站长删除或修正。
- 上一篇:开源网店商城系统比较
- 下一篇:谷歌网站管理员博客对于改善网站的若干基本建