相信大部分SEO优化新手以及经常在网上寻找怎么优化网站的小伙伴,都经常会见到一个网站优化内容,那就是robots.txt文件,在很多情况下,我们都会习惯性的去查看一下这个robots文件,足以说明其重要性了,那网站robots是什么意思呢?又该怎么设置这个robots文件呢?
一、网站robots的意义
网站robots文件其实就是一种网站和搜索引擎蜘蛛之间的协议,也就是以txt格式的文本方式告诉蜘蛛在网站上的爬取权限,或者说是引导蜘蛛爬取网站的一个文件,而这个文件其实也是搜索引擎蜘蛛访问网站首先查看的文件,所以通常情况下,网站的robots文件都是放在根目录下的,以便于通过这份协议来对网站进行一些优化工作。
当蜘蛛前来网站时,会先检查网站的根目录是否存在robots文件,如果有就会按照文件协议中的内容来确定访问范围,如果没有那就会访问所有的页面,这里就需要注意,当网站没有设置robots文件的时候,蜘蛛就很可能在网站中发现一些我们自己无法发现的对网站优化不利的内容,比如说某些空白页面。
二、网站设置robots文件的好处
很明显人力有时尽,所以合理的设置robots文件还是能够为网站优化带来一定的好处的:
1、可以避免蜘蛛爬取收录我们不想展现给别人看的页面。例如网站后台地址,个人隐私日志等;
2、可以减轻网站服务器压力,通过robots协议可以让蜘蛛只抓取一部分页面,避免蜘蛛胡乱抓取一些没用的页面,占用服务器资源;
3、合理正确的对robots协议进行一定的优化,可以起到提升整站质量、促使快速收录排名,从而提高网站权重的作用。
三、网站robots文件的设置方法
网站robots文件的设置,主要是用一些代码来进行的,常用的就是不允许访问(Disallow)和允许访问(Allow)两个,在代码的后面使用英文冒号来作为引导,之后跟随使用网站目录或者文件来作为目标内容,具体的写法如下:
User-agent: *(*代表的所有的搜索引擎种类,*是一个通配符)
Disallow: /admin/(禁止爬寻admin目录下面的目录)
Disallow: /require/(禁止爬寻require目录下面的目录)
Disallow: /ABC/(禁止爬寻ABC整个目录)
Disallow: /cgi-bin/*.htm(禁止访问/cgi-bin/目录下的所有以“.htm”为后缀的URL,包含子目录)
Disallow: /*?*(禁止访问网站中所有的动态页面)
Disallow: /jpg$(禁止抓取网页所有的.jpg格式的图片)
Disallow: /ab/adc.html(禁止爬取ab文件夹下面的adc.html文件)
Allow: /cgi-bin/(允许爬寻cgi-bin目录下面的目录)
Allow: /tmp(允许爬寻tmp的整个目录)
Allow: .htm$(仅允许访问以“.htm”为后缀的URL)
Allow: .gif$(允许抓取网页和gif格式图片robots.txt文件)
以上就是设置网站robots文件的基本基本写法,大家可以根据自己想要屏蔽的或者想要展示给蜘蛛看的内容,对代码后的指向目标按照上述格式进行修改,需要注意的是,每个英文冒号后面并不是直接跟着目标内容的,而是插入一个空格,再指向目标内容。
现在大家应该都明白网站robots是什么意思了,当我们进一步的了解到蜘蛛的语言,以及更加专业的网站优化知识后,其实是可以利用这个robots文件来进行网站优化的,尤其是利用php代码来实现的一些优化手段,但是这里小编并不建议大家上手进行,简单的利用robots文件对蜘蛛进行引导即可,以免某些不必要的麻烦,毕竟那么多的代码,除了专业的编程人员外,新手是很难找出里面的错误的。