在我们日常网站优化当中,很多优化人员其实都忽略了robots协议,认为它不总要,其实我们在优化网站当中把robots协议用好了,可以让蜘蛛爬虫更好的爬去网站和结构,作用非常大!接下来就为大家讲解robot协议和作用是什么。
一、什么是robots协议?
简单核心的来表达就是:robots协议就是告诉蜘蛛爬虫网站那些页面可以被搜索引擎抓取,哪些页面却不能够被搜索引擎抓取的。
二、robots协议文件常见写法
目前位置robots协议文件写法有如下:
1)user-agent:* 这里的*代表对所有的搜索引擎种类类型,*其实就是通配符的意思。
2)allow:/ 是代表所有的robots允许访问。
3)Disallow: /是代表所有的robots不允许访问。
根据这三个要求来划分,可以对网站目录里面相应的文件进行允许和限制访问,具体禁止和允许网站目录里面不同层级的文件,可以具体查看百度官方文件说明,在这里就不具体个个的来说了。因为一说可以写很多,很占位置。这里只说最核心的。
三、robots文件的作用有哪些?
关于robots文本的作用今就为大家全面的讲一讲:
1)可以让网站那些图片不进行抓取,那些图片可以让蜘蛛来爬去,进行有机会在搜索引擎搜索的时候有机会出图。
2)可以让你网站里面如果有音乐或者是视频的话进行禁止抓取,可以节省服务器宽带的加载,让服务器可以更快的畅行。
3)可以让你网站本来的一些js、asp、php网站禁止抓取,目的是为了节省更多蜘蛛爬去的时间去抓取更有用的页面。促进网站收录率。
4)还可以屏蔽你网站一些死链接,更好的让搜索引擎去抓取网站其他的内容,免得每次蜘蛛都有是可能抓取一次死链接的,这样就是浪费了蜘蛛的爬行量。
robots协议为啥有这么大的作用,原因是蜘蛛访问网站的时候首先是访问的这个robots协议,蜘蛛进入到这协议里面进行抓取。这是国际互联网界通行的道德规范,都是一致认可的,而且goole对这个协议反应的效果的最及时的,很快就执行下去的。
四、robots协议文件存放目录什么地方?
目前基本上robots.txt文件协议其实都是存放在网站根目录下,如dede、phpcms 帝国、zbolog等网站开源管理系统robots协议都是放在网站根目录下的。搜索引擎能第一个进行抓取。
五、网站地图为啥要放到robots协议里面?
网站地图的三种后缀形式.xml,txt,html,都是可以放到robots协议里面的,原因是这三种地图包含了网站的核心结构,可以引导搜索引擎爬虫更好的理解网站架构和目录形式,就如一个的身体器官一样,而且.xml、.txt后缀形式的网站地图都是如果网站有新的更新情况的下,这里的网站地图也是跟着更新的,能时时的发现网站架构及时的作出更新进行网站下一步的判断。
总结:总之robots文本协议还有很多的作用,在这里就不一一阐述了。以上只是比较核心的讲解了robots协议是什么,作用是什么,和一些和有关robots协议的知识。