robots协议是什么意思?robots.txt文件的作用是什么?

robots实际上指的是robots协议(也称为爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。

robots协议是什么意思

而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项,今天将在本文中向大家详细介绍。

一、robots.txt文件的含义,robots.txt的作用是什么

如前所述,该文本文件带有robots协议,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。这有两个意思:

1、保护隐私。有些目录或页面不希望或不能被外界看到。有些搜索引擎可能不知道这些情况,它仍会像往常一样抓取并显示这些页面。如果我们通过robots来设置限制,搜索引擎蜘蛛将会放弃爬行,外界将无法通过搜索引擎知道这些保密信息。

2、调整抓取页面的数量。众所周知,每个网站上蜘蛛爬行的配额是有限的,如果我们禁止一些不重要的页面不被抓取,那么将配额留给那些重要的页面,会有更多的机会被抓取。

二、robots.txt文件的写法

robots协议针对允许或禁止,也可以设置特定的搜索引擎,其实在正常情况下,没有必要区分搜索引擎,而是统一设置允许抓取。

1、所有搜索引擎都被禁止访问网站

User-agent: *

Disallow: /

2、允许所有搜索引擎访问网站

User-agent: *

Allow: /

3、禁止所有蜘蛛访问网站的某个目录

User-agent:*

Disallow: /test/

这是最基本的用法,robots协议的使用有很多技巧,我建议大家仔细阅读其协议。

三、robots.txt文件相关注意事项

有些站长说我的网站上没有任何禁止爬行的页面,所以不用设置robots文件,这在理论上行得通。然而我建议,即使网站是完全开放的,最好建立一个robots文件,比如我网站的文件:https://www.krseo.com/robots.txt,通常放在网站的根目录下。

SEO运营课程

最后,如果你想了解一下SEO行业的推广逻辑和推广方法,或者是有计划想通过SEO来进行创业或者进行就业、变现赚钱的你,不妨看看这个专属的SEO配套课程:

SEO推广体系课

特别申明:本站的主旨在于收集互联网运营相关的干货知识,给运营小伙伴提供便利。网站所收集到的公开内容均来自于互联网或用户投稿,并不代表本站认同其观点,也不对网站内容的真实性负责,如有侵权,请联系站长删除,转载请注明出处:robots协议是什么意思?robots.txt文件的作用是什么?:https://www.zcly.cn/103146.html。
(0)
网站运营师的头像网站运营师贡献者
上一篇 2022年11月30日 18:14
下一篇 2022年12月1日 05:16

猜你喜欢

发表回复

登录后才能评论

QQ:1124602020
微信:vl54120
备注:周一至周五全天在线,周末可能不在线,另外联系时,请告知来意。

公众号
交流群
运营狗会员,开通可享海量资源与多项权益,点击了解详情