1.robots是什么?

很多新人容易忽略的robots.txt,所以这期来详细的讲解一下robots.txt。

robots是机器人语言,是给蜘蛛看的,而不是给人看的。

这是一个封面图,其中包含标题和关键词。

它是一个文本文件,以.txt的形式存放在网站的根目录,任何搜索引擎都会第一时间访问robots.txt文件。

 

 

2.robots的作用

robots的作用相当于你去别人家里做客,主人会带你去参观屋子,这些是能看的。主人还会告诉你,卧室不能进入,这些是不能看的。

稍微有礼貌的客人就会知道哪些地方是能去的,哪些地方是不能去的。

这就是robots的作用,它会告诉搜索引擎的蜘蛛,你哪里可以去看,哪里不能去看。

 

3.robots的创建和使用

我一般会借助在线工具,比如站长直接或者是爱站,这里演示使用站长之家的robots在线生成工具。

访问:https://tool.chinaz.com/robots

这是站长之家robots在线生成的页面,我们将在这里生成robots。

【限制目录】:一般放admin,user,upload等敏感目录,这些目录不需要收录和排名,所以需要我们屏蔽它们。

【sitemap】:这里是放我们的网站sitemao的地方,有几个放几个。

【检索间隔】:这个是告诉搜索引擎,你多久来一次可以。就跟你不希望你的朋友每天都来找你喝酒一样,你希望搜索引擎多久来一次。当然这个有些搜索引擎遵守,有些搜索引擎不接受,有肯定好过没有。

【所有搜索引擎】:这里选择允许的话就是所有搜索引擎都允许,你要一个个去屏蔽不需要的搜索引擎蜘蛛。

如果你默认拒绝的话,那就要给允许的搜索引擎蜘蛛放开。

 

搜索引擎大全:

Ask/Teoma是美国的一个搜索引擎。由美国的Ask Jeeves公司开发并推出,全球搜索份额少。

Bing是微软公司开发的一种网络搜索引擎,新电脑一般都会先用IE浏览器进行搜搜,那个就是bing搜索,有一定的市场份额,毕竟是微软自家的产品。

雅虎搜索(Yahoo Search)是雅虎公司的搜索引擎,搜索份额少。

Alexa/Wayback,中文名【回溯机】,一般都会称呼它为【时光机】,是用来记录网站快照的,屏蔽这个蜘蛛也没有什么的,只是不让人看你的历史快照。

Cuil搜索,由谷歌的前员工创建,于2010年倒闭。

MSN Search,bing的前身,不屏蔽就行。

Scrub The Web,极其少的人在使用。

DMOZ(Open Directory Project),2017年倒闭。

GigaBlast,美国GigaBlast公司开发,号称不会收集用户的搜索隐私,市场份额较小。

Yahoo MM,yahoo的蜘蛛。
Yahoo Blogs,yahoo的蜘蛛。
MSN PicSearch,bing前身的蜘蛛,还有没有在使用也不清楚。

SOSO,腾讯家的产品,份额小。
有道,网易家的产品,份额小。

谷歌,谷歌就不用说了,世界第一搜索引擎。
百度,百度在国内也是行业龙头的位置。
搜狗,腾讯收购了搜狗,现在微信公众号是可以在搜狗上面进行排名的,份额较大。
360,由奇虎360(Qihoo 360)开发和运营,份额较小。
神马,神马搜索是移动公司家推出的产品,只做移动端市场,早几年势头很火,现在市场份额也小。
夸克,阿里巴巴家推出的产品,曾经想搜索什么都能搜索得到,是什么都能搜索得到!后面被监管后也渐渐萎靡,现在的市场份额也小。

 

我们接下来生成一个robots演示演示:

演示生成一个robots,用来教学。

我们配置好后点击【生成】

生成robots后会有一行代码,我们删掉就可以了。

生成robots后,这里会有一行的代码,这个是站长之家自带的代码,我们删掉就可以了。

User-agent: Baiduspider
Disallow:
User-agent: Sosospider
Disallow:
User-agent: sogou spider
Disallow:
User-agent: YodaoBot
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Slurp
Disallow:
User-agent: ia_archiver
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: MSNBot
Disallow:
User-agent: Scrubby
Disallow:
User-agent: Robozilla
Disallow: /
User-agent: Gigabot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
User-agent: yahoo-mmcrawler
Disallow:
User-agent: yahoo-blogs/v3.9
Disallow:
User-agent: psbot
Disallow:
Crawl-delay: 5
Disallow: /admin/
Disallow: /user/
Sitemap: http://domain.com/sitemap.xml

以上就是我们生成的robots代码,我们复制这些代码,然后打开网站的根目录。

点击新建空白文件,然后把文件名改为robots.txt

点击新建空白文件,改名为robots.txt

把代码粘贴到robots.txt,然后保存就可以了。

把代码粘贴到robots.txt中,然后保存文件就可以了。

保存好后我们访问robots检查一下,看看能不能正常打开。

打开网站/robots.txt检查一下,能正常打开就可以了。

以上就是本期robots.txt的教程,robots虽然是少枝末节,但也是颇为有用。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。