如何创建Robots.txt文件


如何创建Robots.txt文件如果你使用wordpress建站的,那么安装插件rank math seo或其他主流seo插件后,基本都能直接在插件中找到robots.txt文件的编辑功能,你只需要按下文所述,学习如何编辑指令规则即可。
以rank math seo插件为例,你可以按照下图所示,编辑robots.txt文件。
如果你不是用wordpress建站的,且建站系统本身不提供robots.txt编辑功能,你可以按照下文的教程自制。
第一步:本地创建Robots.Txt文件请用记事本或者其他文本型的软件(譬如Emeditor)创建一个名为robots.txt的文件,注意名字不能改,也不能大写,必须全小写。
第二步:编写指令规则Robots.txt文件怎么写呢?请用记事本继续编辑这个文件,输入指令规则,示例如下:user-agent: * #搜索引擎抓取工具名称(即蜘蛛):任意,不限,谁都行Disallow: / #禁止抓取:根目录下的所有内容Allow:/post/ #允许抓取:/post/及其目录下的所有内容上面这段是一组指令规则的构成,你可以参照写多段。
user-agent表示搜索引擎抓取工具的名字,disallow就表示禁止抓取,allow表示允许抓取,#号后的内容为注释,实际使用时可以去掉。
注意,规则部分区分大小写,譬如/post/和/POST/不是相同的内容。
搜索引擎抓取工具的名字是多种多样的,谷歌、百度、必应都各自有自己的蜘蛛,并且每家搜索引擎的蜘蛛还不止一种,譬如谷歌有Googlebot、Googlebot-Image等等,如果你想了解谷歌蜘蛛种类,可以查看此文。
下表是常见的搜索引擎的蜘蛛名称。
我们可以针对不同的蜘蛛写不同的规则,下面以示例进行详解。
下面的指令表示:针对谷歌和百度的蜘蛛,禁止抓取的内容=无,也就是什么都可以抓取。
User-agent: Googlebot User-agent: BaiduspiderDisallow:下面的指令是基于WordPress建站的网址结构的,解释已在备注中User-agent: Googlebot Disallow:/wp-admin/ #禁止抓取wordpress网站后台的内容Disallow:/my-account/ #禁止抓取会员中心目录下的内容Disallow:*/feed/ #wordpress会自动生成feed,为了不消耗抓取份额,可以禁用,其中*表示/feed/之前可以是任意内容Disallow:/?s= #在wordpress网站中,这是关键词搜索结果的网址结构,所以禁止抓取关键词搜索结果页,避免重复内容被抓取Disallow:/*.gif$ #禁止抓取所有gif文件User-agent: *Disallow:/ #除了谷歌,其他搜索引擎都不允许爬取网站Sitemap: https://example.com/sitemap.xml #sitemap规则不是必须写的,但是建议写,以便蜘蛛抓取。
Sitemap: http://www.example.com/sitemap.xml如果你想知道更多的robots.txt规则撰写方法,请点击此处。
第三步:上传文件至网站根目录robots.txt文件应该放到哪里呢?由于网站建站系统不同、服务器架构不同,上传文件的方法没有统一的,譬如可以借助主机的管理面板,又或是用FTP,在连通到网站所在的文件目录后,将robots.txt放在网站所在文件夹第一层中(也就是根目录)。
当成功上传后,通常在浏览器中访问域名/robots.txt就可以查看到文件。
第四步:测试 Robots.Txt 文件测试robots.txt中所写的规则是否正确有效,需借助搜索引擎站长工具中提供的功能,以谷歌为例,我们用google search console的robots.txt测试工具(如下图)来进行测试,但这要求你先要将网站添加到google search console中。
打开工具页面后,在选择资源里找到你的网站当打开测试工具后,我们能看到谷歌获取了我们网站里的robots文件内容,如果你发现它不是最新版的,请把规则部分复制到输入框中,然后点击提交进行更新。
接下来,在图的左下角,输入你需要测试的网址,点击右侧的测试按钮后,系统会反馈已拦截或已允许,当被拦截时,还会突出显示是哪条规则拦截了它。
在图中,你还可以选择爬取工具,默认是Googlebot,表示谷歌全部的爬虫。
你也可以按需选择谷歌图片、视频的爬虫等等。
如果网址是允许抓取的,那么会提示已允许。
所以当发现想要被禁止爬取的网址被允许,那你就要检查一下规则是否撰写正确。
常见问题Robots.Txt文件是必须的吗?可以不要吗?如果你的网站较小,且索引符合你的预期,你可以不要robots.txt文件,主流搜索引擎足够聪明的去识别你的内容。
但建议还是要有一个Robots.txt文件,因为搜索引擎访问网站时,首先就是查阅它。
可以将资源类文件(Css、Js)禁止抓取吗?不要这么做,因为搜索引擎需要靠资源类文件来解读你的网页。
当成功上传后,通常在浏览器中访问域名/robots.txt就可以查看到文件。
第四步:测试 Robots.Txt 文件测试robots.txt中所写的规则是否正确有效,需借助搜索引擎站长工具中提供的功能,以谷歌为例,我们用google search console的robots.txt测试工具(如下图)来进行测试,但这要求你先要将网站添加到google search console中。
打开工具页面后,在选择资源里找到你的网站当打开测试工具后,我们能看到谷歌获取了我们网站里的robots文件内容,如果你发现它不是最新版的,请把规则部分复制到输入框中,然后点击提交进行更新。
接下来,在图的左下角,输入你需要测试的网址,点击右侧的测试按钮后,系统会反馈已拦截或已允许,当被拦截时,还会突出显示是哪条规则拦截了它。
在图中,你还可以选择爬取工具,默认是Googlebot,表示谷歌全部的爬虫。
你也可以按需选择谷歌图片、视频的爬虫等等。
如果网址是允许抓取的,那么会提示已允许。
所以当发现想要被禁止爬取的网址被允许,那你就要检查一下规则是否撰写正确。
常见问题Robots.Txt文件是必须的吗?可以不要吗?如果你的网站较小,且索引符合你的预期,你可以不要robots.txt文件,主流搜索引擎足够聪明的去识别你的内容。
但建议还是要有一个Robots.txt文件,因为搜索引擎访问网站时,首先就是查阅它。
可以将资源类文件(Css、Js)禁止抓取吗?不要这么做,因为搜索引擎需要靠资源类文件来解读你的网页。

未经允许不得转载:选主机测评网 » 如何创建Robots.txt文件