WordPress 科学的创建robots协议

Gavin Wu 2022年03月14日 8:03 Wordpress 1,017 Views
前言

最近重新把wordpress整理了一下。发现robots丢了,就重新提交了一下,发现出现错误。就把结合网上大神们写的wordpress的robots文件与大家分享一下。

一、什么是robots协议

Robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在Robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
简单点,就是告诉搜索引擎你的网站哪些网页可以收录,哪些不要收录!

二、怎么创建robots

一个robots.txt的文件中一般由以下内容组成:

1
2
3
4
5
6
7
8
9
<strong>User-agent:</strong>
User-agent:是用来指定搜索引擎的,这里我们网站一般是允许搜索引擎访问的,因此书写为“User-agent: * ”,这里的“ * ”是通用命令符。
<strong>Disallow:</strong>
在上面我们已经说了“Disallow: ”就是禁止抓取的意思,使用“Disallow: ”我们告诉搜索引擎那些网站内容不允许收录和抓取。
<strong>Allow:</strong>
“Allow:”是允许的意思,也就是我使用“Allow:”可以告诉搜索引擎那些网站内容可以被收录抓取。
<strong>Sitemap:</strong>

“Sitemap:”用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。

三、wordpress的robots

知道上述以后我们就可以来创建一个robots.txt文件,我们可以在百度站长平台来创建,然后检测有没有错误。当然也可以本地直接创建后,上传到网站根目录也是没问题的。下面是我收集网上的一些大神创建的robots。给大家分享

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
User-agent: *
Allow: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-
Disallow: /wp-*
Disallow: /wp-*.php
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /*?connect=*
Disallow: /page/
Disallow: /page/*
Disallow: /*/
*/page/
Disallow: /page/1$
Disallow: /date/
Disallow: /xmlrpc.php
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/
page/
Disallow: /tag/*/page/
Disallow: /trackback/
Disallow: /*/
trackback
Disallow: */trackback
Disallow: /*/*/trackback
Disallow: /feed
Disallow: /feed/
Disallow: /*/feed
Disallow: */
feed
Disallow: */feed*/feed
Disallow: /*/*/feed
Disallow: /comments/
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*/
?s=*
Disallow: /?p=*
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /attachment/
Disallow: /wp-login.php
Allow: /wp-content/uploads/
Sitemap: https://wuean.com/sitemap.xml

下面是所写内容的注释,大家可根据需求修改、删除

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
User-agent: *? ?开始配置:所有搜索引擎
Allow: *? ?允许所有搜索引擎访问*目录(包括子目录)
Disallow: /wp-admin/? ?禁止所有搜索引擎访问/wp-admin目录
Disallow: /wp-content/? ?禁止所有搜索引擎访问/wp-content目录
Disallow: /wp-includes/? ?禁止所有搜索引擎访问/wp-includes目录
Disallow: /wp-? ?禁止所有搜索引擎访问/wp-目录(包括子目录)
Disallow: /wp-*? ?禁止所有搜索引擎访问/wp-*目录(包括子目录)
Disallow: /wp-*.php ?禁止所有搜索引擎访问根目录下的wp-*.php文件
Disallow: /wp-content/plugins ?禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录)
Disallow: /wp-content/themes ?禁止所有搜索引擎访问/wp-content/themes目录(包括子目录)
Disallow: /*?connect=*? ?禁止所有搜索引擎访问/*,参数为connect=*的页面
Disallow: /page/? ?禁止所有搜索引擎访问/page目录
Disallow: /page/*? ?禁止所有搜索引擎访问/page/*目录(包括子目录)
Disallow: /*/
*/page/? ?禁止所有搜索引擎访问/*/*/page目录
Disallow: /page/禁止所有搜索引擎访问所有以/page结尾的文件
Disallow: /date/? ?禁止所有搜索引擎访问/date目录
Disallow: /xmlrpc.php ?禁止所有搜索引擎访问根目录下的xmlrpc.php文件
Disallow: /*/comment-page-*? ?禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录)
Disallow: /*?replytocom=*? ?禁止所有搜索引擎访问/*,参数为replytocom=*的页面
Disallow: /category/*/
page/? ?禁止所有搜索引擎访问/category/*/page目录
Disallow: /tag/*/
page/? ?禁止所有搜索引擎访问/tag/*/page目录
Disallow: /trackback/? ?禁止所有搜索引擎访问/trackback目录
Disallow: /*/
trackback ?禁止所有搜索引擎访问/*/trackback目录(包括子目录)
Disallow: */
trackback ?禁止所有搜索引擎访问*/trackback目录(包括子目录)
Disallow: /*/*/trackback ?禁止所有搜索引擎访问/*/*/trackback目录(包括子目录)
Disallow: /feed ?禁止所有搜索引擎访问/feed目录(包括子目录)
Disallow: /feed/? ?禁止所有搜索引擎访问/feed目录
Disallow: /*/feed ?禁止所有搜索引擎访问/*/feed目录(包括子目录)
Disallow: */feed ?禁止所有搜索引擎访问*/feed目录(包括子目录)
Disallow: */feed*/feed ?禁止所有搜索引擎访问*/feed*/feed目录(包括子目录)
Disallow: /*/*/feed ?禁止所有搜索引擎访问/*/*/feed目录(包括子目录)
Disallow: /comments/? ?禁止所有搜索引擎访问/comments目录
Disallow: /comments/feed ?禁止所有搜索引擎访问/comments/feed目录(包括子目录)
Disallow: /?s=*? ?禁止所有搜索引擎访问任何带参数的页面
Disallow: /*/?s=*\? ?禁止所有搜索引擎访问/*/?s=*目录下任何带参数的页面
Disallow: /*/?s=*? ?禁止所有搜索引擎访问/*目录下任何带参数的页面
Disallow: /?p=*? ?禁止所有搜索引擎访问任何带参数的页面
Disallow: /?p=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面
Disallow: /?page_id=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面
Disallow: /attachment/? ?禁止所有搜索引擎访问/attachment目录
Disallow: /wp-login.php ?禁止所有搜索引擎访问根目录下的wp-login.php文件
Allow: /wp-content/uploads/? ?允许所有搜索引擎访问/wp-content/uploads目录
Sitemap: https://wuean.com/sitemap.xml 告诉搜索引擎本站的sitemap文件

本站演示

可直接复制

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Top