WordPress 科学的创建robots协议
一、什么是robots协议
Robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在Robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
简单点,就是告诉搜索引擎你的网站哪些网页可以收录,哪些不要收录!
二、怎么创建robots
一个robots.txt的文件中一般由以下内容组成:
1 2 3 4 5 6 7 8 9 | <strong>User-agent:</strong> User-agent:是用来指定搜索引擎的,这里我们网站一般是允许搜索引擎访问的,因此书写为“User-agent: * ”,这里的“ * ”是通用命令符。 <strong>Disallow:</strong> 在上面我们已经说了“Disallow: ”就是禁止抓取的意思,使用“Disallow: ”我们告诉搜索引擎那些网站内容不允许收录和抓取。 <strong>Allow:</strong> “Allow:”是允许的意思,也就是我使用“Allow:”可以告诉搜索引擎那些网站内容可以被收录抓取。 <strong>Sitemap:</strong> “Sitemap:”用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。 |
三、wordpress的robots
知道上述以后我们就可以来创建一个robots.txt文件,我们可以在百度站长平台来创建,然后检测有没有错误。当然也可以本地直接创建后,上传到网站根目录也是没问题的。下面是我收集网上的一些大神创建的robots。给大家分享
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 | User-agent: * Allow: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /wp- Disallow: /wp-* Disallow: /wp-*.php Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /*?connect=* Disallow: /page/ Disallow: /page/* Disallow: /*/*/page/ Disallow: /page/1$ Disallow: /date/ Disallow: /xmlrpc.php Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /trackback/ Disallow: /*/trackback Disallow: */trackback Disallow: /*/*/trackback Disallow: /feed Disallow: /feed/ Disallow: /*/feed Disallow: */feed Disallow: */feed*/feed Disallow: /*/*/feed Disallow: /comments/ Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /*/?s=* Disallow: /?p=* Disallow: /?p=*&preview=true Disallow: /?page_id=*&preview=true Disallow: /attachment/ Disallow: /wp-login.php Allow: /wp-content/uploads/ Sitemap: https://wuean.com/sitemap.xml |
下面是所写内容的注释,大家可根据需求修改、删除
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 | User-agent: *? ?开始配置:所有搜索引擎 Allow: *? ?允许所有搜索引擎访问*目录(包括子目录) Disallow: /wp-admin/? ?禁止所有搜索引擎访问/wp-admin目录 Disallow: /wp-content/? ?禁止所有搜索引擎访问/wp-content目录 Disallow: /wp-includes/? ?禁止所有搜索引擎访问/wp-includes目录 Disallow: /wp-? ?禁止所有搜索引擎访问/wp-目录(包括子目录) Disallow: /wp-*? ?禁止所有搜索引擎访问/wp-*目录(包括子目录) Disallow: /wp-*.php ?禁止所有搜索引擎访问根目录下的wp-*.php文件 Disallow: /wp-content/plugins ?禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录) Disallow: /wp-content/themes ?禁止所有搜索引擎访问/wp-content/themes目录(包括子目录) Disallow: /*?connect=*? ?禁止所有搜索引擎访问/*,参数为connect=*的页面 Disallow: /page/? ?禁止所有搜索引擎访问/page目录 Disallow: /page/*? ?禁止所有搜索引擎访问/page/*目录(包括子目录) Disallow: /*/*/page/? ?禁止所有搜索引擎访问/*/*/page目录 Disallow: /page/禁止所有搜索引擎访问所有以/page结尾的文件 Disallow: /date/? ?禁止所有搜索引擎访问/date目录 Disallow: /xmlrpc.php ?禁止所有搜索引擎访问根目录下的xmlrpc.php文件 Disallow: /*/comment-page-*? ?禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录) Disallow: /*?replytocom=*? ?禁止所有搜索引擎访问/*,参数为replytocom=*的页面 Disallow: /category/*/page/? ?禁止所有搜索引擎访问/category/*/page目录 Disallow: /tag/*/page/? ?禁止所有搜索引擎访问/tag/*/page目录 Disallow: /trackback/? ?禁止所有搜索引擎访问/trackback目录 Disallow: /*/trackback ?禁止所有搜索引擎访问/*/trackback目录(包括子目录) Disallow: */trackback ?禁止所有搜索引擎访问*/trackback目录(包括子目录) Disallow: /*/*/trackback ?禁止所有搜索引擎访问/*/*/trackback目录(包括子目录) Disallow: /feed ?禁止所有搜索引擎访问/feed目录(包括子目录) Disallow: /feed/? ?禁止所有搜索引擎访问/feed目录 Disallow: /*/feed ?禁止所有搜索引擎访问/*/feed目录(包括子目录) Disallow: */feed ?禁止所有搜索引擎访问*/feed目录(包括子目录) Disallow: */feed*/feed ?禁止所有搜索引擎访问*/feed*/feed目录(包括子目录) Disallow: /*/*/feed ?禁止所有搜索引擎访问/*/*/feed目录(包括子目录) Disallow: /comments/? ?禁止所有搜索引擎访问/comments目录 Disallow: /comments/feed ?禁止所有搜索引擎访问/comments/feed目录(包括子目录) Disallow: /?s=*? ?禁止所有搜索引擎访问任何带参数的页面 Disallow: /*/?s=*\? ?禁止所有搜索引擎访问/*/?s=*目录下任何带参数的页面 Disallow: /*/?s=*? ?禁止所有搜索引擎访问/*目录下任何带参数的页面 Disallow: /?p=*? ?禁止所有搜索引擎访问任何带参数的页面 Disallow: /?p=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面 Disallow: /?page_id=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面 Disallow: /attachment/? ?禁止所有搜索引擎访问/attachment目录 Disallow: /wp-login.php ?禁止所有搜索引擎访问根目录下的wp-login.php文件 Allow: /wp-content/uploads/? ?允许所有搜索引擎访问/wp-content/uploads目录 Sitemap: https://wuean.com/sitemap.xml 告诉搜索引擎本站的sitemap文件 |
本站演示
可直接复制