网上赚钱
我们是认真的

论WordPress网站robots.txt的正确写法

对于现在很多网赚博客的博主来说,wordpress大概是百分之80以上站长的选择。而加入百度的站长联盟的一些站长或许看到过这样的消息提醒,那就是robot文件配置不正确,如下图:

百度站长消息

其实,这个状况对于每一个wordpress网站来说都是一样的,因为wordpress本身默认的robot文件就是这么设定的。至于我们为了优化自己的网站和收录,需要对robot文件进行重写,之前我没太在意,但今天看到朋友写的一篇文章很实用,是《论WordPress网站robots.txt的正确写法》在这里就转载了,以下是正文。

 

robots.txt文件是一个应该存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写robots.txt文件显得尤为重要。

WordPress博客程序默认是有自动生成robots.txt文件,但是文件很简单,只有三行代码:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

很显然WordPress自动生成的robots.txt文件有点草率,明显是不适应网站搜索引擎优化的,因此,为WordPress网站手动编写robots.txt文件应该成为建站的重要工作。

编写robots.txt必须要谨慎,否则一不小心输入错误,就会导致整个网站收录情况受到影响,得不偿失! 所以特别写来此文来论述一下robots.txt的正确写法

 

robots.txt的基本语法

要编写就要先了解,robots.txt也是有自己的规则的。

 

文件头部规则:

robots.txt文件的开头为User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入

User-agent:Baiduspider

如果要对全体搜索引擎起作用,则输入

User-agent: *

 

Disallow规则:

Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/  表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

 

Allow规则:

Allow规则同Disallow。

 

*和$的使用规则:

*表示通配符

Disallow: /cgi-bin/*.htm

表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。

Disallow: /*?replytocom=

表示禁止收录含有“replytocom=”字符的地址。

$用于通指禁止访问某后缀的文件

Disallow: /*.css$

表示禁止收录以css后缀的文件。

 

Sitemap规则:

Sitemap用来告诉搜索引擎网站地图的位置

Sitemap: http://www.uye8.com/sitemap.xml

 

针对WordPress网站的robots.txt的编写

WordPress的结构简单易懂,对WordPress的robots.txt编写还是比较简单的。

为了避免收录WordPress系统文件:

Disallow: /wp-admin/

Disallow: /wp-includes/ (这两条是WordPress自动生成的,一定要保留)

Disallow: /wp-content/plugins (禁止收录插件目录)

Disallow: /wp-content/themes  (禁止收录模板目录)

Disallow: /wp-content/uploads (看个人喜好,如果希望网站的图片被收录,则可以去掉这条)

 

为了避免收录重复的内容:

Disallow: /feed

Disallow: /articles/*/feed  (这两条用来禁止收录内容重复的feed源)

Disallow: /tag/  (用于禁止收录tag标签页)

Disallow: /category/  (用于禁止收录文章目录,因为此页面都是无意义的文章列表)

Disallow: /page/  (禁止收录翻页的页面)

Disallow: /*?replytocom= (禁止收录评论页面)

Disallow: /trackback (禁止收录trackback,如果关闭了此功能可以删掉)

Disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)

 

为了正确引导搜索引擎找到网址地图(如果有的话)

Sitemap: http://www.uye8.com/sitemap_baidu.xml

 

总结全部的robots.txt全文如下:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/uploads
Disallow: /feed
Disallow: /articles/*/feed
Disallow: /tag/
Disallow: /category/
Disallow: /page/
Disallow: /*?replytocom=
Disallow: /trackback
Disallow: /*?*
Sitemap: http://www.uye8.com/sitemap_baidu.xml

 

将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,千万不要搞错放在了主题文件夹里面,检查方式可以直接在地址栏上输入“域名+robots.txt”,如果能正确访问就可以。

建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。

原文地址

赞(0)
本文系苍松网赚原创转载须注明版权:苍松网赚 » 论WordPress网站robots.txt的正确写法

评论 3

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    貌似wordpress对于robots没有默认对百度屏蔽吧

    淘金笔记5年前 (2014-03-09)回复
    • 对,但是处理的比较草率

      小虾5年前 (2014-03-09)回复
  2. #2

    这个我没注意过,学习了

    island5年前 (2014-03-09)回复

苍松网赚 更好的网络赚钱兼职项目平台

联系我们联系我们