WordPress的replytocom参数避免被百度蜘蛛抓取的解决办法

使用WordPress的朋友会发现,百度会抓取一些类似于587.html?replytocom=111的链接。造成同一个页面重复收录。而且似乎是WordPress程序的通病,大部分主题都是使用这种方法来回复评论的。

而Google却没有收录这样的链接,那是因为在WordPress头部有这样一句话:<link rel=’canonical’ href=’http://liboseo.com/587.html’ /> 。rel=’canonical’参数是告诉抓取的搜索引擎蜘蛛,这个网址才是标准的URL,这样会避免因为尾部有不同参数而重复抓取的情况。很可惜百度不支持这个参数。

而我们其实还有解决方案,那就是将这个参数屏蔽掉。

打开网站根目录下的robots.txt文件,添加下面内容:

User-agent: *
Disallow: /*?replytocom=*


这个代表的意思就是任何蜘蛛都禁止抓取带replytocom的参数的URL。

但是Robots.txt起效需要一段时间。我们其实还可以在回复链接上增加nofollow属性。

&lt;a class='comment-reply-link' href='/560.html?replytocom=397#respond'

在后面添加rel=”nofollow”就可以阻止蜘蛛爬行这个链接了。但是实现起来比较麻烦,需要对WordPress非常了解才行。

我因为安装了一个@replyto插件,我直接在插件里增加了这个属性。如果没有安装插件的WordPress,可以试试看从哪儿修改。

“WordPress的replytocom参数避免被百度蜘蛛抓取的解决办法”的8个回复

    1. @河北seo: 对我的博客来说是有效的,自从加了之后,百度没有收录新的带replytocom的网址。可能你的robots.txt还没有被百度重新抓取。如果是旧的已经收录的网址,去掉是需要一段时间的。

    1. @武汉seo: 管用,你可以site一下我的博客,里面除了最早的几个,新的网址都没有这个参数了

评论已关闭。