分析三大门户的robots.txt文件,击碎屏蔽百度蜘蛛谣言

一直有谣言称三大门户新浪、搜狐、网易的博客都通过robots.txt文件屏蔽了百度蜘蛛,因为我一直使用自己的个人博客,很少使用这些第三方博客,所以没有太关注。

其实从道理上来说,各大门户不可能有屏蔽百度蜘蛛或者搜索引擎的动机,因为这些博客只是一个信息载体,获得流量有很大一部分是来自搜索引擎。门户的博客是不会自己堵住自己的流量大门的,这个跟淘宝屏蔽百度、京东当当等屏蔽一淘的原因是不一样的。

今天整理自己的一些门户的博客,于是想看看到底这些博客的robots.txt写了些什么?是否真的屏蔽了百度蜘蛛?

首先看新浪博客的robots文件内容:

#User-Agent*##############
User-agent: *

#Disallow: ######
Allow: /admin/blogmove/

Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/


其中最前面带#号的是注释,所以不用一一解释。我们看没有注释的内容,第一条 User-agent: * 表示的是所有的搜索引擎,也就是下面的规则针对所有的搜索引擎;第二条 Allow: /admin/blogmove/ 表示可以抓取这个目录;第三条 Disallow: /admin/ 表示禁止抓取/admin/目录下的任何内容,下面的几条意思相同。

从整个Robots文件可以看出新浪博客的规则是:禁止所有的蜘蛛抓取 “/admin/” “/include/ “/html/等目录下面的文件,允许抓取”/admin/blogmove/”下面的文件,其他目录允许抓取。也就是新浪博客没有屏蔽百度蜘蛛。

我们看搜狐的robots文件:

User-agent: Googlebot
Disallow:

User-agent: baiduspider
Disallow:

User-agent: Nutch
Disallow:

User-agent: msnbot
Disallow:

User-agent: Slurp
Disallow:

User-agent: *
Disallow: /


备注一下,Disallow:后面如果为空的话,就是表示没有禁止任何文件,也就是允许抓取任何文件。搜狐博客这个robots规则的意思是,除了Google蜘蛛、百度蜘蛛、MSN蜘蛛、Nutch蜘蛛和雅虎Slurp蜘蛛之外,其他蜘蛛禁止抓取。同样没有限制百度蜘蛛。

看看网易的robots文件:

User-agent: *
Disallow: /edit$
Disallow: /edit/$
Disallow: /*/edit$
Disallow: /*/edit/$
Disallow: /*/editUser.do$

Sitemap: http://blog.163.com/sitemap.xml


网易博客只是禁止了一些/edit下面的编辑器之类的目录,其他任何目录都可以抓取,甚至通过Sitemap规则,给蜘蛛提交了一个xml格式的标准网站地图。很明显没有屏蔽百度蜘蛛。

从整个验证的过程来看,有时候很多谣言都是在道听途说、以讹传讹造成不必要的恐慌,而没有人去真正的核实是否属实。

“分析三大门户的robots.txt文件,击碎屏蔽百度蜘蛛谣言”的4个回复

评论已关闭。