百度关于site语法查询的问题公告

这段时间,百度查询网站的site值老是出错,终于百度出公告了:

大家好!

近期我们的系统在更新过程中出了些状况,导致site语法查询即site:xxx.com返回的数值非常不准,大部分站点site语法查询的数值与精准的索引量相比下降了数十倍以上,请大家不要因为site返回数值大量下滑引起恐慌和猜测,site语法数值的下滑不代表在百度中的真实体现降低。   请站长们登录百度站长平台,用站点索引量工具查询网站的精准收录索引,并且参考来自百度的流量变化来进行网站分析。 同时我们正在努力高优先级恢复正常的site查询服务,今后我们会加强相应的保障机制,避免再次出现同类问题,非常抱歉!

看来这次百度更新真的扯到蛋了……

纯文本链接可以吸引百度抓取的证据

很久之前我写过 文本格式的网址对网站的权重有好处 ,今天我终于发现了纯文本链接可以吸引百度蜘蛛的证据。

大家知道百度站长平台已经对站长开放了,其中有很多有用的功能,包括提交网站地图,查看robots规则等等。其中有一项功能大家可能没有太注意,那就是站点抓取异常查询。

有时候我们的网站收录或者其他方面出现异常了,这时候还得分析网站日志等,查找原因。而这个工具可以直接查到,百度在抓取你的网站的时候出现了哪些错误,方便找到原因。

我今天检查的时候发现了有一个404抓取错误,本来抓取的是http://liboseo.com/1227.html   但是后面多了个“>”,理论上不会出现这种链接错误啊。

经过搜索发现,有网站在转载文章的时候,出现了如上图的网址,而且是纯文本的网址:

百度因为抓取到了上面的网址,并把>也当做网址的一部分,并进行抓取,自然就出现了404错误。

从这个例子就可以知道,百度是可以抓取纯文本的网址的,这对广大SEO工作者和互联网从业人员是个好消息。

详细分析化龙巷改版之后依然存在的不足和修改方法

上篇《浅析化龙巷改版后的优点和不足》之后,并发到新浪微博之后,有化龙巷的朋友问了个问题,于是我又仔细看了下,发现确实还有一些不足之处,我将这些自认为是不足的地方汇总一下,并说一下我的拙见,不一定正确,欢迎批评指正。

1.帖子标题和版块标题太长

比如版块的标题是“【版块名称】-化龙巷_消费、信息、生活的城市社区_常州化龙巷论坛” ,帖子的标题是“【文章标题】|【版块名称】-化龙巷_消费、信息、生活的城市社区_常州化龙巷论坛”。

在版块名称和文章标题后有长长的后缀,这个会降低标题的相关性,分散真正标题中关键词的权重。因为百度认为这个页面的标题是 帖子标题+版块名称+固定后缀 这段长长的文字,而不只是帖子标题。让标题淹没在非常长的页面标题中,得不到重点凸显。

修改方法:这个相对来说修改非常简单,将后缀缩短,甚至直接 【文章标题】- 化龙巷 即可。版块同理。 继续阅读“详细分析化龙巷改版之后依然存在的不足和修改方法”

浅析化龙巷改版后的优点和不足

今天惊奇的发现化龙巷改版了,修改的是化龙巷论坛的url规则。

化龙巷原来使用的是PHPWind的系统,原来的url就是默认的PHPWind的url规则。而且页面是在bbs二级域名下的。

改版后,将页面从bbs二级域名下转移到了www主域名下面,并且展现形式从复杂的PHPWind的url规则变成了自己定义的静态url:

1.帖子:BBS二级域名/read-htm-tid-帖子ID.html 变成了 主域名/版块自定义/帖子ID
2.版块:BBS二级域名/thread-htm-fid-版块ID.html 变成了 主域名/版块自定义
3.BBS二级域名下的相关页面301跳转到了www主域名对应页面上。 继续阅读“浅析化龙巷改版后的优点和不足”

robots.txt的规则误区并介绍百度和Google的robots工具的使用

前段时间写了篇robots.txt文件怎么写,但是通过实际观察,有些朋友对于robots.txt文件的规则还是有一定的误区。

比如有很多人这样写:

User-agent: *
Allow: /
Disallow: /mulu/

不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。

但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。 继续阅读“robots.txt的规则误区并介绍百度和Google的robots工具的使用”