Home >  > 网站页面收录比率的统计方式

网站页面收录比率的统计方式

2

SEO中很重要的一个工作是提升网站的收录量,它和nofollow类似,都是我曾经用很多篇文章提到过的。页面想要带来SEO流量的话,第一步无疑是它必须要被收录。在做提升收录量的工作之前,最好是要能知道网站的收录比例有多少。《搜索引擎营销——网站流量大提速》里面较为全面的写了这些,这里结合那本书上的,更详细写一下可用的做法。

收录比率 = 网站被索引的页面数量 / 网站页面总数量 * 100%

所以要看收录比率的话,后面的两个数值都要知道。

首先要清楚网站页面上的总数量,它看上去简单却并不是一件很容易的事情。那本书上是这样提及到的:

•询问网站管理员,他未必明确知道明确数量,但至少应该考虑过这个问题,可以作为大致参考。
•看站内搜索引擎的索引库中有多少该网站的页面。
•通过内容来源累加,就是类似于直接在网站后台数文件数量。当然规模大些、结构复杂些的网站这点上面就比较难。
•使用一些特殊的爬虫程序,比如Xenu和OptiSpider。
•检查搜索引擎里面收录了多少网页,因为每个搜索引擎对于网站的网页收录数量是不同的。

我觉得有必要补充一下。第2、4、5三个方法都是建立在爬虫程序抓取页面的基础上的,书中提到了,要先确定网站上没有爬虫障碍(如Flash导航栏等等),那么爬虫才能爬行,结论的数字才会可靠。不过书中基本上针对的都是大中型网站推行SEO并不是这么方便的情况。如果是小型网站的话,最好先处理掉一些最常见的爬虫障碍以后,再进行抓取,统计页面数量。

还有就是Xenu是不支持nofollow与robots.txt的,很多被屏蔽的页面它也会抓取,那么就可能会浪费大量时间得出一个不准确的结果。可以考虑用HTTrack这样的整站下载器来下载,它支持robots.txt。如果还想要爬虫程序支持nofollow的话,可以考虑用比较重量级的vgsa。至于既支持nofollow又支持robots.txt的轻量级爬虫程序目前我还没找到。

还需要注意的一点是,有时候可能会生成“无限网址空间”,会使得爬虫程序抓取到的页面远远大于实际网页数量。一般是由于商品筛选之类的功能引起的,具体可以看一下:如何规划好网站的URL(1)。前面提到的几个爬虫程序里面,vgsa自然是略有些能力识别无限网址空间的,这个名词就是来自于它里面的称法。而HTTrack似乎可以通过自行设置来处理这个问题,Xenu记得是完全搞不定无限网址空间。

关于统计页面数量的最后一点,看其他搜索引擎的收录数量,这点虽然相比不是那么可靠,但却是最方便的,尤其在想要在较短时间里面判断一个网站的综合质量的时候,评价收录量的方面上,这个方法还是不错的选择。

然后检查网站页面的收录数量自然最方便的方法就是site。另外装百度统计的网站可以在百度统计的页面看到一个收录量,百度的官方说法是也不是100%准确,但是比site要准一些。

比较另类的方式可以是通过查询网页上的一小段模板上面固定的文字,如备案号什么的,这样查询有一点好处,查到的页面肯定是已经被置入索引库的,site出来的页面未必在索引里面,因为从页面被收录到倒排索引的建立(简单说就是能通过搜索什么词搜索到了)是有一个时间间隔的。而因为索引库的复杂性等等,有时也可能会导致其他的一些尽管页面被收录却没有被建立索引的情况。

还有更专业的方法是通过流量统计工具,看看有多少页面在历史中从某个搜索引擎上带来过流量。这样的好处和上面的方法有同样的地方,能确定页面是已经被索引的,缺点是页面如果日后从索引中被删除的话,就无法知道了。网页可能会从索引库中被删除是因为索引库是分多个级别的,比如临时索引库等,像新站、采集站之类的网站上面的页面,就可能时常会被搜索引擎减少一些索引数量。

百度的Lee也在站长俱乐部提出过一个采样分析的方法,这点了解的比较少,不多讨论。

各种方法分别适合于不同规模、不同类型的网站,也可以把几种方法结合使用。最后计算出网站的页面收录比率,就可以更有针对性的执行网站的SEO工作。

相关推荐

关注科技,热血而沉着,极致而纯粹。努力做一个理想主义者。

Comment (2)
Trackback (0)
  1. 桂林网站建设 unknowunknow 沙发 2011/01/10 04:21

    学习了啊!谢谢博主分享

  2. spray gun unknowunknow 板凳 2011/01/11 11:25

    确实不好统计,我用专门的地图生成器生成时,由于数量有限(低于500),有些大于500页面数的就统计不出来了。这个有什么好办法么? 模拟爬虫是什么?,好像有些会出现死循环。

  • 还没有Trackback

发表评论

*

*