一般来说,传统的目录页都是“标题+链接”的形式,而有些网站为了更好的用户体验,除了标题以外还会加上内容的简介,慕求让用户可以第一时间选择的自己甘兴趣的文章进行阅读。 例如说:保险博客(公司网站下的一个二级域名子频道),这子频道就是为了能让用户有更好的体验,在目录页那里都为每篇文章附加了一段简介,原以为用户体验做好了,搜索引擎也会收录的不错,但是有点错了。一段时间后发现该频道的来客很少,收录也不多,而且发现收录的几乎都是目录页,为什么呢?后来通过查看服务器的日志才发现,蜘蛛来的次数不少啊,可是几乎都是爬到目录页就就停止了,偶尔才会进一下文章内页里面。
然后就去研究一下了各大网站的目录页看看他们的怎么设置的。发现了几大门户网站的目录页几乎都是比较的传统的“标题+链接”的形式。而网易同时拥有两种类型的目录,但他们的收录情况就不一样了。传统的“标题+链接”的目录页和其的内页收录都不错,至少我查看的页面都被百度收录了;但是带有简介的目录页就不一样了,本身是被了收录了,但它上面的链接页面,几乎都没怎么被收录,至少我抽取的几十篇不同日期发表的文章都没有被收录。按理说网易这么大的网站,文章的点击率应该都不低啊,为什么还有被收录呢?而同样的问题,我在站长网也发现了,带有简介的目录页上面的文章内页几乎都没有收录。
于是就抱着试一试的想法,把公司网站的另一个二级频道--保险案例的目录页进行了改造,做成比较传统的“标题+链接形式”,修改完后的第一天,收录没变,查看服务器日志,蜘蛛爬行数降到了个位数,而且只爬了一下目录页就走了。当时不知道如何是好,心想着再等几天看看。第二天、第三天。。。。终于收录上去,虽然目前该频道只有100篇左右的文章,但是收录数达到了90左右,而之前一直在30-40的幅度徘徊。而相比保险博客这个频道虽然文章数达到了400多,但收录数只有100左右,而且几乎一半都是目录页。看来这个频道的改造事不宜迟了。
通过这件事情,我个人的总结就是:有时太过追求用户体验也不是一件好事,如果能找到一个很好的平衡点去结合网站优化和用户体验当然是最好的。就好比我上面说的目录页问题,在没有找到更好的结合点之前,不妨还是采有传统的方式,就像书本的目录没有每一节都带上简介,都依然受欢迎(当然前提就是一本好书) 。
最后再说说自己对这件的事情的猜想吧。通过站长工具的蜘蛛模拟爬取,发现带有简介的目录页居然有2000多字(当然这个要看简介的长短,以及设置的文章标题数目而定,我们公司的网站是10条),比一般文章还有长。由此我就有这样一个想法,是不是蜘蛛误以为带简介的目录页是一个文章页,把那些标题都当作一个锚文字链接来看,没有再进一步地去爬取呢?