查看: 2252|回复: 0

百度抓取诊断工具有哪些需要改进的地方?

[复制链接]

2万

主题

141

回帖

7万

积分

管理员

高级管理员

积分
70508
发表于 10-15 11:07 | 显示全部楼层 |阅读模式
自从百度站长平台"抓取诊断"工具上线以来,很多站长朋友都把此工具当做引蜘蛛的手段,可是笔者亲测了下,发现"抓取诊断"工具存在各种各样的问题,所以 我们不能过于依赖,而应选择性的应用。下面我们就来探讨下百度"抓取诊断"工具具体有什么作用以及需要改进的地方。
首先我们来看看百度官方的解释:
一、什么是抓取工具?
1)抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。
2)每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容。
二、抓取诊断工具能做什么?
1)诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。
2)诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。
3)检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP.
4)如果网站有新页面或页面内容有更新,百度蜘蛛较长时间没来访问,可以通过此工具邀请它快速来抓取。
笔者测试了一下,有些网站可以抓取成功,如下图所示,这里面包含了很多信息,同时还能很好的显示网页的源代码,可以为站长提供一定的帮助。
可是对于双线主机和做了别名解析的非固定IP主机,总是出现抓取失败或者抓取中的现象,刷百度排名,偶尔也能抓取成功,刷百度排名,如图所示:
这是否意味着,百度百度蜘蛛无法抓取到我们的网页呢?答案是否定的,笔者刚测试的这个抓取失败的网站,当天所发文章全部都是秒收,证明百度蜘蛛能很好的抓取网页,单身"抓取诊断"工具却出差,这说明这项技术还不成熟,所以我们只能参考,不能过于依赖。
还有一点需要注意的是,抓取同一个页面以后,百度会有很长时间的缓存,如下图所示。笔者上午11点09分抓取了一个页面,并在页面里挂上"黑链","抓取 工具"抓到的源代码里有这些"黑链"代码,可是笔者把这些"黑链"全都去了以后,晚上19点13分又抓取了一次,发现抓取到的页面还是上午11点09分抓 的页面,中间相隔了8个小时。
除此以外,抓取工具对于网站IP地址的判定经常会出错,一旦IP地址判定错误,就会出现抓取失败的现象。但是这并不代表蜘蛛不能访问我们的网站,其实蜘蛛是蜘蛛,抓取工具是一种工具,大家千万不要混为一谈。
当然了,任何工具的新上线,都存在这样那样的问题,我们只要选择对我们有利的地方去应用就行了,而不应过于依赖所有的功能。同时也希望度娘能尽快加以改 进,把有问题的地方都处理好,给广大站长朋友一个有用的工具。
文章标题:百度抓取诊断工具有哪些需要改进的地方?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条