查看: 1756|回复: 0

淘宝网为什么禁止百度蜘蛛爬虫?

[复制链接]

2万

主题

141

回帖

7万

积分

管理员

高级管理员

积分
70508
发表于 10-8 11:08 | 显示全部楼层 |阅读模式
百度搜索“淘宝网”可以看到淘宝网robots文件限制了百度蜘蛛抓取,无法看到淘宝网的描述。我们查看淘宝的robots文件,如图:

淘宝网为什么禁止百度蜘蛛爬虫?

淘宝网为什么禁止百度蜘蛛爬虫?

所有网站的robots文件都是公开的,如果输入“网站域名/robots.txt”打开了一个404错误页面,则说明该网站没有做robots文件。robots文件是搜索引擎蜘蛛来一个网站首先要查看的,提前知道该网站哪些允许它抓取,哪些不允许,它会遵循规定来做。

如果不做robots文件,在该网站的空间日志里会出现一个404的错误代码,这不要紧,因为很多网站都不做,尤其对于小型网站井不重要。但大型网站讲究比较细致,基本上都会做。

图中淘宝的robots文件表示禁止百度蜘蛛抓取网站的任何内容,有人会问“我搜索淘宝网,明明可以搜到,难道是淘宝写错,或百度没有遵守这个规则?”这里要说明两点:

(1)淘宝并没有写错。

(2)百度有时候的确会不遵守规则,是因为用户体验,包括其他搜索引擎也是如此。

搜索引擎并不会完全遵守robots文件,但总体来说都是遵守的。有些文章已经被百度收录了,如果临时要用robots文件屏蔽它们,那么在百度的数据库里大概需要几个星期到一两个月的时间才能慢慢删除这些文章。

为什么淘宝网一直在百度里呢?并不是百度不遵守规则,而是从用户体验的角度来讲,如果一个网民去百度搜索“淘宝网”,最后竟然搜索不到,他会认为百度这么大一个搜索引擎居然搜索不到这个知名的淘宝网,非常奇怪;而且会认为百度有问题,就好比很多人搜索新浪、搜狐、网易等网站,百度上找不到,很多人会认为是百度的问题,而不是这些大门户网站有问题。所以像淘宝网这种非常知名的网站,百度对它比较特殊,或者说是从用户体验的角度出发,让网民能搜索到这类知名的网站,哪怕淘宝的robots文件里禁止百度抓取。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条