从百度针对淘宝用户开绿色收录通道质疑百度的行为操守(转载)
September 11th, 2008
» 上一篇:百度将推出自主研发C2C支付平台百付宝
» 下一篇:解析无限个二级域名的方法有三种
以下原文转载自可能吧
淘宝近日在robots.txt里将百度爬虫完全禁止了,也就是说,不允许百度爬虫抓取taobao.com上任何页面。显然,淘宝这一举动是针对百度将要上线的C2C平台而做出的。
但根据新浪科技的采访报道,百度电子商务事业部总经理李明远表示
(picvia)
如果百度真的开辟了这个绿色通道,这将是对其行为操守的一个巨大的讽刺。
为什么这样说呢?
首先从robots.txt说起。
1、限制某个搜索引擎不让其爬取
2、限制搜索引擎不让其抓取某些页面
3、其它限制

(pic via)
而淘宝的robots.txt里的内容如下:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
也就是说,二级域名根目录下也可以放置robots.txt。但是,顶级域名下的robots.txt的权限高于二级、三级域名下的robots.txt。
淘宝店铺URL使用的都是二级域名,不管这些店铺是否愿意被收录,只要taobao.com的robots.txt作出了限制,一切都是NO。
在百度的帮助文档里可以看到这一句:
搜索引擎在爬取一个网站时,会先检查robots.txt,检查有哪些限制,再作出下一步决定。
这是这篇文章的要讨论的重点。
百度官方帮助文档里有这一句话:
百度严格遵循搜索引擎Robots协议
虽然在百度的十大罪状里说到,有传闻说百度是不遵守robots.txt的,但那毕竟是传闻,我们不妨先相信百度的官方说明。
但是,一旦百度开通了绿色通道,允许卖家直接提交URL让百度抓取,这显然是违反了Robots.txt里的规定,而百度又是说自己是
虽然robots.txt不是法律,但一旦搜索引擎加入了这个准则,就说明其遵守里面的协议。虽然违反协议内容不会受到法律的制裁,但这样的行为操守显然会受到鄙视。
百度口口声声说自己是遵循Robots规则的,但偏偏要酝酿这个绿色通道,是否可以认为,百度说遵守robots.txt只是个幌子,它事实上是没有规则可言呢?
当然,我希望百度不会真的酝酿这个绿色通道,不然就会成为天下的大笑话了。但既然这句话出自

(百度电子商务事业部总经理李明远)
搜索一件商品的最好渠道不是通过搜索引擎。因为在搜索引擎里我们看不到价格、款式等商品属性的比较。而购物网站内建的搜索引擎却可以做到这一点。
另一方面,百度搜索结果经常充斥着诱惑点击的竞价排名广告,如果淘宝店铺结果混合在里面,这未必是一件好事。
Denis也写了类似的文章:百度真的遵守 Robots.txt 协议吗?
Jason Ng for 可能吧 | 查看原文 | 2 条评论随机文章
添加评论
可用标签:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>
引用:http://www.ccouo.com/html/2827.html/trackback | 订阅