Robots协议在中国实践的思考

2014-12-11 10:52李延超李民
网络传播 2014年9期
关键词:爬虫搜索引擎百度

李延超+李民

2014年8月7日,北京市第一中级人民法院就百度诉奇虎360违反Robots协议、不正当竞争纠纷一案做出一审判决。判决认为,被告奇虎360的行为违反了《反不正当竞争法》相关规定,应赔偿原告百度经济损失及合理支出共计70万元,同时驳回百度其他诉讼请求。该案通过司法判决的方式确立了Robots协议这一技术协议、技术规范的法律效力,具有里程碑意义。

Robots协议在中国的实践和发展

Robots协议是一个约定搜索引擎和内容网站关系的协议,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),也称为爬虫协议、爬虫规则、机器人协议等,从技术实操来说,它是一种存放于网站根目录下的编码文本文件。

Robots协议不是国际标准,也不是行业规范,但因其符合了内容网站、搜索引擎、网民等各方的利益,促进了互联网的有序发展,已成为国际互联网界因共识形成的道德约束,可谓是“君子协定”。

笔者走访了互联网业界的资深人士和法律专家,在他们看来,自独立搜索引擎技术产生至今,Robots协议在中国的实践和发展大体经历了三个阶段。

第一阶段:门户网站时期。业界也习惯将这一时期称为Web1.0时期,这一时期是互联网发展的初期,网上内容整体较少,以人民网、新华网、千龙网、新浪、搜狐、网易、TOM网、中华网等新闻门户网站为代表的内容提供商占据着主导地位。当时的大部分网站,特别是门户网站,更愿意选择站内搜索来呈现自身海量信息中网民需要的内容,搜索引擎运营商处于弱势地位。

此时的Robots协议,更多是照顾内容提供网站的利益,由内容提供网站就哪些内容可被抓取向搜索引擎运营商提要求。而搜索引擎网站为了能更多地抓取内容网站的内容,甚至提供免费站内搜索技术和服务。

第二阶段:搜索信息时期。互联网的海量信息成就了搜索引擎。随着互联网的发展,搜索引擎逐步成为网民查询信息的一个高效工具,同时也成为网站建设中针对“用户使用网站的便利性”所提供的必要功能。毋庸置疑,无论是直接搜索还是站内搜索,高效的检索可以让用户更加快速准确地找到目标信息,从而更有效地促进信息传播,促进产品(服务)销售。

这一时期,可以说是搜索引擎和内容提供网站之间的“蜜月期”,也是相互利用、相互促进期,在世界网民人数高速增长和互联网走出第一次泡沫期的背景下,双方都得到了发展,各自都获得了经济利益,自然鲜有矛盾和分歧。

在此期间,搜索引擎的话语权逐步建立。搜索引擎为了爬虫省事,已可以向内容网站提出要求,如把网站地图通过Robots协议标出来,以方便爬虫抓取的时候通过地图就知道哪个频道、哪些内容是最新最快的,就不会把网站内容全部抓走,而只抓它认为有价值的东西。同时,爬虫通过Robots协议可以屏蔽一些网站中比较大的文件,如:图片、音乐、视频等,节省服务器带宽,还可以屏蔽站点的一些死链接。

第三阶段:搜索入口时期。以技术革命为代表的互联网在信息传播上不可逆转地进入Web2.0时代,信息爆炸和个性化需求使网民越来越依赖从搜索引擎开始互联网之旅。特别是国外以Google为代表、国内以百度为代表的搜索引擎服务商把搜索变成了一种成功的商业模式,搜索引擎不仅能提供信息检索,同时也成为了互联网入口和流量分发器。此外,互联网企业还发现,对网民搜索行为的深度分析,对于进一步制定更为有效的网络营销策略和产品的销售具有十分重要的价值。

这一切,对于流量就是生命线的内容网站来说,与搜索引擎的关系彻底产生逆转:一是做内容的网站多,同质化情况严重,希望搜索引擎抓取;二是搜索成为重要入口,流量好处巨大。搜索引擎一定程度上决定了网民去哪看什么,内容网站在形式上开始依赖于搜索引擎。搜索处于绝对强势。搜索引擎不再那么顾虑内容网站的想法,反正网上有那么多一样的内容,搜索引擎开始有了自己的爬虫算法和排序,不是什么都抓,甚至产生了一些公司专门帮助内容网站做SEO(搜索结果优化),以便网站内容和搜索引擎更友好,更容易被抓取、被推荐。

Robots协议的判例及争议

由于Robots协议较好地规范了搜索引擎和内容网站之间的利益和关系,在很长的时间里,世界范围内鲜有因Robots协议产生的诉讼及较大争议。目前,能通过网上搜索查询到的案例也只有以下不多的几例:

BE违规抓取eBay案。2000年,美国加州北部的联邦地方法院在著名的“eBay VS BE”案中,第一次引用Robots协议对案件进行裁定。BE(Bidders Edge)成立于1997年,是专门提供拍卖信息的聚合网站,BE利用爬虫抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。虽然eBay早已设置了Robots协议,禁止BE爬虫的抓取,但BE却无视这个要求。原因很简单,BE网站69%的拍卖信息均来自eBay, 如停止抓取eBay内容,意味着BE将损失至少三分之一的用户。

2000年2月,eBay一纸诉状将BE告上联邦法庭。三个月后,受理此案的美国联邦法官裁定BE侵权成立。法官认为:“eBay 的网站内容属于私有财产,eBay有权通过Robots协议对其进行限制。违规抓取的行为无异于“对于动产的非法侵入”,并据此做出裁决。法官并没有对Robots协议的效力做出认定,而是将动产侵害原则适用到互联网领域,这一案例在当时引发了美国互联网产业乃至社会的广泛讨论,成为当时网络侵权案的标志性案例,也是与Robots协议有关的最著名案例。

淘宝禁止百度抓取争议。2008年9月8日下午,针对百度即将推出与其竞争的C2C业务,淘宝网以杜绝不良商家欺诈为由,宣布屏蔽搜索引擎百度。淘宝表示,通过对不同搜索引擎进行不同程度的屏蔽,可以杜绝不法商家利用竞价排名、搜索优化等手段骗取消费者信任,并对优秀卖家进行鼓励。据淘宝网当时提供的统计数据,80%以上的消费者投诉源于极少数不良商家。这些不良商家的主要手段之一就是:通过技术或商业手段,优化通用搜索的页面结果,获得较高排名骗取消费者点击。通过屏蔽部分搜索引擎,可以最大限度地避免消费者上当受骗。百度遵守Robots协议,爬虫不再抓取淘宝网数据。endprint

Twitter、Facebook禁止谷歌抓取实时信息。互联网的本质中即包含技术革命、自由精神及挑战权威性,在搜索引擎赢得互联网时代的同时,也埋下其被挑战和颠覆的种子。互联网Web2.0终于盼来了新时代,他们的代表就是微博和社交网站。以Twitter、Facebook为代表的新型内容网站,在其发展初期自然也需要借力于搜索引擎,但当其闭环内容达到一个量级时,特别是网民在Twitter、Facebook中可以浏览到足够需求的信息时,这时已不再需要搜索引擎网站作为入口,而只需站内搜索即可。

2011年7月,Twitter不再允许Google抓取其实时信息,这甚至导致了Google的一款产品Google+的衰亡。表面原因很简单,如Google声明所说,“自从2009年10月起,我们就与Twitter达成协议,将在搜索中整合特殊内容,这份协议7月2日将到期。尽管我们将无法获得来自Twitter的特殊信息,不过公开抓取的Twitter信息还是可以搜索的,也可以在Google上找到。”而根本原因,正如笔者分析,Twitter已足够强大,已无需搜索引擎为其提供信息入口和推广,而搜索引擎仍需要内容。如果Google还想抓取Twitter实时信息,恐怕必须付钱了。

无独有偶,转眼的2012年,社交网站巨头Facebook也果断禁止谷歌对其数据进行抓取。谷歌CEO拉里·佩奇多次公开表达对Facebook的不满,指责其拿用户当人质。其实,谷歌CEO的恼羞成怒是有道理的,Facebook不允许谷歌抓取的理由——考虑用户隐私权是不成立的。但却允许雅虎纳入来自Facebook的搜索结果。谷歌与Facebook竞争的优势是搜索引擎,一旦Facebook推出社交化的搜索引擎,谷歌在搜索引擎的霸主地位就将终结。这当然也正是Facebook对谷歌封闭的考虑。如拉里·佩奇所说,“Facebook只是不愿意与我们合作。”

以上三个案例可以看出,在世界互联网范围内,也存在大致的搜索引擎和内容网站关系的三个时期,也可以说Robots协议的三个阶段,与国内的不同也只是所经历时间的长短和对规则的敬畏、诚信的自觉、利益的分配的微妙差别。可以看到,在第一阶段和第二阶段,Robots协议下的搜索引擎与内容网站间的利益关系是完全正向的,本质是互利的,所以搜索引擎间没有因Robots协议产生任何官司。随着搜索引擎逐渐具备内容能力并最终占据绝对强势地位,再到社交网站和微博的崛起,搜索引擎和内容网站间利益分化,搜索引擎间的矛盾不可避免。

在以市场为主导的互联网产品竞争中,只有真正符合网民需求,推动互联网发展的应用和服务才能最终获得市场,实现企业的经济利益最大化。无论是靠Robots协议或者某一协调条款来维护既得利益,还是靠打擦边球、利用灰色地带,终将被市场所淘汰,被网民所抛弃。endprint

猜你喜欢
爬虫搜索引擎百度
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
Robust adaptive UKF based on SVR for inertial based integrated navigation
利用爬虫技术的Geo-Gnutel la VANET流量采集
百度年度热搜榜
大数据环境下基于python的网络爬虫技术
网络搜索引擎亟待规范
百度医生
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发