ROBOTS协议下数据抓取行为规制研究
——以《反不正当竞争法》为视角

2020-12-26 06:20:46郑一丹

吉林工商学院学报 2020年6期

郑一丹

（华东政法大学法律学院，上海200042）

一、问题缘起

在互联网经济发展的背景下，数据的收集与使用愈加成为市场主体的核心竞争力。作为互联网领域普遍接受的行业惯例，ROBOTS协议被大部分搜索引擎服务商所遵守[1-2]。ROBOTS协议又称爬虫协议，其通常作为文本文件设置在网站根目录下，提示搜索引擎的网络机器人网页或其下内容哪部分内容可抓取或不可抓取，为受访网站与搜索引擎之间的一种交互方式。相比ROBOTS协议的运用与互联网行业数据流量应用增速，相关法律规制却处于被动状态：与此相关的数据收集与使用纠纷应当纳入何种法律规制范畴，以及在新《中华人民共和国反不正当竞争法》（下称《反不正当竞争法》）的视角下，数据收集与使用得否以及如何界定构成不正当竞争值得讨论。如在较为典型的大众点评诉百度案①详见上海市浦东新区人民法院对该案作出的（2015）浦民三知初字第528号民事判决书。该案中，大众点评方认为百度公司在未经其许可且未付出相应劳动及成本的情况下，在百度地图中大量复制大众点评网的点评信息，直接替代大众点评网向用户提供内容，造成大众点评运营者汉涛公司损失并构成不正当竞争。法院最终认为，虽然百度公司依靠搜索技术抓取大众点评网点评信息不违反ROBOTS协议，但其行为直接导致大众点评网用户群体流失，构成不正当竞争。、微博诉脉脉案②详见北京知识产权法院对该案作出的（2016）京73民终588号民事判决书。微梦公司作为微博平台运营者与淘友公司（脉脉平台）订立开发者协议，通过OPENAPI模式获取微博平台的部分数据信息用于脉脉平台职场社交功能；微梦公司认为淘友公司在没有获得相应权限，通过OPENAPI接口获取相应数据信息，违反了开发者协议。法院最终认为，淘友公司的未经授权抓取数据的行为截取了微梦公司的竞争优势，损害了其商业资源，构成不正当竞争。、微博诉饭友案③详见北京知识产权法院对该案作出的（2019）京73民终2799号民事判决书。微博平台认为饭友平台未经其同意在其平台上设置专题嵌套明星的微博界面，完整展示该界面的全部数据，并屏蔽微博中的部分功能，添加自有功能，侵害其合法权益。法院最终认为，饭友平台抓取新浪微博数据并在其平台上展示的行为或将导致其减损用户数量及数据安全程度，妨碍了微博的运营，构成不正当竞争。中，均涉及平台经营者抓取其他平台数据并使用，各方就是否构成不正当竞争产生争议。在此类案件中，一方通常以不违反ROBOTS协议或开发者协议，或经营者一方以其非抓取数据信息系在平台内设置微博跳转链接作为抗辩。无论是在ROBOTS协议还是经营者各方另行约定的数据抓取协议约定的情形下，都有必要明晰数据收集使用与不正当竞争之间的联系。

二、数据抓取行为规制的可能路径

（一）著作权

数据能否纳入《中华人民共和国著作权法》（下称《著作权法》）的保护范畴，需先讨论“数据”是否具有作品属性。依据《中华人民共和国著作权法实施条例》（下称《著作权条例》）第二条，作品的构成要件一为智力成果，二为独创性，三为可有形复制，四为属文学、艺术、科学领域。同时《著作权法》第三条对“作品”的范围予以限制。

“数据”得否构成“作品”而归入《著作权法》的保护范畴需区分情形讨论：以用户在微博平台发布的信息或作出的评论数据为例，在2017年版的《微博用户服务协议》曾有这样的表述，“不论微博内容是否构成著作权法意义上的可保护客体，用户均授权微博平台作为该内容的独家发布平台，用户所发表的微博内容仅在微博平台上予以独家展示”，微博平台“可在全球范围内免费、独家使用用户通过微博发布的内容”等。在后续更新的《微博服务使用协议》中，条款1.3明确了微博用户对其公开的信息享有合法权利并承担相应责任，微博平台仅对微博内容享有使用权，并明确将禁止“第三方非法抓取微博内容”纳入条款中。故针对该部分数据而言，即使用户发布的信息构成《著作权法》保护的作品，依据法律及《微博服务协议》，著作权也属于作为作者的用户享有；即使约定用户授权微博平台就侵犯其合法权益的行为采取法律行动，则若用户对其发布的信息并不享有著作权等权利，微博平台也就没有了诉讼基础。《与贸易有关的知识产权协定》与我国《著作权法》仅明确保护属于智力创作的数据或资料汇编或计算机程序而非数据本身，故就微博平台就此类信息的后台数据而言，《著作权法》的保护范围都十分有限。

实务中，对于涉数据抓取行为的案件，法院一般不讨论数据的权属问题，且倾向于否定数据本身属于类似物权或著作权的绝对性权利，如在大众点评诉百度案中，二审法院认为“汉涛公司主张应受保护的利益并非绝对权利，其损害并不必然意味着得到法律救济”①详见上海知识产权法院对“北京百度网讯科技有限公司与上海汉涛信息咨询有限公司其他不正当竞争纠纷”作出的（2016）沪73民终242号民事判决书。。

（二）商业秘密与个人信息保护

《中华人民共和国民法总则》（下称《民法总则》）第一百二十三条将“商业秘密”纳入知识产权保护客体范围内；新《反不正当竞争法》第九条对“商业秘密”作出定义，其具有秘密性、商业价值性、保密性，且属于技术信息或经营信息。数据作为互联网经济的核心竞争资源，能够为经营者带来经济利益，但在数据已向社会或用户公开时，则“秘密性”与“保密性”要素便无法满足，如“数据抓取”行为中涉及的用户评论信息、微博用户发布的信息、转发评论数量等，均系向社会公开，也难谓经营者对其已采取“保密措施”；即使认为经营者通过ROBOTS协议禁止数据抓取的行为系采取保密措施的体现，其也因不满足“秘密性”要素，而不满足“商业秘密”保护的范畴。

《民法总则》专门强调了对公民个人信息的保护，数据源于个人信息，具有一定的保护价值与数据记录及应用的价值[3]，有观点认为数据抓取可通过公民的隐私权或个人信息中的“被遗忘权”进行保护。但隐私权更加侧重对自然人人格权等个人权利的保护，其保护目的与价值并不完全与数据抓取行为造成经营者数据权益的侵犯相等同，在诉讼主体方面也存在差异，隐私权的含义决定其无法覆盖至已公开的数据信息的保护；而个人信息保护及被遗忘权在我国的建构并不完善，越过数据本身而诉诸数据源头的保护方式并非容易。

（三）不正当竞争行为

1.一般条款规制路径

2019年《反不正当竞争法》增加第十二条用以规制经营者利用技术手段妨碍、破坏其他经营者提供网络服务的行为。但在该法修订前，实务中对经营者非法或合法抓取数据的情形虽多纳入反不正当竞争法进行调整，但却缺少规范的具体条款，故法院多以原《反不正当竞争法》第二条作为原则性条款以填补法律漏洞，保障市场公平竞争。在前文中提及的大众点评诉百度案中，法院认为市场竞争方式具有多样性，法律不可能对所有不正当竞争行为均予以明确规定，而确属违反诚实信用原则和商业道德的不正当竞争行为，可通过第二条予以调整。在浙江核新同花顺网络公司、灯塔公司侵害计算机软件著作权纠纷案①详见浙江省高级人民法院对该案作出的（2018）浙民终1072号民事判决书。中，法院亦认为《反不正当竞争法》第二条可调整互联网环境下该法第二章调整范围以外的市场竞争行为，最高人民法院对第二条的个案适用亦持相同观点②详见最高人民法院对“山东省食品进出口公司、山东山孚集团有限公司等与马达庆、青岛圣克达诚贸易有限公司不正当竞争纠纷”案作出的（2009）民申字第1065号民事判决书。。

但以第二条作为规制新类型不正当竞争行为的援引法条的同时，最高人民法院对以原则性条款调整个案法律行为的方式也作出了限制：首先，法律需未对个案中涉及的竞争行为作出特别规定；其次，其他经营者的合法权益确因该竞争行为遭受实际损害；最后，该竞争行为确属违反诚实信用原则与公认的商业道德而具有不正当性或者可归责性。只有个案满足上述情形，才可适用第二条对不正当竞争行为予以规制。

2.妨碍合法提供网络服务运行的其他行为

2019年《反不正当竞争法》第十二条对经营者在互联网环境下的不正当竞争行为作出规制，在一定程度上改变了互联网纠纷案件裁判“无法可依”的困境，其中的具体类型化条款系从个案中提炼，对修订前实务中出现的较为普遍、相对重要和基本的具体行为予以规制。针对该条款修订学者提出不同看法：有观点认为，第十二条通过“宣示+概括+列举+兜底”的立法模式，对典型案例等一些公认的不正当竞争行为类型作明确界定和规制，有利于经营主体作出预判，增强《反不正当竞争法》在互联网领域的适应性[4]。亦有观点认为，此次新增条款中部分具体条文仅具有宣示意义，没有普遍性和稳定性，很可能随互联网产业的发展很快被淘汰，其他条款或也过于概括而无法精准应对调整对象，易造成适用偏差，且该条兜底条款在字面上亦未划清“不正当”之界线，可能过度干预而不利于鼓励公平竞争[5]。

笔者认为，针对数据抓取行为的规制路径，应以《反不正当竞争法》为主，纳入第十二条第四项规制范围内，对该项的适用情形可参照该法修订前第二条的应用予以限制。《反不正当竞争法》新增的第十二条作为“互联网条款”，其适用范围或许无法完全覆盖瞬息万变的互联网环境，但对该条第四项的规范解释与应用已足以对目前互联网领域大部分的不正当竞争行为予以规范：首先，在适用上修订前第二条在个案中的适用条件可资参照，第四项的适用条件可较之适当严格，如考虑个案中的竞争关系，同时个案中反不正当竞争行为的严重性程度需与前三项相当。数据本身的使用与流通系互联网产业发展的根基，故在处理数据纠纷中，维护市场秩序的同时需避免过分抑制市场中的数据公平竞争行为，以促进数据的交换与正当使用。

三、反不正当竞争法视角下的数据抓取行为

（一）ROBOTS协议下的数据抓取

1.ROBOTS协议的运用

以大众点评诉百度案为例，笔者尝试用百度地图（网页版）搜索特定商户名称“LELECHA”，点击商户定位信息后，可展开并得到商户的具体信息，包括其导航路线按钮、营业时间、用户评论等；在用户评论中，若百度地图显示的用户评论来自于大众点评网，则评论的全部信息无法完全展示，并在评论下方显示文字“去大众点评查看全部”。

在大众点评诉百度案中，百度公司认为大众点评网下的ROBOTS协议并未禁止对相关信息的抓取，且百度公司仅有限抓取并设置了指向大众点评网的链接，其行为未违反ROBOTS协议，亦未造成大众点评运营者的损失，不构成不正当竞争行为。而法院最终认为，遵守ROBOTS协议只证明搜索引擎抓取数据行为符合行业准则，并非必然不构成不正当竞争行为。在微博诉脉脉案中，双方以OPENAPI为合作模式并以此订立开发者协议对脉脉平台能够抓取的微博平台数据信息作出限制，其部分原因在于微博平台禁止第三方通过爬虫等抓取微博用户信息，第三方仅可通过OPENAPI接口获取前述信息，以保护微博作为资源提供者提供有限数量和频度的数据。

2.域外裁判情况

（1）数据抓取与动产财产权的侵犯

在著名的eBay v.Bidder’s Edge案中，eBay在《eBay用户协议》中规定禁止任何人在未经eBay书面授权使用爬虫程序收集网页内容。Bidder’s Edge利用爬虫程序抓取eBay等网站上的拍卖信息，并放置于自己的网站中向用户展示。eBay向法院提起诉讼，要求禁止Bidder’s Edge通过爬虫程序抓取其拍卖信息数据。Bidder’s Edge认为，eBay网站中的拍卖信息系其用户创建，属于公共资源，eBay无权通过ROBOTS协议限制抓取。针对“网站是否有权设置ROBOTS协议屏蔽数据抓取”的问题，法院认为，“eBay网站的内容系私有财产，eBay有权通过ROBOTS协议对其进行限制”，并最终同意eBay的诉请，向Bidder’s Edge发出临时禁令。

但在之后的案件中，美国法院对设置ROBOTS协议屏蔽数据抓取的观点发生了变化，如在White Buffalo Ventures，LLC v.Univ.of Texas案中，联邦上诉法院第五巡回法庭认为，“在用爬虫程序进行数据抓取并未给财产造成物理损害的情况下，除非有证据证明运用爬虫程序进行数据抓取具有不利影响……仅使用爬虫程序进入公共网站进行数据抓取的行为并不足以构成财产侵犯”。

（2）ROBOTS协议设置与“默示许可”

德国一名艺术家认为谷歌未经其许可，抓取其放置在自己网站上由其享有著作权的艺术品略缩图，并通过搜索引擎展示侵犯其权利。德国联邦最高法院认为，该艺术家在网络环境下其未采取措施禁止爬虫程序抓取数据，代表其默示许可其他搜索引擎可通过缩略图的形式使用其作品，故谷歌的行为并非侵权[8]。

结合国内外法院对ROBOTS协议的认定，多认为若网页下未设置ROBOTS协议，则原则上视为允许其他搜索引擎或爬虫程序进行数据抓取；若网页下设置了ROBOTS协议并设置了抓取内容，则需对禁止抓取的内容或范围予以遵守。但ROBOTS协议是否可为认定数据抓取构成不正当竞争行为的直接证据仍有待商榷。综上，笔者以为，在数据抓取类型的纠纷中，依据一方经营者是否允许数据抓取或是否存在ROBOTS或其他协议，可区分如图1所示：

图1 基于ROBOTS协议的数据抓取纠纷

（二）数据抓取构成不正当竞争的认定

在《反不正当竞争法》修订前，数据抓取行为的不正当竞争规制路径主要为该法第二条作为原则性条款。互联网条款作为新类型化的不正当竞争行为，体现出不正当竞争在互联网领域内的适用的普遍性及重要性，数据抓取行为可纳入第十二条第四项中予以规制，以防原则性条款的宽泛适用或滥用。如在北京爱奇艺科技有限公司、上海众源网络有限公司与宁波千影网络科技有限公司不正当竞争纠纷案中，法院以《反不正当竞争法》第十二条第四项认定千影流浪器提供跳过爱奇艺视频广告服务的行为构成不正当竞争，并归纳出第四项的适用标准①首先，经营者需使用技术手段影响用户选择或直接替代用户选择。其次，结果导致其他经营者合法提供的网络产品或服务不能正常运行。最后，上述行为有违自愿、平等、公平、诚实信用的原则与公认的商业道德。详见上海市徐汇区人民法院对该案作出的（2018）沪0104民初243号民事判决书。。

在本文前述三个典型案例中，法院在考虑经营者抓取数据的行为是否构成不正当竞争行为时，亦对以第二条认定行为构成不正当竞争的标准进行归纳②部分法院对《反不正当竞争法》第二条的适用采取更加审慎的态度，如在微博诉脉脉案中，法院即认为还需满足其他三个条件才能适用第二条以认定和规制不正当竞争行为：（1）该竞争行为所采用的技术手段确实损害了消费者的利益，例如：限制消费者的自主选择权、未保障消费者的知情权、隐私权等；（2）该竞争行为破坏了互联网环境中的公开、公平、公正的市场竞争秩序，从而引发恶性竞争或者具备这样的可能性；（3）对于互联网中利用新技术手段或新商业模式的竞争行为，应首先推定具有正当性，不正当性需要证据加以证明。。综合案件情况，笔者总结互联网领域数据抓取不正当竞争行为认定标准如下：一是双方是否构成竞争关系，二是经营者是否因行为受到损害，三是行为是否具有不正当性或数据抓取行为是否妨碍、破坏了经营者网络产品或服务的正常运行。

1.是否构成竞争关系——用户群体的判断

在竞争关系的认定上，主流学说多以商品的可替代性及竞争对手的性质、经营范围等要素，将竞争关系分为直接竞争关系与间接竞争关系，前者指生产经营相同或相似商品经营者在特定市场活动中争夺市场份额而形成的社会关系[9]263，直接竞争关系不足之处在于其对竞争范围的界定过于狭窄，在新型不正当竞争案件的处理上存在困境[10]；后者主要表现为产品或服务具有差异性或替代性，如汉堡王与必胜客。

互联网领域内的经营者所提供的产品或服务往往存在交叉与重叠，如百度地图在提供导航服务时，也会提供目的地商户信息以丰富其功能，便利消费者寻找商户并促进消费；高德地图加入打车服务、美团平台收购摩拜单车等事实亦可看出互联网行业的发展趋势在于为客户提供便捷连贯的服务，以争夺目标用户群体。传统的竞争关系分类与认定必然无法满足互联网时代的要求，通过比较国际上对不正当竞争的认定趋势也可得知，比起竞争关系，其更加注重不正当行为本身[9]266。

在本文提及的典型案例中，经营者运营的互联网平台主营项目均不相同，如大众点评网主要功能在于提供商户信息及优惠等，而百度地图在于提供定位及导航服务。故笔者认为，互联网领域内的不正当竞争行为认定应将重点放在竞争行为本身上，对于竞争关系的认定需考虑经营者是否因此获得了竞争能力，或者导致其他方失去竞争优势。数据抓取行为的目的之一在于为用户提供更加全面方便的信息，吸引用户使用经营者提供的产品或服务，实质上是对用户本身的争夺。故对于此类案件竞争关系的认定不应限于同业或类似行业之间，而应从其经营行为本身即抓取数据所面向的用户流量进行判断。

2.损害的认定——用户群体减少与交易机会丧失

经营者是否因行为受到损害往往难以取证，在大众点评诉百度与微博诉饭友案中，大众点评与微博在对对方抓取数据的行为及数据内容进行证明时，均采取了公证的方式，但大众点评涉及的点评数量及微博明星用户主页内容数量较为繁冗，若每条信息均要求以公证方式予以举证，可操作性并不强，且前述数据多为用户提供的公开数据，大众点评与微博并未从上述数据信息中直接获取客观收益，故上述数据抓取行为带给其的损失的计算方式也是值得讨论的问题。

笔者认为，在数据抓取造成损失的界定上，应先考察行为是否导致竞争利益的损害，再据此考量损失的赔偿方式及范围。用户群体及交易机会的减损是值得考量的因素，互联网平台所拥有的数据无论是否公开均是吸引客户流量的重要商业资源，用户使用某一平台部分原因在于该平台可提供其他平台无法提供或更为优质的信息，若其他平台通过抓取数据到自己的平台上，用户在登陆其平台时亦可享受到其他平台同质或类似的信息服务，其成为信息来源平台用户的需求自然减少，从而或导致信息来源平台用户流量或活跃度降低。同时原始数据虽由平台用户提供，但平台本身在获取用户提供数据及已有数据的后台维护均付出了一定劳动，如各平台对发布信息用户提供积分积累并提供相应奖品兑换服务等，通过数据抓取达到对数据及用户截胡的效果不利于促进经营者对数据的维护及向用户提供更优质的产品或服务。

交易机会的减损是规制的根本原因，由于竞争者对数据的不正当利用，导致流量被截取，无形中交易机会间接减损[11]。这是用户数量减少带来最直接的后果。同时数据的使用亦可为实施数据抓取行为的一方带来现实利益或潜在利益，如在微博诉饭友案中，法院在考量赔偿数额时即认为“用户在无需注册微博账号的情况下即可查看明星微博内容……吸引大量用户成为其票务等营利性业务的潜在客户”。不正当竞争的这类“损害”与损害后的金钱赔偿也并非等同。

3.不正当性的判断——实质性替代标准

ROBOTS协议在允许或禁止数据抓取行为的同时还为数据抓取提供“指导”，帮助数据机器人对恰当内容进行高效抓取，这是如今网络搜索引擎广泛认可并使用ROBOTS协议的重要原因。

依据新《不正当竞争法》第十二条第四项，数据抓取行为的不正当性在于是否妨碍、破坏了经营者提供网络产品或服务的正常运行，对此，笔者赞同以是否导致数据内容的“实质性替代”为判断行为是否超过必要限度的标准。对于“实质性替代”的判断标准，关键并不在于所抓取的数据信息数量或范围，而需考察经营者抓取其他平台提供的数据是否可极大降低用户返回数据来源平台对原始数据信息浏览机会，数据抓取使用不应直接代替数据来源平台向用户提供数据信息。如在大众点评诉百度案中，百度公司认为相比大众点评的用户评论数，其仅抓取了极少量评论在百度地图中予以展示，且其在下方指示了信息来源与跳转链接，不构成对大众点评的实质性替代；在微博诉饭友案中，复娱公司认为其仅展示了微博的部分功能及内容，亦标注了信息来源，不构成不正当竞争。但法院以用户对数据信息的浏览习惯以及数据来源平台对未注册用户浏览限制等其他运行模式否定了数据抓取平台的抗辩：用户在浏览点评信息时也并不会完整查看所有信息，未注册用户在数据来源平台的浏览一般会受到限制，而在数据抓取平台就部分信息完整展示的情况下，用户无需再回到数据来源处查看该信息，构成对原始数据的“实质性替代”，进而导致数据来源的用户数量与交易机会的被攫取。

在“实质性替代”标准以外，另需认识区分数据的“抓取”与“使用”行为，真正满足前述构成要件的行为往往系数据抓取后的使用环节。在典型案例中，被告以数据抓取行为未违反ROBOTS协议或双方订立的开发者协议的内容作出抗辩：大众点评诉百度案中法院认为未违反ROBOTS协议并不意味着可以任意使用相关抓取的数据信息，并以其使用数据的方式导致数据的实质性替代为由肯定了其行为构成不正当竞争；微博诉脉脉案中法院以数据抓取及使用行为违反双方已约定的抓取权限为由未采纳数据抓取方的抗辩意见。

笔者认为，数据抓取与使用行为系手段与目的的关系，之所以在ROBOTS协议允许数据抓取的情形下仍认定行为构成不正当竞争，关键在于抓取后的使用行为超过了“实质性替代”的限度，在其他案件中比起抓取行为，亦是后续的使用行为成为认定用户与交易机会丧失行为的关键。以ROBOTS协议为基础，即使其允许第三方进行数据抓取，对抓取数据的使用也不应超过“实质性替代”标准；在ROBOTS协议或特定双方的合作协议对数据的抓取作出限制的情形下，违反协议抓取数据本身并不足以构成不正当竞争，在所涉数据属公共数据的情形更是如此，后续对数据的使用行为才是不正当竞争应当关注的焦点。

四、结语

2016年中共中央办公厅、国务院办公厅印发的《国家信息化发展战略纲要》指出：“信息资源日益成为重要的生产要素和社会财富。”在互联网经济时代，企业的竞争力不仅仅是物质资本的比拼，更是数据规模之间的博弈，庞大的用户及数据流量成为经营者参与竞争的重要商业资源。对于数据抓取应回归到不正当竞争行为本身对其进行界定与规制，ROBOTS协议或其他经营者之间订立的数据合作协议作为行业公认的规则或合作双方达成的共识，其合理性及是否违反不能成为界定数据抓取是否构成不正当竞争行为的唯一标准。ROBOTS协议在搜索引擎中广泛使用的初衷之一在于使数据定位更加高效、准确，以促进信息的流动与共享，故不正当竞争也非可用以规制所有数据抓取行为。在判断时着眼于行为本身而非数据，是数据抓取是否纳入规制的关键所在。

ROBOTS协议下数据抓取行为规制研究——以《反不正当竞争法》为视角