数据爬取合法化的正当性及制度设计

2024-04-29 23:16宋家璇董金鑫
秦智 2024年2期
关键词:利益衡量

宋家璇 董金鑫

[摘要]为保护企业数据财产和公民个人信息,当前我国司法实践将未经授权的数据爬取认定为侵权,甚至情节严重的认定为犯罪。对数据爬取的评价需要进行利益衡量,原因在于数据爬取存在利益冲突,此种冲突集中体现为平台的数据财产利益、信息自由利益和反垄断利益无法同时实现。通过对数据爬取利益和拒绝数据爬取的利益进行衡量,可以发现法律应当维护数据爬取利益,数据爬取并非违法行为。为纠正司法实践对数据爬取的错误评价,应当通过立法确立公开数据属于公众、公开数据可自由流通。为了使制度能够真正落地,还需要妥善应对数据爬取合法化带来的一系列潜在风险。

[关键词]数据爬取;利益衡量;数据归属;数据流通

[中图分类号]D922      [文献标识码]A

[DOI]:10.20122/j.cnki.2097-0536.2024.02.004

引言

数字时代,数据成为关键生产要素,企业之间的竞争已经扩展到数据上的竞争,平台有着强烈的控制自身数据的意愿,为此平台会设置反爬取措施避免自身数据被他人爬取。由于公开数据的开放性程度较高,爬虫总是能够爬取到数据,平台为维护自身权益只能求助于法律,因此产生了大量的法律纠纷。当前我国立法在数据爬取问题上尚处空白,司法实践在保护被爬取方利益的同时,阻碍了公开数据的流通,而数据流通能够实现巨大的社会利益。这一现象向法学界提出了一个问题,数据爬取利益是否比拒绝数据爬取的利益更值得法律保护,这一问题等同于数据爬取是合法行为还是违法行为,对这一问题的解答决定着公开数据的归属和流通,并直接影响着立法和司法实践。为此,本文试图揭示出数据爬取能够实现的法益,通过对爬取方和被爬取方的法益进行衡量,以解决数据爬取是否应当合法化这一问题。

一、数据爬取面临现实困境

我国一概禁止数据爬取的执法和司法,忽略了数据爬取利益,当前法律维护的是拒绝数据爬取的利益。[1]已生效的司法判决具有立法的效果,其产生的指引和预测作用,使数据爬取面临着违法甚至犯罪的危险,严重阻碍了数据流通,数据爬取利益难以实现。具体来说,两方面原因使数据爬取利益难以实现。一是法律对数据财产的保护阻碍了数据爬取,法律要求爬取方爬取公开数据需要获得平台同意,未经平台授权爬取数据构成侵权。二是法律对个人信息的保护阻碍了数据爬取,法律要求爬取方爬取已公开的个人信息需要获得个人同意,未经个人授权爬取承载着个人信息的数据构成侵权。

(一)法律对数据财产的保护阻碍了数据爬取

对于公开数据属于谁这个问题,立法并未做出规定。而梳理现有的数据爬取纠纷判决,可以发现法院普遍认为未经授权爬取数据侵犯了平台的数据财产利益,通过援引《反不正当竞争法》第2条判定未经授权爬取数据构成侵权。[2]此外,刑法第285条第2款规定了非法获取计算机信息系统数据罪,实践中已有未经授权爬取公开数据被定罪的先例。司法实践承认了公开数据属于平台,要求爬取方爬取数据需要获得平台的同意。而对于很多公开数据,平台不会允许社会公众爬取,强行爬取构成侵权,严重的构成犯罪,数据爬取受到极大阻碍。

(二)法律对个人信息的保护阻碍了数据爬取

信息一经分享进入公共领域即视为可自由流通,然而大数据时代使得信息流动的元规则因个人信息保护受到挑战。在微博诉脉脉案中,法院明确提出了三重授权原则,即第三方通过开放平台爬取用户已公开的个人信息,需要用户授权+平台授权+用户授权。具体而言,一是微博获取用户个人信息需要用户授权;二是爬取方爬取个人信息需要微博授权;三是爬取方爬取个人信息需要用户授权,违反该原则的数据爬取是违法的。微博诉脉脉案,给社会公众一种指引,爬取承载着个人信息的公开数据现需要个人同意。爬取承载着个人信息的公开数据需要个人同意,会因为涉及海量个人信息,而难以履行告知同意义务,数据爬取受到严重阻碍。

二、数据爬取合法化的正当性

法律对数据爬取的评价需要进行利益衡量,原因在于,数据爬取和拒绝数据爬取所实现的利益都是法律保护的利益,并且一方利益的实现会导致另一方利益无法实现,存在利益冲突。此种冲突集中体现为平台的数据财产利益与信息自由利益和反垄断利益无法同时实现。通过比较两种利益的重要性,可以发现数据爬取利益大于拒绝数据爬取的利益,两利相衡取其大,法律应当选择维护数据爬取利益,数据爬取是一种合法行为。

(一)拒绝数据爬取的利益为平台的数据财产利益

在数据生产活动中,平台投入了大量的劳动和资本,平台建立起网络架构,在此架构基础上生产了大量数据,并且平台需要一直维护网站的正常运行,保存并管理产生的数据。财产法的一般原理是,对于通过自身劳动创造出来的财产,劳动者享有处分权利。所以凭借着劳动和资本投入,平台获得了数据财产权利,这种权利受到法律保护。未经授权爬取数据损害的是平台的数据财产利益,拒绝数据爬取的利益为平台的数据财产利益。

(二)数据爬取利益为信息自由利益和反垄断利益

数据爬取实现了信息自由利益。我国宪法规定公民享有言论自由权,言论自由权利的设立目的在于保障公民可以自由交流,然而言论自由权的内容却仅保护言论可以自由发出,对言论可以自由接收的保护长期缺位。信息自由权保护的是接收言论的自由,根据言论自由权的设立目的可以发现信息自由权是一种隐含的权利。[3]宪法中已规定的具体的基本权利的内涵决定着人权条款中人权的外延,言论自由属于人权,与之相对应、具有同等地位的信息自由也应当属于人权,信息自由是宪法应当保护的基本权利。信息自由包含着获取信息的方式和工具使用的自由,数据爬取是一种获取信息的方式,数据爬取技术是获取公开信息的一种工具,数据爬取自由是信息自由的应有之义,所以公民享有爬取公开数据的权利,数据爬取实现了信息自由利益。

数据爬取实现了反垄断利益。平台授权其他主体爬取数据的方式是通过公布robots.txt文件,robots协议本质上是授权条款,在一般禁止的情况下,其向外界宣示哪些主体可以爬取数据。在浏览器的网址搜索栏中输入域名/robots.txt,可以查看平台的robots协议,查看了微博、抖音、快手、好看视频、百度知道、百度百科、百度经验、百度贴吧、百度文库、搜狗问问、搜狗百科、360问答、360百科、知乎、哔哩哔哩、小红书的robots协议。能够发现许多平台存在差别授权的现象。平台的差别授权突出体现在,上述平台通过robots协议授权的主体都是当前用户数较多的搜索引擎,而拒绝其他一切主体爬取,百度、谷歌和搜狗得到了所有平台的授权。百度、谷歌和搜狗比通用搜索引擎市场的潜在进入者占有更多的公开数据,如果没有获得授权的主体无法爬取到数据,那么平台的差别授权行为会在通用搜索引擎市场产生排除、限制竞争的效果,原因如下。首先,公开数据是搜索引擎提供搜索服务的基础。其次,多占有的数据所承载的信息是用户在使用搜索引擎时最需要的那类信息,并且多占有的这部分信息在质量和数量上,都要优于潜在进入者占有的相应信息,多占有的这部分数据是提供更好搜索服务的基础。最后,当数据的数量较多、质量较高,因模仿所需要的经济成本过高以及耗费的时间过长时,实际不具备可模仿性。[4]多占有的数据所带来的竞争优势能够在通用搜索引擎市场排除、限制竞争。我国反垄断法的调整对象是垄断行为,排除、限制竞争的行为是垄断行为,平台的差别授权行为是垄断行为。尽管这种行为不同于反垄断法已规定的任何一种具体垄断行为,但因为其属于反垄断法的调整对象,受反垄断法调整,为调整这种垄断行为需要使公众能够爬取到数据。数据爬取起到了反垄断的效果,数据爬取实现了反垄断利益。

(三)数据爬取利益重要性大于拒绝数据爬取利益

社会公共利益是指不特定的社会成员所享有的利益,数据爬取利益包括信息自由利益和反垄断利益,数据爬取利益是社会公共利益,平台的数据财产利益是一种个体财产利益。社会公共利益优先于个体财产利益是基本共识,[5]所以信息自由利益和反垄断利益都比平台的数据财产利益更为重要,数据爬取利益的重要性大于拒绝数据爬取利益的重要性,法律应当选择维护数据爬取利益,数据爬取并非违法行为。

三、数据爬取合法化的制度设计

(一)将数据爬取确立为合法行为

为维护数据爬取利益,摆脱当前数据爬取面临的困境,应当通过立法的方式纠正司法实践对数据爬取的错误评价。在制度设计上,应将数据爬取确立为合法行为。数据爬取合法化的关键在于明确的数据归属,明确的财产权属能够有效避免纠纷,对于数据的流通和利用、培育数字经济有着重要意义,有恒产者方能有恒心。具体来说,法律应当规定公开数据属于公众,公开数据是一种公共财产,任何人都可以自由地复制和利用,享受该财产利益。此外,应当明确规定用户一旦公开承载着个人信息的数据即具有同意他人爬取的意思表示,爬取承载着个人信息的公开数据无需获得任何人的同意,公开数据可自由流通。

(二)妥善应对数据爬取合法化带来的风险

在维护数据爬取利益的制度设计上,要妥善应对数据爬取合法化带来的一系列潜在风险,着重预防平台商业利益和个人知识产权利益受到损害,降低法益受损风险,以兼顾好社会各方利益,为公开数据的自由流通铺平道路。为防止流量过载导致平台商业利益受到损害,法律应当做出下列规定。其一是允许平台在大多数时间里设置反爬取措施,在清晨和深夜等用户数非常少的时间,禁止平台设置反爬取措施,反爬取措施起到减速带的作用。其二是允许平台设置在不同的时间段所能够承受的最大爬虫流量值,当达到最大值时通过弹窗的方式警告爬取方,若爬取方继续爬取构成侵权。其三是允许平台规定某些时间段禁止爬取方爬取数据,例如在用户使用平台的高峰期,可禁止爬取方爬取数据,违反平台规定爬取数据构成侵权。其四是将集中的爬虫流量分散开来,可规定某个时间段只允许商用爬虫爬取数据,某个时间段只允许普通用户爬虫爬取数据。为防止用户的知识产权利益受到损害,应当规定只要未经用户同意,将用户在平台生产的内容发布在其他平台就构成侵权。实质性替代平台的内容或服务需要发布海量的内容,发布方实际不可能获得那么多用户的同意,因此这样的规定可以有效预防用户的知识产权利益受到损害。

四、结语

数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。在当前实践中,由于爬虫对于很多公开数据的爬取是违法的,公开数据无法自由流通,数据的大量价值尚未发掘。本文揭示出数据爬取能够实现法律保护的利益,法律对数据爬取的评价需要进行利益衡量。通过利益衡量,发现数据爬取利益是更值得法律维护的利益,数据爬取是一种合法行为。最终得出了公开数据属于公众、公开数据可自由流通的结论,这一结论的意义不仅在于能够实现信息自由利益和反垄断利益,而且可以充分释放出数据的潜在价值,有益于社会的进步和发展。

参考文献:

[1]许可.数据爬取的正当性及其边界[J].中国法学,2021(2):166-188.

[2]卢代富,张煜琦.从权益保护到利益衡量:数据抓取行为正当性认定的路径优化[J].河南财经政法大学学报,2022,37(6):59-70.

[3]敖海静.信息自由的宪法基础[J].华东政法大学学报,2023(2):34-52.

[4]孙晋,钟原.大数据时代数据构成必要设施的反垄断法分析[J].电子知识产权,2018(5):38-49.

[5]王利明.民法上的利益位阶及其考量[J].法学家,2014(1):79-90+176-177.

基金项目:青岛市社科规划项目,项目名称:新冠疫情背景下青岛市涉外合同法律适用研究(项目编号:QDSKL2101048)

作者简介:

宋家璇(1999.5-),男,汉族,山东潍坊人,硕士,研究方向:民商法学;

董金鑫(1985.9-),男,汉族,山东威海人,博士,副教授,研究方向:国际民商法。

猜你喜欢
利益衡量
论司法实践中的利益衡量
以利益衡量的方法评析“孙某诉天津新技术产业园区劳动人事局工伤认定案”
浅谈利益衡量作为民法解释方法的具体适用
浅析法治环境下的利益衡量问题
对行政诉讼中关于原告若干问题的思考
论死刑的成本与效益
涉外案件适用什么法律,由谁来查明
社会结构变动下利益衡量原则在刑法中的运用
民事诉讼非法证据排除规则构建设想
司法裁判“利益衡量”的现实问题