徐 放
(江西财经大学 法学院,江西 南昌 330013)
网络爬虫技术因其成熟性和便捷性,高度参与到互联网信息社会建设中去。随着技术的普及,网络爬虫顺应互联网用户不同的需求,催生出多样化的应用。但网络空间因其特有的匿名性和高效的传播速度,与传统的公共空间区别开来,激化了部分网络爬虫技术滥用的后果,使得少数恶意网络爬取行为对网络空间的危害扩大化。腾讯云鼎实验室发布报告认为,互联网最激烈的对抗战场,除了安全专家与黑客之间,大概就是爬虫与反爬虫领域了。每天至少数十亿的爬虫在互联网上孜孜不倦地工作,影响着我们生活的各个方面,从火车抢票到医院挂号,从热点炒作到信息泄漏而在电信运营商行业中,恶意爬虫流量主要集中在运营商各种互联网套餐手机卡的查询,形成相关刷靓号、抢号、代购等产业链。网宿科技报告显示,当前爬虫流量遍布于互联网各个行业。同时,爬虫产生的流量正在以惊人的速度迎头赶上人类在互联网上真实的访问流量。阿卡迈技术公司 Akamai报告显示,利用爬虫程序来撞库仍是互联网企业面临的最大威胁,2018年5月和6月的爬虫程序恶意登录次数超过83亿次,月平均增长率达到30%[1]。网络爬虫对互联网秩序的破坏可见一斑,因此,从刑法学角度对造成严重社会危害性的恶意网络爬取行为进行规制显得尤为重要且紧迫。
要在刑法学视野下正确的规制网络爬取行为,应先将网络爬取行为与其他互联网正当行为区分开来,厘清网络爬取行为所涉及犯罪的具体表现形式,并从中觅得网络爬取行为的特征。网络爬取意指用于从网站提取数据的数据爬取行为,尽管网络爬取可以通过软件用户手动操作完成,但该术语通常是指使用自动程序或网络爬虫实现的自动化过程。而网络爬虫是一种系统地浏览万维网的网络自动程序,通常是为了建立网络索引和实现网络爬取。
网络爬虫技术的原理本质上是按预定程式访问指定页面,如同“爬虫”字面的意象,像昆虫一样从一个页面“爬”到另一个页面,模拟用户访问网页的点击动作,再爬取相关数据并执行特定的操作。而使用网络爬虫技术的应用则是将这一功能高度集成化的工具,使用者根据不同需求对爬虫进行设定,使爬虫执行预设的操作,从而爬取对使用者而言有价值的数据。将网络爬虫相关概念概括来看,网络爬虫可以简化为一个在公共空间采集特定数据的工具,其可能牵涉到的犯罪行为应主要从两个角度分类辨析,一个是爬取数据的行为,另一个是被爬取的数据本身。
仅在爬取这一部分所涉及的行为定性讨论,主要集中在网络爬取行为违背数据占有方意愿进行爬取行为,具体的表现形式依严重程度一一区分开来不尽相同。在实践中,网络爬取违背数据占有方的意愿到何种程度才应进入刑法规制的视野,其界定罪与非罪、此罪与彼罪的界限较为模糊。
实际的爬取行为相对于数据占有方可以是温和的也可以是粗暴的。温和的爬取行为往往是互联网信息社会所提倡的,是符合互联网共享精神的,对公共空间的信息进行整合再利用,如互联网较为常用的搜索引擎,谷歌、百度等,已逐渐成为互联网基础信息建设的一部分。粗暴的爬取行为可能造成不同程度的危害结果,轻则突破反爬虫限制,重则高频爬取网站数据致网站服务器瘫痪。这一类爬取行为本质上都是未经授权爬取数据,而数据的访问权限是界定网络爬虫法律责任的关键要素[2],因此在判断爬取行为的罪与非罪、此罪与彼罪时,通常以爬取行为未经授权作为定性标准之一。实践中突破反爬虫限制的爬取行为是较为常见的,网站管理者为减轻网站访问压力,避免爬虫抢占访问资源,会设置相对基础的反爬虫技术措施。尽管反爬虫措施能将很大一部分网络爬虫阻拦在外,但部分爬取者因自身利益需要也会升级爬取技术突破限制。如企业间使用网络爬虫爬取优质内容,在上海晟品公司案中就在使用网络爬虫时突破了反爬虫措施,以便爬取字节跳动公司服务器的视频数据,最终被定为非法获取计算机信息系统数据罪①。
除突破反爬虫措施以外,是否未经授权爬取数据的判断标准也包括是否违背网站自身设置的相关声明等,如在用户协议中声明排除用户对爬虫的使用,并提示用户浏览或是同意。大型企业间的爬取纠纷常牵涉到是否获得授权的问题,发生在美国的HiQ诉LinkedIn案中,HiQ为商业目的抓取了LinkedIn的公开数据,LinkedIn向HiQ发函要求其停止未经授权的访问和数据爬取行为,并针对HiQ设置了相应的技术手段防止其爬取相关数据。HiQ 向法院提出了诉讼认为LinkedIn违反了加州宪法有关言论自由的规定以及加州的《反不正当竞争法》等;而LinkedIn借此指控HiQ违反了美国联邦法律《计算机欺诈与滥用法》(CFAA)的规定,“未经授权或超越授权进入计算机系统并获取信息”的行为,构成犯罪。在美国《计算机欺诈与滥用法》(CFAA)中,对“故意未经授权或超越授权访问计算机信息系统并因此从任何受保护的计算机获取信息”的行为创设了刑事责任。正如美国最高法院解释的那样,该法“规定了两类非法访问受保护的计算机信息系统从而构成犯罪的行为: (1)未经授权访问;以及(2)虽获得授权访问但加以不当使用”[3]。本案中HiQ的爬取数据行为是否未经授权成为了讨论的焦点。根据美国法庭类似判例中的认识,已获得授权后被撤回授权的,应被认定为未获授权,属于CFAA所规制的犯罪行为。但法院根据CFAA的立法目的在于“保护私密计算机系统不受黑客攻击”,而HiQ网络爬取的是LinkedIn的公开数据,这种保护不适用于对公开信息的访问,且基于对CFAA扩张解释可能对互联网开放性造成伤害,法院最终并未采纳HiQ违反了CFAA的主张。CFAA中的未经授权标准经过法院的再认定,保护了互联网公开数据的共享理念,是促进互联网社会繁荣发展的基石。这样较为合理的划分应为国内的司法实践所借鉴,其界定网络爬取行为边界从较为宽泛的互联网空间出发的思路可以运用在互联网案件的审理中。
认定爬取行为有无授权的另一个重要标准在于是否遵守了被爬取网站的robots协议②。爬虫访问站点时会先去网站的根目录下查找文件robots.txt,如果有这个文件就会根据文件上的配置进行访问。通过robots.txt就可以约束爬虫的爬取行为,这样既可保护网络隐私和个人敏感信息,又可以让有价值的信息被搜索整合再利用。但在实践中也出现许多爬虫设计者不尊重robots协议这样互联网通行的约定,直接无视相关的协议直接爬取。因此robots协议这样约定俗成的弱规范难以有效规制恶意的网络爬取行为,但是在认定网络爬虫的法律责任时robots协议却可扮演重要角色,网络爬虫不遵守对方的robots协议间接反映了对方不尊重数据占有方的意愿肆意爬取,在认定爬取行为是否未经授权时起到关键作用。
当爬取者缺乏对网络空间规则基本尊重抑或是了解时,就可能出现较为严重的危害结果,此时进入刑法的规制范围是毋庸置疑的。如杨某、张某破坏计算机信息系统一案中③,杨某作为公司技术总监,为公司利益收集深圳市居住证网站数据,指使下属张某开发爬取网站数据的爬虫软件,可达到每小时几十万次的访问量,且杨某明知该爬虫对居住证网站频繁访问存在危害性。某日张某使用爬虫两小时内每秒访问深圳居住证系统183次,共计查询151万条信息并保存,造成该时段居住证系统无法正常访问,其他用户无法正常使用平台业务,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常运作。在该案中,法院对使用网络爬虫高频访问网站爬取数据致使居住证系统不能正常运行的行为定性为破坏计算机信息系统罪,该案反映了网络爬取行为不仅仅因对数据占有者意愿的违背可能构成犯罪,对网络爬虫的滥用还会危及其他计算机信息系统的安全,同时因其本身的随意性会同时损害计算机内部存储数据的安定,是一种针对数据安全的犯罪。
从网络爬虫犯罪爬取行为的认定标准来看,网络爬虫突破反爬虫限制和违背robots协议即为对数据占有方意愿的违背。这样以是否未经授权爬取数据的认定标准,通过有无授权来明确对数据的权利,实质上是从对数据利用的角度出发,保护数据占有方或是生产方的权利,排除他人的不当利用,确立了对数据所享有的权利。
网络爬取行为对数据占有方意愿的违背,和对被爬取计算机系统及其内部存储数据安定的危害,进入了刑法规制的视野,主要涉及到非法获取计算机信息系统数据罪和破坏计算机信息系统罪两罪名。二者均设置在妨害社会管理秩序罪条目下,即其主要目的在于通过两罪保障网络社会的日常管理活动,防止公共利益受损,可见现有规制爬取行为的罪名主要着眼于对公共法益的保护,而疏于从个人数据视角保护数据法益。
从被爬取的数据角度来看,网络爬虫在实践中爬取数据的性质也不尽相同。一般的商业爬取行为,如抢票平台使用网络爬虫进行高频访问售票网站达到抢票的目的,但实际上该类爬取行为分为两个部分,一部分是对航班车次信息进行爬取,航班车次信息为网站公开信息,对公开信息的爬取并整合不构成网络爬虫犯罪,爬取行为的另一部分是让抢票软件在网站上模拟用户点击高频访问售票页面,在短时间内抢到票,但并未爬取任何数据。从售票网站实际运行状况来看,大量爬虫软件汇集在售票网站爬取购票信息和刷票给网站造成了巨大的负担,高峰期网站流量90%都是网络爬虫所占据,平时也能达到50%的占比,网络抢票爬虫的使用无形中增加了被爬取网站的运营成本。但由于被爬取网站是由多爬虫同时爬取页面导致不堪重负的,难以将最终的危害结果归咎于某一抢票平台,实践中也罕有追究抢票平台刑事责任的案件,在某种程度上放纵了抢票平台对网络爬虫的应用。
网络爬取个人信息的案件近年来发案频繁,互联网垃圾信息泛滥,个人信息的泄露也同样严重。尤其是在过去我国对个人数据保护措施相对缺乏的情况下,个人信息相关违法行为层出不穷的态势得到重视,个人信息相关法律纷纷出台,在刑法修正案(七)中设立的非法获取公民个人信息罪,并在刑法修正案(九)修改为侵害公民个人信息罪,从刑法角度规范了对个人信息的保护。网络爬取数据涉及到个人信息的情形下,应具体情况具体分析,侵害公民个人信息罪中的“个人信息”要求具备个人身份的可识别性,但对数据达到何种程度即符合可识别个人身份的特征,仍有讨论的必要。
网络爬取的用户数据中,通常以Cookie信息、账号、密码、用户名等为主,在可识别性上相对模糊,也有部分数据直接指向个人身份,如身份证号、姓名、出生年月等数据。实践中的网络爬取行为常涉及到此类较为模糊的数据,如Cookie信息在不同网站包含的内容不同,并不存在统一的格式,主要的作用在于保存用户登录信息,免于下次重复输入账号密码的繁琐操作,相当于一把用户自行保存的访问钥匙。单单只是一串代码形式的秘钥难以定位用户个人身份,但当用户账号绑定了一系列敏感个人信息时则应认定为公民个人信息,因为秘钥与公民个人信息直接关联。而不同的网站又根据网站本身的需求预留了不同形式的Cookie信息,其中可能涉及用户平时的访问记录、用户的家庭住址、电话号码等个人隐私信息,这部分数据经过整合后可以间接指向用户的个人身份,可以被认定为公民个人信息。Cookie信息还包含少数用户访问习惯,大多是为了方便向用户精准推送内容的标识,用户的访问习惯数据是相对笼统模糊的,无法指向单一个人身份,故不应认定为公民个人信息。从对Cookie信息的定性来看,也可把握其余被网络爬取的用户数据性质如何界定,一般的身份信息数据直接认定并无争议,而部分数据经大范围整合后可间接指向个人身份信息的,也应认定为公民个人信息。而不涉及个人具体身份而是偏好和个性化数据被爬取不得认定为侵害公民个人信息。
网络爬取犯罪从数据的角度分类,可以区别出与前述爬取行为侵犯不同的法益。一般公开数据不侵害任何法益,不认为是犯罪,而爬取个人信息相关数据的,侵害了公民个人信息自由和安全,而非爬取行为所涉的公共法益。从法益角度来看,个人信息自由和安全法益配合前述公共法益,规制网络爬取行为的范围相对完善了,在一定程度上兼顾了私人与公共的数据权利保护。
网络爬取行为从数据和爬取行为的角度来认定犯罪都有不同程度的边界,归根结底在于,网络爬虫只是一个犯罪行为的工具,犯罪中对工具的应用方式是不断发展的,其犯罪行为的表现形式会随着时代更迭而演化。因此认识网络爬取犯罪的角度不在于工具本身,而应选择工具本身作用的对象来理解行为的定性,从而总结出认定的规则。
国内刑法范畴内的网络爬取行为规制目前尚处于较为模糊的地带,类似的案例可能由于对行为类型的区分不同,对网络爬取数据这一行为侵害的法益也有不同理解,以至于最终认定的罪名也不同。要对网络爬取行为进行合理的规制,不仅要划清行为之间的界限,同时还要重新理解网络犯罪相关的罪名,应从新时期互联网空间的数据视角进行解释。
网络爬虫的发展史,实为互联网企业的几十年时间的缩影。资本的原始积累都是血腥的,为了抢占市场攫取利润,早期互联网企业大多踩在灰色地带行走,大型互联网企业不遵守行业规范的网络爬取行为是相当普遍的。在数十年间各大互联网企业间的竞争和进步下,国内的互联网产业逐渐规范起来,相关的网络犯罪研究得到了重视,互联网领域法规也一一颁布,早期的互联网产业乱象已被有效扼制。由于互联网产业与网络空间这一提倡共享交流的领域紧密绑定在一起,相关的网络犯罪仍会呈现多样化的发展趋势,当前刑事司法对网络犯罪的规制多以大型互联网企业的利益受到侵害为出发点,打击的对象却以小公司和个人为主,而大型互联网企业侵害个人权益和打压小公司的情况下却鲜见有刑法介入。这显然背离了相关刑法设置的本意,大型互联网企业因其造就的巨额纳税和大量就业岗位,对当地司法机关的影响力较大,大型互联网企业的举报和报案往往都能得到司法机关的重视,同时入罪的倾向也更显著。要为互联网企业塑造一个良性发展的未来,应对企业公开数据的爬取行为应采取较为宽容的态度,提倡企业间对公开数据的正当爬取行为。绝大多数网络爬取纠纷本质上是企业间的商业竞争行为,少数是个人滥用行为引发的,商业领域中的网络爬取纠纷有其内在的商业逻辑,并辅以一套相对完善的民商事救济手段。从提倡互联网企业公平竞争的角度考虑,网络爬取纠纷的解决机制可以效仿经济案件的处理思路——先民后刑的救济规则,企业间的网络爬取纠纷存在民事救济可能性的,优先采取民事救济手段,将刑事制裁手段后置,对于企业间网络爬取行为纠纷应最后选择刑事制裁介入。这样的处理模式可以免除对网络数据利用的后顾之忧,将互联网市场竞争最大化,促进行业发展的同时也给用户带来便利,而不会束缚住新兴互联网企业的身手。
对一般的互联网爬取纠纷应提倡民事救济手段优先,涉及到刑事规制也要以出罪思路为主,保护好有潜力的新兴互联网企业的发展,同时避免对个人网络爬取行为的规制扩大化。
网络爬取行为为抓取有价值的数据,破坏了存储数据的计算机信息系统,一般被认为应归类在计算机犯罪,但这种对网络爬取犯罪的理解是不恰当的,应在规制网络爬取行为的情况下引入数据犯罪的概念。以计算机犯罪来理解网络爬取行为,是一种相对机械的划分,不利于对此类利用新兴技术不断进化的网络爬取犯罪进行刑法学解释,以数据犯罪的视角去理解网络爬取犯罪更为适宜。
要厘清二者之间的关系,首先要界定数据与信息的关系。信息是一种泛指的无形内容,信息本身的传播存储需要介质或者说载体,而数据即为信息存储的一种载体,其最基础的存储形式为0和1的二进制数据,因此数据并非无形,而是客观存在的事物。数据将信息以数据形式存储的方式是现代科学技术发展到计算机时代才出现的,数据是计算机系统的计算对象,计算机系统主要用于处理不同种类的数据。对计算机信息系统的理解,应更进一步透过计算机去挖掘内在的数据,数据安全才是计算机信息系统安全的核心,计算机信息系统犯罪危害的不仅仅是计算机信息系统的安全,主要是对其内在数据造成了危害。以破坏计算机信息系统犯罪为例,计算机信息系统大范围瘫痪不能使用,本质上是影响了计算机正常处理数据的功能,造成了计算机内部重要数据丢失的损失。依此观点,则刑法中对计算机信息系统犯罪的设置不够合理,计算机信息系统的概念过于冗长,直接纳入数据犯罪概念会在结构上简洁优雅,并不会像计算机信息系统的概念一样较为笼统,理解容易出现分歧。以数据视角设置相关犯罪可以更有效的保障被害人的数据损失,以数据为切入点衡量相关犯罪造成的实际损失,为定罪量刑提供直观的指引,直接限制了计算机信息系统犯罪的向口袋罪演变的趋势。
在网络爬取行为规制中涉及到的罪名从刑法的妨害社会管理秩序罪跨越到侵犯公民人身权利民主权利罪,表明其侵犯的法益是在现行刑法体系下是相对复杂的,并非单一明确的法益。网络爬取行为主要侵犯了公民个人的信息权和计算机信息系统安全这两大类法益,计算机信息系统安全主要代表该行为对公共法益的保护,是出于对社会整体性利益的考虑,而公民个人信息权则是表达私人信息权利不受侵犯。但二者的法益保护范围在实践中仍会出现空缺,从数据的视角来看,除去公共网络空间的秩序中的计算机安全,和个人隐私的信息安全,还须解决两个数据盲区产生的问题。
个人数据是包含个人信息的大概念,个人数据既包括属于个人的数据也 包括关于个人的数据,在中文语境中,它可能比个人信息概念的外延要广一些[4]。大数据时代下,诸多除个人信息以外的个人数据和冗余信息被重新收集起来,单一或者是少数的该类数据没有任何实际价值,在大数据概念之前这样的整合是毫无意义的,但在大数据的应用被炒热之后,对无显著价值的冗余信息的收集重新得到重视。在现行刑法的角度,对除个人信息以外的个人数据和冗余信息是不予保护的,但实际中该类数据经过挖掘也会体现潜在的巨大价值。若网络爬取行为延伸到对该类数据价值的挖掘,并最终获得了大样本下反映整体的相关信息,利用其造成危害结果,将可能影响到广泛的人群,其后果比一般的网络爬取行为要严重得多。因此如何对网络爬取大量个人数据和垃圾数据的规制是一个新的挑战。
个人身份信息以外的个人数据中,尚有许多数据权利未得到保护,爬取此类不用于识别个人身份的数据因不属于违反公共管理秩序的行为,不会得到较为完善的保护,被肆意爬取后同样会导致数据所有的个人受到损失。且在爬取过程中也不单单针对个人,对不特定多数人群的非身份数据进行爬取,从法益角度来看,不能以非法获取计算机信息系统数据罪定罪,更不能定侵害公民个人信息罪,这样的行为会被现有的刑法设置所忽略。而司法实践中为了强行规制此类行为,不得不将使用较为相近且释义模糊解释空间大的计算机信息系统犯罪,导致计算机犯罪沦为口袋罪。
此二种现象都让网络爬取犯罪涉及到的架构瑕疵暴露出来,对不受保护数据的挖掘和个人数据保护的不完善,都体现出计算机安全和个人信息安全的法益保护体系在面对日益变化的网络爬取行为不断完善的必要性。网络爬取行为的规制终究需要落实到数据层面上去,全面而针对性的保障数据安全,以数据安全法益作为网络爬取行为规制的出发点。数据安全可以囊括对个人和公共数据的保护,即便是个人数据受到不同程度的侵害,也可以要求刑事层面的救济,免于个人数据受到非法网络爬取。
综合来看,对网络爬取行为的刑事规制应把握民事救济优先,限制适用的原则,以保护数据安全法益为刑事规制的起点,同时将数据权利调整为探索相关罪名的立足点,逐步汰换计算机犯罪的概念,以数据犯罪的大概念来适应新时代保护数据权利的需求。
网络爬取技术已经成为信息社会的基础建设不可或缺的一部分,不论是企业还是个人的生产生活都离不开网络爬虫的参与。但在新兴技术的运用中都有一个从崭露头角到广泛接纳再到普遍应用的过程,为了使这一过程的进展平稳进行,对应用新兴技术可能带来的风险和纠纷应提前做好刑法层面的规制。而如何将规制新兴技术的思路与既有刑法体系对接是相关探讨面临的主要问题,对网络爬虫的规制在本文的思考中也贯彻了这一理念,不论从何种角度对网络爬取行为具体定性,最终还是要回到将网络爬取犯罪与大环境下的数据保护理念结合起来,迎接未来即将面临的以数据为核心的新型网络爬取挑战。在网络爬取行为分类讨论的基础上,从网络爬取犯罪的认定标准中可以观察到相关犯罪侵害法益归类混乱,实践中定性存在适用罪名为避免出错,相关犯罪设置向口袋罪方向发展,并有沦为企业保护工具的趋势。网络爬取犯罪从根源上侵害的是数据权利,要在刑法框架内有效规制这类行为,应维护数据方的权利不受侵犯,填补个人数据保护缺失的漏洞。可设立数据安全法益的概念来调整相关罪名打击的范围,并将以数据犯罪体系替代计算机犯罪体系,凸显数据在网络爬取犯罪中的重要性。对企业公开数据的网络爬取行为限制适用刑法规制,而对较为宽泛的个人数据爬取行为则积极适用,可在兼顾个人数据权利保护的同时推进互联网企业发展,最终实现对网络爬取行为的有效规制。
注释:
①北京市海淀区人民法院(2017)京0108刑初2384号刑事判决书。
②又名robots.txt,是一种存放于网站根目录下的ASCII编码的文本文件,网站通过robots协议告诉网络爬虫哪些页面可以爬取,哪些页面不能爬取。
③深圳市南山区人民法院(2019)粤0305刑初193号刑事判决书。