于 冲,王 宸
(中国政法大学 刑事司法学院,北京100088)
随着网络黑灰产业链的形成与危害性递增,数据爬取很大程度上成为“网络黑产”的源头。网络爬虫技术的普及和优化大大降低了普通人参与数据犯罪的难度、提高了数据获取的效率,以数据窃取为基础的黑色产业链也随之成熟,逐步转向“技术密集型”,呈现出规模化、链条化的趋向。在数据互联互通的时代,各种非法网络爬虫除了依附于主流的数据产业之中扮演“搅局者”的角色之外,还有可能直接参与网络犯罪,成为网络黑灰产业链的“帮凶”,甚至作用越来越关键。对此,刑法在规制网络黑色产业链的过程中,应当全面打击包括非法爬虫行为在内的上下游犯罪,阻断数据非法流通的源头。
数据爬虫,又称为网络爬虫、网络蜘蛛,是指根据使用者所设置的指令在不同的网络站点跳转的过程中自动提取网页内容的脚本工具,使用者在万维网上利用这种程序预设规则来筛选、抓取所需要的数据的行为就是数据爬取行为[1]。由于网络信息资源的指数级增长,数据信息的获取已经不再是通过站点式的访问、分析来进行,巨量化的数据筛选与获取往往需要通过搜索引擎、大数据挖掘等技术来实现,作为前述技术底层应用的网络爬虫成了强有力的数据获取手段。数据爬取长期以来一直被视为是中立的技术,但随着数据的经济价值的迸发以及网络爬虫技术所固有的隐蔽性及高效性,数据爬取行为开始表现出其不受控制的违法性的一面,一些数据爬取行如今已经成为网络“分割化”的有组织犯罪前端的重要一环,进而需要法律对其进行评价。整体上来说,这种异于正常使用网络爬虫的行为开始异化成为违法犯罪行为,或者说数据恶意爬取行为的异化特征主要表现在数据爬取行为的“链条化”“法益侵害多元化”和“违法性边界模糊化”。
囿于传统的经济模式无法将个人的敏感信息成规模地流通,侵犯个人信息犯罪曾一直处于小规模发生状态,但随着“双层社会”形态的形成,网络空间中储存的个人信息数据渐趋转化为有驱动力的经济利益,网络空间侵犯个人信息获取的有关数据构成了网络黑产的关键环节,而数据爬取也成为侵犯个人信息数据犯罪的重要途径。数据爬取行为冲破了技术中立的原则,随着数据产业的纵向链条中下一层级的行为实施变成了具有社会危害性的行为,出现了与这一链条下游犯罪行为成立共同犯罪的情况。例如,在2019年,魔蝎科技有限公司——一家从事“大数据风控”公司的高管因涉嫌违规收集数据和助力暴力催收被警方带走,魔蝎科技公司所推出的“同业爬虫”产品,能够在通过授权后在后台收集公民的通话信息和消费记录等信息,甚至有较高的概率还可以爬取用户的职业、银行卡信息、贷款记录、理财信息等,从多方面对借款人进行综合评估,为金融贷款平台的决策作出判断[2]。在此事件中,魔蝎科技有限公司违规收集公民的个人信息并交给现金贷机构,对于贷款平台获取客户、推销自己的贷款服务业务甚至暴力催收都提供了重要的帮助。在网络空间中的有组织犯罪不再是传统社会中的线性的递进过程,而是呈现出一种复杂的网络化一对多、多对多的关系[3]。它们已然形成了数据贩卖的整条产业链以至于表现出“组织套组织”的集群化特征,部分贷款机构甚至与网络黑产团队形成合谋,对于主要的手机软件所掌握的用户数据进行爬取,以此获取利益。整体而言,由于大数据时代的整个纵向产业上都分布着数据的收集、储存、传输与应用等环节,在这些不同环节中也都有不同的法律要求,要想保持共享网络数据的行为在法律的框架范围之内而防止其成立犯罪,必须要对作为“链条”源头的网络爬虫行为的刑事规制必要性进行考量。
在数据爬取行为异化的挑战下,如何平衡数据开放和数据保护成了互联网的新主题,被爬虫爬取的对象——数据的背后所体现的权利类型、法益属性呈现出纷繁复杂的态势,也需要进一步明确。过去的司法判决更多的是从认定不正当竞争即恶意利用网络爬虫破坏了市场竞争秩序的角度来讨论数据爬取的行为。如在深圳谷米公司诉武汉元光公司不正当竞争案中,元光公司利用网络爬虫爬取与其竞争的谷米公司“酷米客”软件上实时公交数据为自家的“车来了”软件所使用,法院认为谷米公司通过付出辛劳而收取、分析、整合的数据信息是具有实用性并且能够为其带来一定的经济利益的,法院肯定该数据已经具备了无形的财产属性,而元光公司使用网络爬虫大量爬取这一数据,这种不劳而获的行为在具有主观故意的情况下已经破坏了他人的竞争优势,扰乱了市场竞争秩序,已经构成了不正当竞争行为①参见广东省深圳市中级人民法院(2017)粤03民初822号民事判决书。。在“脉脉”非法抓取使用微博用户信息不正当竞争纠纷案、大众点评网诉爱帮网不正当竞争案等案件中,法院也都认定其中恶意利用网络爬虫的行为是不正当竞争的行为,这为规制网络爬虫提供了一个很好的思路。但是不当的使用网络爬虫任意爬取数据所侵犯的不仅仅是竞争秩序,在数据权利化的法律背景之下,非法的数据爬取可能会在法律保护上出现公私法的分野,私法领域要关注的是数据的商业化价值与竞争所带来的利益,而在公法领域更多关注的是网络数据安全保护。网络数据恶意的爬取行为给企业知识产权的保护、正常的竞争秩序以及商业秘密甚至国家安全等利益都带来了困扰,这就要求我们必须考察网络爬虫所爬取的数据权利类型,在多元的权益基础上合理回应不同数据主体的利益诉求。
网络爬虫技术本质上是一种能为人类的发展带来极大帮助的中立技术,网络爬虫虽然在大数据分析、数据筛查与收集方面存在着无可比拟的技术优势。但“新技术新应用一方面催生着新威胁形态,为数据安全带来新风险;另一方面导致传统数据安全保护策略的有效性降低甚至失效”[4]。长久以来,由于网络爬虫所侵害的权益关涉到了不同的部门法,很难确定其承担何种类型的责任,恶意数据爬取一直都在游走于违反相关的数据管理规定而承担民事责任与违反刑法而承担刑事责任之间。在刑法规制层面,规定了“违反国家有关规定”“非法”等空白罪状,但对于前置法中的违法性标准并没有进行详细的规定,导致网络爬虫的刑事违法性边界也逐渐模糊化,其罪与非罪更加难以界定。在2019年海淀区法院审理全国首例爬虫入刑案件之后,开启了关于网络爬虫的刑事规制的讨论,虽然也存在一些争议,但是此后诸如王某一犯非法获取计算机信息系统数据罪①参见浙江省绍兴市越城区人民法院(2019)浙0602刑初1143号刑事判决书。等案件也都是以《刑法》第285条第2款规定的非法获取计算机信息系统数据罪来进行认定的,这为思考如何规制网络爬虫,考察如何平衡数据共享与数据安全提供了一个良好的开端。
随着数字经济的发展,与信息数据相关的业务都关注与信息主体日常生活相关的数据中所包含的价值,而大数据挖掘和云技术的发展使得对互联网终端计算能力的要求减弱,数据的储存和流转不再是针对数据挖掘的主要技术过程,仅仅数据的获取就已经足够了。数据价值的发掘也需要网络爬虫的参与,爬虫作为一项技术本应服务于正常的产业,但是随着恶意使用技术的行为进入市场,打破了原有的技术中立。在主流数据产业中,数据的恶意爬取行为从原来的“不和谐的音符”变为了网络有组织犯罪的帮凶,刑法对此必须作出回应,但是目前恶意的数据爬取行为一直游走于刑事违法的边缘,其刑事违法性的边界存在一定的模糊性,主要表现在判断恶意爬取与“合规”爬取的边界模糊;恶意判断的模糊性,即爬取行为的主观罪过没有明确;爬取对象判断的模糊性,即不分网络爬虫所爬取的数据类型而一概地思考规制的可能性。
如何界定清楚数据是恶意的爬取还是“合规”的爬取,首先需要明确的便是有关于数据开放与流通共享的理念问题。当前,从数据安全的角度出发,社会所关注的重点内容已经由数据静态安全向数据动态安全转变,表现为从数据所承载的内容的安全转向数据处理活动的安全,而这种数据安全内容的演变也为数据的刑法保护提出了新的挑战,一方面,在动态数据的各个环节上都出现了数据安全的保护需求;另一方面数据由私人领域扩展至公共领域,个人信息数据的网络化和透明化趋势已经难以逆转[5]。而在数据的共享与开放层面,数据共享是数据所具有的本质特性,也是推动数据立法的关键所在,正如前述中所说的数据获取在数据流转的过程中起到了关键作用,而网络爬虫技术的应用则强化了数据获取的能力,推动了数据共享与数据开放的进程。但网络爬虫抓取数据的方式多种多样,其中包括了合理利用网络爬虫在网站同意的情况下抓取数据,也包括了为违反网站的服务协议中对访问者权限的规定而爬取数据或者存在利用强制技术手段突破网站所设置的限制性来抓取数据。刑法虽然保护数据利益,但是对于数据利益的过度保护则会导致数据的流动不畅,从而造成数据壁垒,最终会反过来减损数据本身的价值,因此刑法对于网络爬虫所带来的风险在一定程度上需要容忍,刑事规范应当在数据保护、数据共享以及数据开放之间形成一种有张力的平衡,不能过度地保护数据,也不能对于数据共享放任自流,刑法需要在价值冲突下实现有效的沟通与协调,从而能够保障明确一个合理的入罪边界。
司法实践中针对数据爬取行为的刑事规制有:我国刑法第二五三条之一“侵犯公民个人信息罪”和第二八五条“非法获取计算机信息系统罪”。数据获取虽然是一项正常的数据共享的行为,但这两个罪名对于获取行为的规制关键就在于获取行为前的限定条件,即侵犯公民个人信息罪中的“非法”获取和非法获取计算机信息系统罪中的“违反国家规定”“侵入”并获取,其中“侵入”一词本身就是指违反了国家规定而无权进入。由于“非法”和“违反国家规定”在此处起到的是对违反法律、法规的表示作用[6],因此在判定恶意的数据爬取行为的形式违法性时,需要考察其是否违反了相关的前置性的法规。而梳理当前的相关法律规范,《网络安全法》中确定了收集信息必须经过被收集主体的同意这一原则,但是没有具体明确被收集主体同意的情形,比前者《数据安全管理办法(征求意见稿)》规定得更为细化②数据安全管理办法(征求意见稿)》第16条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。,但同样没有详细的说明数据主体何时为同意,因此法规对于数据爬取的规定仍然只是判断爬取合规的一个前置性标准,在实质上判断爬取行为是否“合规”还应当判断数据爬取是否具有权限或者是在权限之内进行数据的抓取,考察爬取行为是否有权限的关键点就在于利用爬虫访问时有无突破网页所设置的数据保护措施。
我国目前对于防止数据被非法爬取的保护散见于《民法典》中的《侵权编》、《反不当竞争法》、《刑法》以及《网络安全法》等法律规范中,司法实践中只有考量案件的不同性质后才能做出相应的法律保护或救济。刑法由于其谦抑性和最后性,成为规制网络爬虫的最后一道防线,而行为对法益的侵犯程度成为判断对该行为是采取刑法手段规制还是划入到民法、行政法的领域管辖之内的关键,如何判断数据爬取行为严重侵犯刑法所保护的法益则应当取决于数据爬取的对象,而依据数据的公开程度将数据划分为开放数据、限制重新使用数据和保密数据[7]。对于不同类型的数据,网站的主体也会对其设置不同的获取和利用规则,数据的掌握者对于数据的管控程度也不尽相同,基于前述的数据共享、开放与保护的平衡理念来看,数据的开放程度代表了数据主体对于数据上承载的信息的可获取程度的认定和分级,根据数据开放程度所划分的数据类型表示了数据的排他性需求,依照各种数据所得到的不同授权和保护的需求对数据进行分享,也是在数据流通时保障数据安全的有效手段,而对于数据安全的保护也应当根据数据上所承载的多重权益确定保护的路径。
1.对开放数据的抓取
对于开放的数据,其代表了数据权利人认可访问者有访问、获取和利用的权限,因此对于该种类型的数据,利用网络爬虫进行爬取应当也能肯定是经过数据权利人的认可的,因此爬取开放的数据无论从传统法益还是从新的数据安全法益的角度考虑都没有侵犯到刑法所保护的法益,爬取此类公开的数据不需要承担刑事责任。而对于处于公开可访问状态但又限制重新利用的数据来说,利用数据爬取手段获取数据是经过数据主体同意的,但是需要注意的是在获取数据之后的利用行为,可能会承担包括侵犯知识产权和企业竞争秩序在内的民事责任,此时侵犯法益的是在获取数据之后的非法利用行为,而非利用网络爬虫的数据爬取行为本身,因此以该类型的数据为对象的数据爬取行为不需要承担刑事责任。
2.对非开放数据的抓取
对于部分数据,网站可能出于特定的原因在一定的范围内授权特定的主体访问一定的数据,如网站设置身份验证等技术措施限制数据被公开,数据的权利主体设置此类数据访问和获取规则是因为这种数据中通常包含了个人隐私、知识产权、企业商业秘密等信息,数据主体出于数据排他性的需求,对此类数据做了不同的访问获取权限。由于当前针对数据以私权利保护的状态远远不够,对权利的相关规定容易处于虚化的状态,社会由此经历着数据私权公法化的趋势[8],刑法更需要提前采取手段而不仅仅是最后的规制,以保护这些特别重要的数据法益,保护数据的保密性、完整性与可利用性。因而行为人爬取这部分的非开放的数据可能要承担相应的刑事责任。
总而言之,只有厘清爬取不同类型的数据所承担的责任,才能正确认识恶意数据爬取行为的刑事违法性。对于爬取开放数据的行为,由于其实质上并没有侵犯刑法保护的法益,因此也不应当承担刑事责任,只需要依照民法和竞争法对其行为进行规制即可;而爬取非开放的数据的行为,由于可能侵犯数据中所包含的特别重要的法益,因而应该进入到刑事规制的范畴之内。但是在司法实务中,并没有针对行为所爬取的不同类型的数据分别确定数据爬取行为的性质,而是将其一概入罪,如在元光公司与谷米公司不正当竞争案有关的刑事判决中,元光公司的邵某等人利用网络爬虫抓取谷米公司后台服务器中储存的公交车行驶信息等数据被判非法获取计算机信息系统数据罪,有观点认为公交车的行驶信息等数据是开放数据,抓取该类型数据不应当适用刑事制裁手段,只需要在民事违法的层面进行解决即可。当然,当前也存在不少类似的开放数据爬取行为被认为是刑事不法的判决,这种不分数据类型而一概入罪的做法造成了数据恶意爬取行为刑事违法性边界模糊不清的情况发生。导致数据爬取行为民事违法性与刑事违法性的判断冲突。
在给数据爬取行为定性时,其恶意性的判断成了性质认定的关键,“恶意”是指行为人对其行为所具有的一种“恶”的意思,从本质意思上说是行为人对其行为具有坏的用意、意图,这在文义上通常表示为一种目的,而刑法中的犯罪目的通常是指犯罪人主观上通过犯罪所希望达到的结果,是以观念形态预先存在于犯罪人大脑中的犯罪行为所预期达到的结果,这种犯罪目的在刑法上又被称为主观的超过要素,它是故意内容之外的对于某种结果、利益、状态、行为等的内在意向[9]。但是“恶意”并不是与犯罪目的相同而作为主观的超过要素,因为“恶意”只是一个单纯的概念,对于法益的侵害并不具有实践意义。而在另一个方面,其与刑法规范语言中的“故意”有着明显的不同,因为从希望达到所认识犯罪事实心理状态上来说,故意中的意志因素虽然也是一种目的,但是故意的意志因素中包含着对犯罪结果的内容,而“恶意”作为一种目的仅仅只有价值上的评价,只是一种坏的目的,并不包含具体的内容[10]。“恶意”本身就具有模糊性,依此对行为的性质判断也必然具有一定的任意性,比如侵入网站并抓取数据的行为,行为人若是自称“白帽子”,其抓取数据旨在发现平台的安全漏洞并督促平台进行修复,这种目的是善意还是恶意恐怕难以真正判断。笔者认为,此处对于数据爬取行为的恶意性判断其实是指对于要进入刑事规制视野内的数据爬取行为的主观心理要素的判断,而在数据爬取行为前加上恶意仅仅是为了表明对这种数据爬取行为的归责的迫切性,因此爬取行为的恶意性判断其实就是指严重侵害法益的数据爬取行为的主观罪过的判断。
在谷米公司与元光公司不正当竞争案中,被告辩称其爬取数据的行为仅仅是为了对比数据,最终为社会公众谋益,并不具有主观上的恶意。可以想到在相当多的相关案件中,被告人都会辩称其利用网络爬虫仅仅是将它作为一种数据获取技术,并没有认识到行为所造成的危害后果,也没有希望或者放任这种结果的发生,因此不具备犯罪的故意,不应当对其归责。而此时如何限定数据爬取行为的主观罪过成了一个难题,加重了恶意数据爬取行为的违法性边界的模糊性。当然,目前有多数的观点认为在主观上应当从明知其爬取了网站主体所禁止爬取的数据的角度来认定其行为的主观罪责,行为人基于自由的意志在违背权利人的意愿的情况下爬取数据,即能够证明其具有犯罪故意。这种从行业准则遵守的角度来判断行为的主观心理思路也具有积极参考意义。
针对恶意的爬取行为与“合规”的爬取行为边界不清的问题,应当在明确只有在未授权或者超越授权的情形下爬取非开放的保密数据才具有刑事违法性的情况下,进一步对违反刑法的数据爬取的行为方式及行为对象进行类型化整理,重点针对不同行为对象的数据爬取行为采取不同的刑事责任承担方式;而对于恶意数据爬取中的恶意性判断不清的问题,应当明确爬取行为的主观罪过,并最终将数据爬取行为的责任与行为的违法性判断相结合,保障刑法能够合理地规制恶意的数据爬取行为。
行为人使用网络爬虫爬取数据在技术路径上进行分析又可以分为进入访问、获取数据和解析内容并提取使用三个功能,明确行为人爬取数据在客观上突破了反爬虫的数据保护措施只是数据爬取的第一阶段,是决定数据爬取有无授权性质以及决定数据爬取的刑事违法性的关键,而数据获取和其后数据的利用阶段在不同的场景下会决定整个数据爬取行为的类型,对于具体的数据爬取行为可能会因为其行为的类型不同而认为符合不同的犯罪构成要件。当前,具体的数据爬取行为可以分为三种:获取式数据爬取、侵入式数据爬取以及破坏式数据爬取。
1.获取式数据爬取
是数据爬取行为中的主要类型,也是前述所主要针对的数据爬取的类型,其主要是利用网络爬虫的数据获取以及对数据的解析和筛选利用功能造成了法益的侵害。而将此类型的数据爬取行为入刑的关键就在于明确其入罪范围,首先要判断行为人是否有权限进行抓取或者是否在权限之内进行数据的抓取。换言之,“未经授权”或者是“超出授权范围”的爬取行为违反了国家对于数据安全管理的法律法规,进而严重侵犯了网络和各类数据的法益,因此具有刑事违法性。前述“未授权”和“超出授权”的数据爬取行为又可以分为违反授权意思的数据爬取和强行突破反爬虫措施的数据爬取行为,而违反授权意思型的数据爬取行为仅应当承担民事违约责任而不需承担刑事责任,而采取突破技术限制的方式爬取数据的行为因具有更严重的危害性而可能进入到刑法规制的范围。笔者认为,恶意的数据爬取行为的合理入罪路径,应当是将是否采取突破数据主体设置的反爬虫技术措施而强行爬取数据作为“未授权”或者“超越授权”的判断依据,进而确定该行为是否具有刑事违法性,而不应当是司法实践中不区分数据爬取的行为类型一概入罪的判断方式。由于爬取行为所抓取的数据类型多样而侵犯了不同的法益,因此刑法对于获取型的数据爬取行为规定了包括非法获取计算机信息系统罪、侵犯公民个人信息罪、侵犯著作权罪、侵犯商业秘密罪等多个犯罪,要判断爬取行为的刑事不法性,不仅应当通过“未经授权”或者“超越授权”来判断是否达到形式上的违法,还需要根据爬取行为的具体对象来考察行为是否侵害到法益以及侵害到何种类型的法益,从而判断爬取行为的实质违法性。
2.侵入式数据爬取
是指数据爬取仅作为侵入的工具,为侵入计算机信息系统提供条件。常表现为利用网络爬虫自动运行相关指令的功能以及不间断巨量化重复运行的技术特点,针对不特定计算机信息系统通过检测网页漏洞或者根据相关账户注册习惯进行“撞库”对比测试账号和对应密码的方法,未经许可而批量登录其他网站中,实质上数据爬取技术对于侵入计算机信息系统的结果而言,其所发挥的是一种进入工具的作用,但是从另一个角度来看,所有的恶意数据爬取行为由于会突破访问限制而伴随着侵入到相关计算机信息系统之中,虽然侵入一般的计算机信息系统不会受到刑法的规制,但是利用网络爬虫在未授权或者超出授权的情况下侵入了涉及国家安全、国防建设以及尖端科学技术领域的计算机信息系统或者在前述计算机信息系统中利用网络爬虫爬取数据,则可能构成侵犯计算机信息系统罪。在司法实践中也出现了侵入式的爬取,如在李某环等非法侵入计算机信息系统案中,被告人利用网络爬虫软件,大量爬取全国各地尤其是凉山州车管所公布的车牌放号信息,然后通过该软件突破系统安全防护措施,将抓取的车牌号提交至“交通安全服务管理平台”的车辆报废查询系统进行自动对比,自动记录未注册车牌号,建立全国未注册车牌号数据库①参见四川省德昌县人民法院(2018)川3424刑初169号刑事判决书。。法院认定被告人违反国家规定,侵入国家事务领域的计算机信息系统,构成非法侵入计算机信息系统罪。
3.破坏式数据爬取
是指利用数据爬取行为对目标计算机信息系统造成破坏,其多强调利用网络爬虫的多线程、批量的访问和发送获取数据请求两个情景给被访问的网页流量承受造成压力,造成被爬取的网站服务器崩溃,其与DDOS攻击的技术表现形式相差无几,或者在网络爬虫中设置相关删除或修改指令,再植入目标计算机信息系统,修改或删除特定信息数据。如杨某明等破坏计算机信息系统案,被告授权公司员工开发附带爬虫的软件,并利用网络爬虫不间断爬取深圳市居住证网站上的数据信息,对该网站形成每小时十万次的访问量,造成了深圳市居住证系统服务器阻塞,无法正常运行,被告人最终被法院判处构成破坏计算机信息系统罪②参见广东省深圳市南山区人民法院(2019)粤0305刑初193号刑事判决书。。再如王某文破坏计算机信息系统案中被告将其编写的爬虫程序植入全运会接待服务系统,删除大量参赛人员的信息,造成接待服务系统无法正常运行,被法院判处构成破坏计算机信息系统罪③参见天津市南开区人民法院(2017)津0104刑初740号刑事判决书。。上述案例中,行为人均是利用网络爬虫对网站进行恶意的数据爬取,其最终目的并不是获取相应的数据,而是利用数据爬取的重复性操作来攻击计算机信息系统,造成不能运行的后果或其数据被删除的后果,已经构成了破坏计算机信息系统罪。
由于数据权限的开放程度不同表现了不同类型的数据有着不同的保护需求,因此在判断爬取行为的刑事违法性时,不仅要考察行为是否得到授权,还要依据所爬取的数据的类型来判断数据爬取行为对法益的侵害是否达到了刑法的可罚程度。承前所述,由于开放数据的排他性需求低,即便是在未授权的情况下爬取该类数据,对法益的侵害程度也较低,并未达到刑罚惩罚的程度,因此该类型的数据爬取行为仅需要划入到民法、反不正当竞争法规制的范畴之内即可,而不需要将爬取此类数据的行为入罪,但由于我国司法实践中不分爬取行为对象的类型而一并入罪,造成了当前认定数据爬取行为所要承担的法律责任混乱的困境。申言之,当前解决困境的路径就在于要明确只有利用网络爬虫在未经授权而抓取了采取保密措施的数据的爬取行为时才应当是需要接受刑法规制的爬取行为。在明确了采取保密措施类型的数据或者说限制访问、获取类型的数据而进行爬取的才是数据爬取入刑时需要考虑的问题,想要有效地规制数据爬取行为还需要进一步考察究竟何种具体的数据应当被归入到保密的数据类型中,还需要进一步进行类型化的判断。又因为获取式的数据爬取行为可能会面临触犯多种罪名的风险,而“刑法上的犯罪不可能仅按照行为手段进行分类,而是要按行为所侵害的具体法益进行分类。”[11]不同具体类型的数据上表征着不同的法益,所以需要对保密数据进行进一步的类型化明确,由于采取了限制访问、获取措施的数据一般都是承载着极为重要的利益的排他性需求高的数据,结合刑法中所保护的法益类型,笔者认为可以将保密数据进一步分为个人数据、具有创造性的智慧数据和去除财产化、创造性、可识别性之后的一般数据[12]。
1.个人数据
是指与个人相关的数据。在大数据技术背景下个人数据与个人信息已经呈现出交融而无法区分的状态,本质上看个人数据就是个人信息,个人数据中既包括了与人的生理密切相关的生物数据、敏感数据,又有与个人自由密切相关的数据,还含有一定的个人社交信息等[13]。主要可以分为具有可识别性的和不具有可识别性的两部分,其中具有可识别性的部分也是最为主要的个人数据部分。在当前背景下,社会所共享的数据中的大多数数据都是依靠个人的行为和活动所产生的,由于数据聚合所发生的作用使得大部分的数据都具有了可识别性,包括了直接识别和间接识别,司法解释也将个人信息定义为了具有识别性的各种信息①最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第1条规定,《刑法》第253条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。,其表征出了个人信息权的保护法益。但是个人数据中并不只是具有个人信息权意义上的权属、同时还具有财产的属性、经济秩序等权益,而后者就集中于无法识别部分的个人数据。笔者认为,讨论个人数据的财产属性并不适用于数据爬取的语境之下,因为获取式的数据爬取并不侵害数据主体对于数据的实质占有,可以认为是一种数据的“复制获取”,因此对于主要表现为“虚拟财产”的个人数据财产属性不在此进行探讨,而具有经济秩序利益的个人数据,如商业公司保管的客户名单等,笔者认为可以将其归入到商业秘密中的管理信息中,因而可以将该类型的数据划入到智慧数据中进行讨论,因此网络爬虫中所抓取的个人数据主要还是具有可识别性的个人数据。主要包括姓名、身份证号码、住址、通信信息、财产状况、生物识别信息以及相关的个人记录信息等。在个人数据的储存或流转之时就会面临被爬取的风险,而爬取具有可识别性的个人数据的行为已经符合了“非法获取”可能构成刑法中的侵犯公民个人信息罪。如马某侵犯公民个人信息罪中,被告人利用自己编写的爬虫程序窃取了包括姓名、联系方式等内容在内的公民个人信息约20万条,并向他人出售牟利,法院认定被告人违反国家相关规定,非法获取公民个人信息后向他人出售,情节特别严重,已构成侵犯公民个人信息罪②参见上海市金山区人民法院(2018)沪0116刑初924号刑事判决书。。
2.智慧数据
在大数据时代,数据作为一种非物质载体成了一切信息得以储存和传播的新形式,开始发展成为新的抽象物,而知识产权也逐渐摆脱了物质载体的形态,向其信息的本质深化,数据成了知识产权的新的财产形态[14]。作品、专利、商标以及商业秘密等传统的知识产权客体都在计算机信息系统或者网络中以数据的形态储存或利用,法律对这些新数据客体予以网络知识产权保护,同时也衍生出了许多新的法益,即数据库、计算机软件、网络域名以及数字化作品,而严重侵害这些新的法益的行为,也应当在刑事层面给予合理的规制。总结刑法中对这些数据的保护可以分为著作权保护与商业秘密保护两种模式,对所爬取的数据以著作权进行保护要求数据上所呈现的作品必须具有独创性,如数字化了的照片、音频和视频等作品,利用数据爬取上述视频、小说等作品便符合了侵犯著作权罪中的“复制发行”相关作品的构成要件,可能具有侵犯著作权罪的风险;对于所爬取的数据如具有记录相关技术成果、商业情报信息、客户信息以及相关的管理方法等信息,则宜采取商业秘密的保护模式,爬取相关类型数据的,若是严重侵犯了商业秘密的保护法益,则应当以侵犯商业秘密罪定罪[15]。
3.一般数据
此类数据是指在排除了上述的可识别性、创造性以及去除财产性之后的其他数据,所以统称为一般数据,其与上述两种数据不同之处在于:一般数据在去除可识别性、创造性以及财产性之后仅仅是技术意义上的数据,本质上是“0”和“1”组成的代码,不同于前述两种数据类型所属的规范意义上的数据。而刑法对于技术上的数据主要保护的是数据安全法益,即保护数据的保密性、完整性和可利用性。因此,在针对前述两种数据类型的数据进行爬取时,刑法在规制时首先考虑的都是对于传统法益的侵害而并非是对计算机信息系统安全法益进行考察,只有在数据的内容和类型无法被评价为个人数据或者智慧数据时,才能判断其为一般的数据,而爬取的行为对象为一般数据,应当以非法获取计算机信息系统数据罪进行定罪。
承前所述,在恶意爬取行为中“恶意”一词并无任何实质的内容含义,其仅仅作为一种纯粹的价值评价,以“恶意”修饰数据爬取行为意在评价此种数据爬取行为会造成严重的危害后果从而应当接受刑法的规制,行为人未经授权或者超越授权以突破网页设置的反爬虫技术措施爬取到了数据主体采取限制访问获取的保密数据,对于此类行为往往可以推定其主观上有违法性的认识,即表征为“恶意”,因此,把握数据抓取行为的“恶意”其实就是明确该行为的主观罪过。实践中,很多的犯罪嫌疑人都会辩称其认为网络爬虫是行业内公认的数据获取的中立技术,没有认识到数据爬取所造成的社会危害,因此不具有主观上的故意。对于恶意的爬取行为的主观罪过集中在犯罪故意中的认识因素之上,行为人对于爬取行为的违法性以及社会危害性有认识,便具有了故意的心理状态,可认为其具有“恶意”。
笔者认为,确定爬取行为的主观罪过可以结合行为的具体客观事实来进行判断,即在主观罪过方面,行为人具有“恶意”是一种推定的知道。行为人对于恶意的数据爬取行为具有犯罪故意要求行为人必须明知恶意爬虫的功能、爬取行为性质以及所造成的危害结果,而刑法上的明知概念本是较为狭义的“认识”,因为其属于明确的认识知道[16],但司法解释中将“应当知道”纳入到了明知的范畴中①如最高人民法院、最高人民检察院《关于办理侵犯知识产权刑事案件具体应用法律若干问题的解释》第9条第2款规定,具有下列情形之一的,应当认定为属于《刑法》第214条规定的“明知”:……(4)其他知道或者应当知道是假冒注册商标的商品的情形。,有观点认为立法者使用“应知”一词的真实含义应当是指推定知道,这种应当知道应当与明确知道是并列的,同是明知的情形[17]。虽然对此也有反驳的声音,但实际上正反双方对于犯罪故意的论证都是殊途同归,可以在形式上不使用“应当知道”的术语,却在实质意义上使用“应当知道”的内核,都是在故意中引入推定的知道[18]。因此,在判断恶意爬取行为是否具有主观故意时可以结合有关客观事实与证据,推定出行为人对恶意使用网络爬虫的事实具有明知。明确恶意爬取行为的主观故意主要从四方面进行判断:第一,行为人所处的行业及其对于技术的掌握程度,行为人若从事互联网行业,进行与大数据有关的工作,其就应当被认为对于数据爬虫这一技术相比于一般人有着较高的风险意识,应当能认识到恶意的数据爬取所造成的危害性,而不是利用这种技术从事违法犯罪;第二,行为人有对于网络爬虫的特殊功能指令的设置行为方式,行为人在爬取数据时需要设置网络爬虫来满足其犯罪的需求,若是行为人对于网络爬虫设置了突破被爬取目标采取的诸如屏蔽IP、身份验证等数据安全保护措施的相关功能和指令,则足以说明行为人对于其未经授权或者超越授权而爬取数据的行为性质具有认识,也说明其对于违反《网络安全法》、《计算机信息系统安全保护条例》等国家对于数据信息管理的法律法规、行业准则等具有认识。从另一方面来说,若是行为人设置网络爬虫的主要功能集中于获取、侵入或者破坏这三个层面,也可足以说明;第三,行为人利用网络爬虫所爬取的数据属于保密的类型,行为人为满足其特定的犯罪需求,必定是设置爬虫针对特定类型的数据进行抓取,说明行为人对于其抓取的属于限制访问、获取类型的数据具有认识,也能推定出行为人对于其在抓取特定类型数据之后所造成的危害后果是知道的,如行为人设置针对公民个人信息、商业秘密、带有知识产权性质的作品的网络爬虫时,结合前述的突破访问、获取权限的行为来看,行为人对此必定是明知的,因此具有相关犯罪故意的认识因素,从而可以表明行为人主观上具有相应的犯罪故意。