张一献
(上海市第二中级人民法院,上海 200070)
网络爬虫(Web Craler),亦称之为“网络蜘蛛”或网络机器人(Web Robot),它是一种自动化浏览网络程序,其按照设置的规则,通过模拟人工点击来自动地抓取互联网数据和信息,从而自动、高效地读取或收集互联网数据。本文依据是否获取授权和是否符合法律规定,将网络爬虫分为合法爬虫和恶意爬虫。前者遵守互联网行业规范,通过网络公开接口或购买接口授权爬取信息或进行访问,不会触发反爬虫措施;后者分析并自行构造参数对非公开接口进行数据爬取或访问,获取对方不愿意提供的数据。当前互联网信息规模呈现出指数级增长,信息的形态和分布呈现出多样化和碎片化的特征,人们对精细化、专业化信息获取和加工的需求与日俱增。网络爬虫基于技术优势在互联网安全监测、数据获取等方面得到广泛应用。但由于缺乏相应法律法规规范,网络爬虫行为常呈现出无序和混乱,尤其是对于恶意网络爬虫行为罪与非罪、此罪与彼罪的争议愈发激烈,亟需在司法实践中予以明确。须说明的是,为便于理解网络爬虫的运行原理和行为类型,本文对下列计算机专业术语进行通俗化解读:(1)Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制,类似的机制为设置Robots Meta标签(1)罗刚.网络爬虫全解析:技术、原理与实践[M].北京:电子工业出版社,2017.45.。它属于互联网行业规范,是网络爬虫访问网站默认的首个文档,爬虫可在网站根目录(www.AAA.com/robots.txt)中看到其内容,进而告诉访问者可抓取页面范围,从而为网络爬虫爬行为提供路径提示。(2)URL、HTML和UA。URL被译为“统一资源定位符”,它是Internet上描述信息资源的字符串,主要用在各种www客户程序(浏览器)和服务器上。HTML标签是指超文本标记语言,其中包含“超级链接”点,启动链接可使浏览器方便地获取新网页。UA(User Agent),中文名为用户代理,它是一个特殊字符串头,使服务器能识别访问者使用的操作系统及版本,通过判断 UA 来给不同的操作系统发送不同的页面。某些网站为识别爬虫程序会检测链接对象,此时可设置UA来隐藏爬虫真实身份,使程序正常运行。
随着网络爬虫在社会经济生活中的广泛应用,基于其技术原理与优势,恶意网络爬虫行为日益猖獗,常导致该行为面临异化为犯罪的风险。
网络爬虫的系统框架中,主过程由控制器、解析器、资源库组成。控制器属任务中枢,它按照系统传过来的URL链接来给多线程中爬虫线程分配任务,再启动线程启用爬虫获取网页数据;解析器是爬虫完成任务的主体,其负责网络爬虫下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签,分析数据;资源库主要是用来存储网页中下载的数据,并提供生成索引的目标源。故从功能上来讲,网络爬虫程序分为数据采集、处理、储存三个步骤。现实中网络爬虫多由几种爬虫技术结合实现,基于自动化算法,在现实应用展现出巨大的技术优势:
1.精准性。如聚焦网络爬虫能保证抓取数据与目标需求的高度相关性,它根据网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,随后根据搜索策略从队列中选择要抓取的网页URL,并重复上述过程,直到满足系统设置条件时停止。与此同时,被抓取的网页经系统存贮、分析等流程后建立索引以便后续检索,其分析结果可对后续数据抓取过程予以反馈和指导,从而确保抓取的数据与主题密切相关。
2.广泛性。通过对自动化算法程序的目的化设置,网络爬虫可将其抓取数据范围拓展至最大限度。以深层网络爬虫为例,其能抓取深层网络中的数据。深层网络是指那些储存在网络数据库中,不能以超链接访问而通过动态网页技术访问的资源集合(2)曾伟辉,李淼.深层网络爬虫综述[J].计算机系统应用,2008,(5):122.。相对于网页等表层页面无须提供表单,通用爬虫可通过静态链接访问静态页面;而深层页面隐藏在表单背后,不能通过静态链接直接获取,须通过提交关键字或注册用户后取得页面,此时就需要使用深层网络爬虫进行访问。
3.高效性。为确保网络爬虫在访问网站、抓取或更新数据时避免重复,从而提高效率,大幅节省人力和时间成本,网络爬虫仅爬取内容有变化或新的网页(也包括APP)。如增量式网络爬虫是对已下载网页采取增量式更新,只爬行新产生的或已经发生变化的爬虫,它能在一定程度上保证所爬行的页面是尽可能新的页面(3)张立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010,(15):4113.。
基于上述技术优势,网络爬虫被广泛应用到社会各领域,成为检测系统漏洞、舆情监控、行政执法、数据采集等领域的“利器”。技术是一把双刃剑,现实中网络爬虫技术被滥用的现象屡禁不绝,从而引发了新的风险。一方面,随着大数据日益巨大的内在经济价值,人们对大数据资源流通、变现的渴求与贪婪与日俱增。另一方面,网络爬虫技术更新快,常见的反爬虫措施只能提高网络爬虫行为成本和效率,难以有效抑制该行为,其具有明显的滞后性。此外,网络爬虫行为的技术门槛低,稍懂编程技术(如Python)即可编辑网络爬虫软件;技术资源获取途径便捷,其逻辑结构和源代码可在网上随意获取。上述原因均导致恶意网络爬虫行为的泛滥,致使网络爬虫的治理常出现“道高一尺,魔高一丈”的窘境。再加之行业规范缺失和监管不力,恶意网络爬虫行为常被作为新型网络犯罪的手段,进而触犯刑法:一是扰乱计算机信息系统正常运行。如多线爬虫频繁访问网站,大量占用宽带网络,增加网络服务器处理和注销的负荷,导致网站崩溃或不能访问。二是侵入、控制或破坏计算机信息系统。恶意网络爬虫侵入计算机信息系统,获取系统管理权,进而可删除、篡改计算机信息系统或文件,危害计算机信息系统安全。三是造成相关数据泄露。如利用恶意爬虫破解技术防范措施,非法获取公民个人信息、商业秘密、国家秘密等。据报道,在著名的“棱镜门”事件中,美国国安局职员斯诺登利用监管盲区,使用简单的爬虫软件复制并传播机密文件。四是恶意网络爬虫行为易成为滋生犯罪的“温床”。如行为人利用网络爬虫技术获取并贩卖公民个人信息或计算机系统高风险漏洞等给不法分子,为他人实施下游犯罪提供帮助,从而沦为犯罪链中的“数据掮客”。
网络爬虫行为的主要目的在获取数据。当前,大数据的功能和内涵日趋丰富,其具有“4V”特点,即大量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity)(4)王玉林.大数据应用的风控数据监管问题[A].新时代大数据法治峰会——大数据、新增长点、新动能、新秩序论文集[C].北京:中国政法大学出版社,2017.115.。随着数字技术触角延伸至社会的各个领域,越来越多的数据成为传统法益存放、分享和使用的载体,对数据的侵害逐渐成为扰乱网络安全秩序的主要手段。信息秩序的建立无法脱离数据媒介而独立完成,信息的分享、交易的完成亦是通过数据操作行为来实施或实现(5)梅夏英.数据的法律属性及其民法定位[J].中国社会科学,2016,(9):169.。须说明的是,即使是恶意网络爬虫行为,该行为并非绝对属于刑法调整,只有该行为具有刑法中的法益侵害性时,方构成犯罪。这是因为,刑法需对恶意网络爬虫行为进行筛选、甄别,并根据其行为的性质、危害结果判断其法益侵害性程度,进而决定是否由刑法来调整,从而合理划定恶意网络爬虫行为入罪边界,确保刑法的谦抑性。故恶意网络爬虫行为与其他违法行为无异,其具有法益侵害性时方可入罪。
司法实践中,囿于立法的不完善和滞后性,导致网络爬虫行为合法边界模糊,再加之其侵害对象的多样性,致使涉恶意爬虫行为入罪出现下列问题:
1.罪名适用口袋化趋势明显
司法实践中,未能区分网络爬虫行为获取数据的属性差异,忽视数据所蕴含的权利属性,片面强调数据的物理属性,多以兜底性罪名(非法获取计算机信息系统数据罪)论处。究其原因,一则是因为审判中仍以计算机信息系统安全为重心,以技术限定为中心,而非以信息和数据安全为中心,基于司法惯性,多侧重于保护信息网络安全;二则囿于取证难度和证明标准等现实问题,多回避了对所抓取的数据类型、价值、获利和损失等内容的认定,而以证明标准较低的兜底性罪名进行定罪。三则是由于刑事立法的被动性与滞后性。从现实来看,刑法应对科技发展带来的挑战略显迟缓,对恶意爬虫行为是否入罪尚存争议,明显难以跟上大数据时代的潮流。
2.非刑事立法缺乏体系化和精准度
刑法作为对法益的二次保护,须在其他法律难以抑制恶意网络爬虫行为时启动。当前涉网络爬虫行为立法尚处于探索阶段,常出现“无法可依”或“有法难依”的窘境:一是数据抓取方已从搜索引擎延拓至手机APP、内容聚合平台和数据分析网站等其他主体,数据抓取方式更加复杂多变,手段更趋隐蔽,加之各主体间相关法益边界迄今仍未划清,这些行为合法与违法的界限益发模糊(6)曹阳.我国对违反“爬虫协议”行为的法律规制研究[J].江苏社会科学,2019,(3):161-162.,使得网络爬虫行为时常游走于法律的灰色边界。二是规范网络爬虫行为的非刑事立法不足。如“违反国家有关规定”是该行为涉嫌犯罪的前提,但相关法律法规尚不完善,多属于原则性规定,缺少系统性和可操作性。三是刑法和行政法规衔接不足。涉网络爬虫行为的有关规定分布松散,又未能体系化。如刑法和《数据安全管理办法(意见稿)》中“公民个人信息”的概念明显不同,后者内涵明显小于前者,导致法律适用时标准不一。
随着技术升级换代,恶意网络爬虫行为针对的对象和范围日益扩大。司法实践中,其客观行为类型有以下几类:
1.非法复制、传播知识产权作品
网络爬虫行为未经允许复制或传播文字、图片、视频等作品时,因该类作品具有独创性和显著性特征,该行为涉嫌构成侵犯著作权罪。常见的行为类型如下:
(1)利用网络爬虫行为将著作权作品形成目录索引以供浏览
行为人使用聚焦爬虫从互联网抓取文字、照片等作品并存储在其服务器上。用户使用搜索引擎阅读作品时,搜索引擎通过网络爬虫进行文本样式转码,将作品缓存到服务器以提高用户浏览速度;当用户访问触发转码时,互联网上相关作品自动缓存,随后用程序将作品内容转码为手机版或网页版供客户阅读,并设置广告牟利。
(2)利用网络爬虫行为对影视作品等设置加框链接
行为人对网站影视、音乐等作品设置加框链接,并在网页内设置目录、索引、内容简介等方式推荐影视等作品,通过提高网站知名度和被链影视作品的点击量吸引用户,屏蔽原先影视作品上的广告,并在网站发布广告牟利。如快播、百度公司都曾研发出影音播放器破解他人视频网站的技术保护措施,并通过网络爬虫非法爬取相关视频信息,进而盗播他人网站视频。该行为系聚合相关内容以后的加框链接,属于“通过信息网络向公众传播他人作品”的网络服务提供行为,侵害了他人网络传播权。如有观点认为,加框链接实质性地损害了著作权人的利益,版权人采取自助措施消除加框链接负面影响有难度,著作权法需要主动干预加框链接行为,合理的选择是直接禁止加框链接,设链者应该为加框链接所引发的作品传播行为负责,著作权法修订时可以采用“实质呈现”标准改造信息网络传播权,使之涵盖加框链接所引发的作品传播行为(7)崔国斌.加框链接的著作权法规制[J].政治与法律,2014,(5):76-77.。
2.非法获取计算机信息系统数据
恶意网络爬虫行为的非法性表现在违反法律规定“未经授权”或者“超越授权”,从而超越授权或者突破反制措施非法获取相关数据。常见的行为类型如下:
(1)利用网站漏洞非法爬取相关数据
司法实践中,常见的是利用网络爬虫非法获取用户cookie。cookie是计算机信息系统和应用程序、工具形成内容过程中产生的数据,属于用户登录网站时系统自动产生的认证信息,是浏览器储存在用户计算机终端上的文本文件。利用cookie可以执行对应帐号权限内的所有操作,不需要输入帐号、密码就可登录,系统通过用户以前登录留下的信息cookie可以自动识别用户。不法分子则利用网站源码已有漏洞并植入Url,获取权限访问该网站用户的cookie,不断以此循环往复,再读取虚拟队列中的cookie以获取用户数据。
(2)突破或规避技术保护措施非法获取数据
现实中,网站为了防止网络爬虫爬取信息,设置了一系列技术保护措施识别、限制或拒绝网络爬虫的访问。大量网站为了防止他人利用爬虫技术批量“搬运”网络内容,利用爬虫批量读取数据速度的明显差异,从而识别和拒绝爬虫的爬取行为(8)门美子.提供动态IP服务行为的定性[J].中国检察官,2008,(3): 9.。不法分子采取破解APP的加密算法或API(应用程序编程接口)交互规则,使用伪造的设备IP规避服务器的身份校验,或使用伪造的UA、虚假的IP绕过服务器的访问频率设置等技术保护措施,突破了IP判断安全策略(基于真实IP分配资源,识别设备),使得被访问的网站不能辨别真实计算机物理位置和计算机设备,进而非法获取数据。
(3)收集并破解网络用户账号和密码
行为人利用网络爬虫行为大量收集泄露的用户账号等信息,再利用网络爬虫软件突破网站安全防护系统,或通过技术手段前往网站批量“尝试”登录,或通过找回密码等批量操作手段和自动更换IP等方式盗取淘宝、支付宝账号及密码,进而利用已知账户和密码登录相关账户,实施窃取数据的行为。
任何技术都应遵守法律规定,不可僭越法律底线。中立的网络爬虫技术在非法意图的支配下仍可构成犯罪。不法分子常利用网络爬虫行为侵入、控制或破坏计算机系统。常见类型有如下几种:
1.检测系统漏洞并侵入计算机信息系统
网络爬虫常被用于检测网站内缺陷程序。实践中,网络爬虫通过框架提供的便利条件对页面进行提取分析,根据不同的攻击方式生成特有的攻击向量,最后使页面注入点与攻击向量组合达到测试是否具有漏洞的目的。实践结果表明,这种漏洞检测方法在爬取页面以及漏洞检测的效率上都有了很大的提高(9)王全民,雷佳伟,张程,赵小桐.基于爬虫技术的Web应用程序漏洞检测方法[J].计算机科学与应用,2016,(6):340.。现实中,绝大多数网站服务器软件附带测试页面、联机手册和样本程序,都包含大量的系统信息,成为恶意网络爬虫剖析网页服务器的渠道,一旦被成功解析,即可发现网站隐藏的漏洞,导致网站防护系统被破解,致使计算机信息系统面临入侵或控制的风险。
2.盗取网络管理员账户、密码并控制计算机
现实中,某些网站允许管理员远程管理或控制系统,这为网络爬虫获取管理账号密码创造条件。行为人利用网络爬虫搜索管理员登录页面,当管理员疏于防范未能及时修改系统初始密码和账户时,其通过“撞库”等手段测试账号及对应密码。一旦被网络爬虫搜索到登陆页面,则极易导致计算机信息系统被劫持。
3.侵入并破坏计算机信息系统
在破坏计算机信息系统案件中,不法分子利用网络爬虫自动运行相关指令和规模效应的功能优势,对网络爬虫输入删除相关信息或程序等指令,再将其植入被侵入系统,从而执行删除信息或程序的任务。
恶意网络爬虫行为可严重影响网站正常运行。网络爬虫访问系统时,一个爬虫使用一个IP地址(网际协议地址)。当大量网络爬虫同时访问网站则会大量占用宽带流量,最终造成服务器不堪重负直至崩溃,从而使目标计算机或网站无法提供正常服务。现实中,不法分子常利用网络爬虫实施大批量恶意访问,产生了类似于Dos攻击的危害结果。如法院、铁路等官网常被众多恶意网络爬虫访问,常出现普通用户不能正常使用的情况。
在审理涉恶意网络爬虫行为犯罪时,须考察主客观因素,根据“定性+定量”的模式,合理确定其入罪边界。
对网络爬虫设置特殊功能,则可将其转化为犯罪工具:一是网络爬虫具有规避或破解反爬虫措施等功能,可非法侵入计算机系统内部。如部分网络爬虫可使用伪造虚假ID(计算机物理地址)绕过服务器的身份校验,或使用伪造UA及IP绕过服务器的访问频率限制等功能,突破相关限制访问计算机。此时,该功能属于刑法中“具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能”,网络爬虫则属于“专门用于侵入、非法控制计算机信息系统的程序、工具”。二是网络爬虫针对目标的非法性。如在套路贷案件中,涉案的网络爬虫具有搜集公民身份号码、住址、手机号码、借贷信息等法律明令禁止搜集相关数据的功能,则该类功能具有典型的非法性。
1.计算机信息系统
司法实践中,关于计算机信息系统的概念尚未统一。本文认为,只要网络爬虫访问的系统具有信息处理和人机交互功能,均属于刑法中的计算机信息系统。
(1)网站与APP均属于刑法中计算机信息系统
刑法中的“计算机信息系统”是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。网站和APP作为广泛应用的信息载体,承载着信息汇集、流动等功能,理应属于计算机信息系统。首先,网站包含域名、空间服务器、网站程序、数据库等,用户和网站管理者均可利用其进行信息处理,具有处理数据功能;并且网站作为满足公众生活需求的重要载体之一,将公众现实需求与虚拟世界相连接,具有人机交互功能。其次,APP作为手机操作系统的一部分,其安装、运行于手机操作系统中,属于手机信息系统的有机组成部分,且APP具体运行有相对的独立性。此外,APP的使用须通过验证、注册账号、登录、输入等方式,其汇集各类财产、行踪、身份、隐私等信息,用户可以通过移动通讯网络实现网络接入处理数据,也具有人机交互的功能。
(2)被侵入的计算机信息系统是否关系国家事务、国防建设和尖端科学技术领域
在认定利用网络爬虫行为侵入或控制计算机信息系统的行为时,须具体考察其非法运行的系统类别。如果侵入或控制的计算机系统属于处理国家事务、国防建设、尖端科学技术领域的计算机信息系统,不论情节严重与否,均构成非法侵入计算机信息系统罪。因为这类计算新信息系统事关国家安全、经济社会发展等重大事务,一旦被侵入,造成的后果难以控制和估量,故刑法对其予以特殊保护。若恶意网络爬虫行为侵入的是上述系统以外的计算信息系统,须满足计算机犯罪中相关“情节严重”标准,方构成犯罪。
2.数据类型
对利用恶意网络爬虫抓取数据的行为进行定性时,须审查其抓取的数据类型。首先,网络爬虫行为不得抓取非公开数据。网络爬虫行为可抓取公开的信息,但这并不意味着可抓取该信息背后的数据。信息系统安全既包括系统自身运行的安全,也包括系统存储、处理、传输数据的安全,从而确保网络数据的可用性、完整性和保密性。数据安全有两方面:一是数据本身的安全,主要指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等;二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘列阵、数据备份、异地容灾等手段保证数据的安全(10)林学练,刘旭东,怀进鹏.XML数据安全系统的研究与实现[J].北京航空航天大学学报,2003,(4):362.。根据信息论,数据是反映事物属性的原始载体,其经过加工处理后就变为可以通过网络存储或传输的信息,两者属于既有联系又有明显区别的概念。网络上公开的信息系经专门处理的部分数据内容,数据本身所具有的原始状态仍储存在系统中,并不为他人所知晓,属于数据安全的范畴,并不因为部分内容公开而失去了安全保护的必要性。故不能将信息公开等同于数据公开,爬取公开信息所依存的原始数据载体也属于对大数据安全的侵害。其次,要区分网络爬虫行为获取数据的具体类型。根据非法获取数据的内容与特征,确定其在刑法上的属性,具体如下表:
计算机数据类型归纳表
1.确定合法性依据:查清网络爬虫行为的行为规范
(1)明确网络爬虫行为应遵守的法律法规
当前,立法对大数据保护日益重视,规范网络爬虫行为的法律法规不断涌现。一是《网络安全法》《个人信息保护法(草案)》《刑法》等法律,其多属于原则性规定。如《网络安全法》第44条规定:“任何个人和组织不得窃取或者以其他非法方式获取个人信息。第三方从网络平台获取信息,应当注意审核提供信息方是否有权提供个人信息,获取的信息是否经过被收集者的同意”。二是相关行政法规或规范性文件。这类文件有《信息安全技术个人信息规范》《电信和互联网用户个人信息保护规定》《关于加强网络信息保护的决定》等。如《数据安全管理办法(意见稿)》第16条规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”这类法律法规对网络爬虫行为做出了具体的或原则性的指引,理应是判断其违法性的依据。
(2)厘清网络爬虫行为应遵守的行业准则
该类行业准则对规范网络爬虫行为作出具体要求,虽不具有强制约束力,但也是其理应考虑的因素。第一类是行业自律规范或惯例。如Robots协议、《互联网搜索引擎服务自律公约(搜索引擎行业自律公约)》《中国互联网网络版权自自律公约》《中国网络短视频版权自律公约》等。以Robots协议为例,它是网络爬虫行为应遵循的行业惯例或商业规则。在民商事案件中,其往往是运营方获得保护的必要条件。它以单方宣示的方式提示网络爬虫的爬取范围,是规范数据爬取、促进信息流动的行业自律约定。信息自由流动原则是在《搜索引擎行业自律公约》中规定的,但是我们纵观该自律公约会发现,信息的自由流动也是需要建立在遵守Robots协议的基础之上,所以不应脱离制度整体而单独强调其中的一条规则(11)张钦坤.反不正当竞争法一般条款适用的逻辑分析——以新型互联网不正当竞争案件为例[J].知识产权,2015,(3):35.。部分裁判观点认为,《互联网搜索引擎服务自律公约》反映和体现了公认的商业道德和行为标准,属于该行业自律行为的规则,理应成为网络爬虫行为的行为规范或指引。特别是该类行业自律规范符合行业发展需求,虽属于“君子之约”,无强制性约束力,但也是法律判断爬虫行为是否恶意的参考依据。另一类是行业指引性文件或规范。如《网络安全实践指南——移动互联网应用基本业务功能必要信息规范》《APP违法违规收集使用个人信息自评估指南》等。这类技术性文件虽不具有强制效力,但可作为对网络爬虫行为监管、执法、评估的参考依据。相较《网络安全法》实施后发布的相关配套性法规及国家标准,该类文件所规定的规范性指引更为场景化、具体化,具有极高的可操作性,也是判断该行为合法与否的依据。
2.审查行为正当性:厘清网络爬虫行为的合法边界
网络爬虫行为不得超越法律或他人授权范围,未经授权或超越授权获取数据的行为均属于非法获取数据。司法实践中,对其授权范围的审查可从以下几方面进行:
第一,查明计算机系统是否在网站根目录下设置了Robots协议(robots.txt)以及文本内容。Robots协议明确了网络爬虫行为抓取数据范围,其虽属无强制性的行业规范,亦非技术防护措施,但代表了网站真实意志,理应属于网络爬虫行为所遵守的行为准则。
第二,查明网站的版权信息及内容。版权声明就是指网站权利人对自己创作或获得许可作品权利的一种口头或书面主张,一般包括权利归属、作品使用许可方式、责任追究等内容。互联网领域中的版权声明较为普遍,在网站的页脚设置有“版权声明”以宣示权利归属和侵权责任,这也是网络爬虫行为授权范围的依据。
第三,根据被抓取平台的声明确定网络爬虫行为的授权范围。针对APP、内容聚合平台、数据分享网站抓取数据时,要区分不同的授权原则。若数据平台禁止网络爬虫抓取数据,则应遵守平台意志,不得爬取数据。如微博曾因今日头条未经授权抓取内部用户账号信息,封闭数据接口,禁止今日头条抓取微博中的数据。若数据平台允许网络爬虫抓取数据,则须遵守其设定的相关规则。如某些数据平台对网络爬虫行为采取“白名单”制度,未经授权不允许第三方爬取数据。一般而言,这类规则基于保护用户隐私和知识产权的考虑,多包括以下内容:一是遵循双方协议,不得爬取平台禁止抓取内容,包括用户声明禁止转载内容;二是符合 CC 协议(A Creative Commons license,知识共享协议),如需以原生页面展示平台内容,须提前获取用户授权;三是禁止对平台页面做转码、缓存操作;四是保护平台用户包括但不限于用户针对站外展示做的隐私、图片水印和禁止转载等设置的权利。因此,网络爬虫行为抓取开放平台数据时须取得“三重授权”,应遵循“用户授权+平台授权+用户授权”的原则,即用户同意平台向第三方提供信息,平台授权第三方获取信息,用户再次授权第三方使用信息。需注意的是,此处的用户授权须是具体、详细的,必须满足“知情同意原则”,是用户充分知情的情况下作出的决定,即不符合相关法律法规的规定或未经权利主体知情同意的,不得搜集相关数据。
3.确定行为必要性:网络爬虫行为不能超过一定限度
必要性原则就是指网络爬虫行为的必要限度,确定哪些数据属于其正常行为所必须爬取的。对此可参考比例原则,具体内容如下:
第一,网络爬虫行为不得收集无关数据,要遵循最低限度原则。一方面,网络爬虫行为爬取数据时,必须确立搜集数据的规则,不得搜集与其目的无关的数据,且应切实履行注意义务,将公民隐私性数据等法律明令禁止抓取的数据排除在外。另一方面,只收集满足业务必需最少类型和数量的数据,不得无限制恶意搜集。
第二,网络爬虫行为不能超过明示的授权范围。首先,网络爬虫行为的具体手段不得违反法律规定。即使对方网站未设置Robots协议,也不得采取避开或突破防护措施等欺诈手段违规抓取数据或侵入、破坏和控制计算机信息系统;其次,网络爬虫行为经授权爬取数据时,不得超越授权范围。如在授权访问的情况下,也不能超越授权范围访问内部系统。
第三,网络爬虫行为不得妨害计算机信息系统正常运行。根据有关规定,网络爬虫访问搜集网站数据,不得妨碍网站正常运行。当网络爬虫访问收集流量超过网站日均流量一定比例的,网站要求停止自动化访问收集时,应当停止。
在许多案例中,被告人以网络爬虫系自动运行或属技术工具,并不知晓网络爬虫使用后的危害结果为由否认犯罪,即否认其具有刑法上的明知。本文认为,对该类行为主观“明知”可从以下几点去判断:
1.明知网络爬虫行为违反法律法规等行为规范
其一,行为人认识到网络爬虫行为违反法律法规、规范性文件或行业自律规范等。行为人对上述规范的认知程度,能够明确反映出其主观上对网络爬虫行为性质、后果和责任的认知程度,可有效地判断其主观上明知行为的违法性。其二,行为人认识到恶意网络爬虫的特殊功能。某些网络爬虫的功能是根据犯罪需要而设置的,行为人对该功能的认识则表明其对该行为侵害对象或危害结果有清晰的认识,进而反映其主观明知的内容。其三,行为人认识到网络爬虫行为的授权范围。如行为人知晓反爬虫措施的存在,则意味着其知晓网站或APP拒绝网络爬虫行为抓取数据。当网络爬虫行为规避反爬虫措施非法获取数据,则表明行为人故意违背他人意志爬取数据,主观上当属故意。其四,行为人认识到网络爬虫所爬取数据属法律禁止获取的类型。当行为人意识到爬取的数据为法律法规明令禁止爬取时,其对行为的违法性认识是清晰、具体的。如明知是知识产权作品、公民个人信息、商业秘密、财产性利益等数据,仍故意通过爬虫行为非法获取的,对该行为的违法性当属明知。
2.明知中包含确知和应知
从明知的程度来看,明知应包括确知和应知。确知是指行为人对恶意爬虫的功能、行为性质和危害结果有清晰认识;应知是指行为人根据其经验、认知水平等因素,按照认知逻辑,其理应知晓恶意网络爬虫行为的性质和危害后果。应当知道属故意的范畴,立法者并不是在过失意义上使用“应知”一词的,它的真实含义应当是指推定知道,进而主张引入推定故意的概念(12)王自新.我国刑法中明知的含义和认定——基于刑事立法和司法解释的分析[J].法治与社会发展,2013,(1):70.。故此处的明知可属于概括的犯罪故意,即行为人事先对网络爬虫行为内容虽无具体认识,但依据专业或常识能意识到该行为的性质或危害结果。
在对恶意网络爬虫行为入罪进行定量分析时,其具体法益侵害性可从以下几方面进行量化:其一,侵害计算机信息系统的具体数量。如非法侵入、控制、破坏计算机信息系统的数量。其二,非法获取(复制)数据的具体数量。如传播淫秽物品、非法获取公民个人信息或结算、证券交易、期货交易等身份认证信息的具体数量。其三,经济损失。根据《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》,计算机犯罪中的“经济损失”,包括网络爬虫行为给用户直接造成的经济损失,以及用户为恢复数据、功能而支出的必要费用。具体如下:一是直接经济损失。如给网站、APP的网络设备、自动化控制系统、数据或文件等造成不可修复的损害;二是计算机设备租赁费用。如恶意网络爬虫行为攻击网络时需占用宽带资源和储存资源,进而影响宽带和服务器,而上述设备系被害人向网络营运商租赁而来,由此产生的费用应算作损失。三是为恢复数据和系统而产生的必要费用。该种费用是被害方事后实施的补救,属于为恢复系统正常运营而必须支出的正常成本。其四,恶意网络爬虫非法获取数据的市场价值。对于获利数额的认定,则根据各罪中司法解释确定的具体数额进行认定(鉴于相关司法解释有明确规定,本文不再赘述)。
司法实践中,恶意网络爬虫行为入罪受到诟病的原因之一就是其呈现出口袋化趋势。对此,本文拟从以下几方面进行去口袋化:
1.侵入计算机信息系统罪的认定
对于“侵入”的理解,是指网络爬虫行为未经授权或超越授权进入计算机信息系统。一般以两种路径进行判断:一类是网络爬虫行为访问网站是否属于非法进入计算机信息系统,如无访问权限而采用盗取账户、密码或规避防护措施等采取欺诈手段,违背他人意志访问计算机信息系统。另一类是网络爬虫行为超越授权范围非法访问。如网站或APP允许网络爬虫访问,但对此设置相关限制规定,网络爬虫行为超越授权范围访问即属于非法访问。实践中,对于“侵入”判断,多表现为行为人利用网络爬虫及其特殊功能侵入计算机信息系统,如通过突破防护措施或发现系统漏洞侵入计算机信息系统。尤其是后者,成为当前网络安全的主要隐患。网络安全漏洞本质是通过软件或者系统的逻辑缺陷所导致的错误,从而可以使攻击者在未经授权的情形下访问或者破坏,网络安全漏洞应以软件漏洞的防范为核心(13)赵精武.网络安全漏洞挖掘的法律规制研究[J].暨南学报(哲学社会科学版).2017,(3):25.。司法实践中,网络爬虫因其具有扫描系统漏洞、发现缺陷程序等功能,在诸多网络犯罪中都常见到其踪迹。
2.非法控制计算机信息系统罪和破坏计算机信息系统罪的认定
(1)非法控制计算机信息系统
认定行为人利用网络爬虫行为非法控制计算机信息系统时,须结合行为手段和计算机信息系统的功能予以认定:其一,恶意网络爬虫行为非法控制计算机信息系统是针对其信息处理和人机互动功能而言。当网络爬虫行为控制了计算机信息系信息处理或人机互动功能时,剥夺了他人对计算机信息系统的控制或使用权,即属于控制计算机信息系统;其二,此处的控制分为部分或全部控制,也可是短暂或一定时间内控制,只要行为人在一定时间内控制部分计算机信息系统即可。
(2)破坏计算机信息系统
司法实践中,利用网络爬虫行为破坏计算机信息系统分为两类:一类是破坏计算机内承载特定信息的数据,属于物理上的破坏。如不法分子利用网络爬虫自动运行的功能,大批量执行删除相关数据的指令,进而实现破坏计算机信息系统。另一类是破坏计算机信息系统的相关功能,属于抽象功能的破坏。如行为人利用网络爬虫行为实施网络攻击,其在物理上并未破坏网站或APP,但可导致人机交换或信息处理的功能无法实现,使得网站或APP不能正常访问或运行。
3.非法获取数据行为的罪名认定
恶意网络爬虫行为入罪的“口袋化”集中体现在非法获取数据行为中。为合理界定该类行为涉及的罪名,对其入罪拟参照以下路径:
(1)获取计算机信息系统数据手段非法性的认定
此处的非法获取数据的行为可分为两类:一类是单一的“复制”数据行为。或表现为网络爬虫行为突破防护措施或规避限制进入计算机信息系统,复制相关信息数据;或表现为越权访问计算机信息系统复制数据,即网络爬虫行为虽获得他人的授权,但该行为系超出授权范围访问计算机信息系统并非法复制信息数据。另一类是复杂的“复制+传播”行为。该行为多发生在知识产权犯罪中,即利用网络爬虫行为复制并传播获取的数据。首先,网络爬虫行为可被评价为知识产权犯罪中“复制、发行”行为。行为人利用网络爬虫抓取视频、音频和照片等作品,存储于服务器内供他人阅看,将网络爬虫作为复制、传播作品的工具,所导致的法益侵害结果与知识产权法意义上的复制、发行相同,应当视为《刑法》第217条规定的“复制、发行”。其次,利用网络爬虫行为通过信息网络向公众传播他人作品,既包括提供初始作品,也包括为作品的传播提供网络服务。需强调的是,对传播行为的界定应以刑法为准,不囿于著作权法中信息网络传播权的概念,不需要在认定行为侵权的基础上再判断其是否构成犯罪,只要行为形式上符合刑法的规定即可。再次,网络爬虫属于非法视频聚合链接软件,具有能聚合链接视频网站所有影视作品的功能。其针对其他视频网站的影视、音乐等作品设置加框链接,该行为直接提供作品或为传播作品提供便利,扩大作品的传播范围,严重削弱他人对其作品传播范围可控性,方便第三方实施侵权行为,达到刑法中的法益侵害标准,属于司法解释中的“通过信息网络向公众传播他人作品”。
(2)非法获取计算机信息系统数据行为的具体罪名认定
随着互联网技术的发展,越来越多的权利以数据的形式被储存、使用、传输或共享,数据对各类法益的包容性愈发明显,其内涵与外延就越发模糊,极易导致非法获取计算机信息系统罪的“口袋化”风险日益增大。司法实践中,涉恶意网络爬虫行犯罪从财产犯罪、知识产权犯罪逐渐扩大到公民个人信息安全和网络安全等领域,从单一的模式转化为整体性的系统风险,并由此产生了新类型的法益——大数据安全(数据的保密性、完整性和可用性)。本文认为,应严格区分恶意网络爬虫行为侵害的数据所代表具体法益,将利用网络爬虫行为作为手段的犯罪排除在非法获取计算机信息系统数据罪之外,以合理去口袋化:
第一,根据所获取数据是否具有公民个人身份的直接识别性和间接识别性来认定。以目前司法实践认定情况来看,姓名和电话的组合是认定个人信息的最低要求,即包含了两条以上的有效性信息(14)林哲骏.侵犯公民供人信息罪定罪标准研究——以“个人信息”和“情节严重”认定标准构建为视角[A].尊重司法规律与刑事法律适用研究(上)[C].北京:人民法院出版社,2016.878.,则属于公民个人信息。此时,将非法获取该类数据行为纳入侵犯公民个人信息罪。对于难以直接或间接反映数据主体真实身份的商业个人信息,则将其纳入非法获取计算机信息系统数据罪。
第二,将侵害网络虚拟财产的行为纳入财产犯罪范畴。司法实践中,习惯于重视数据的物理属性而忽视其权利属性,常将侵害虚拟财产的行为纳入非法获取计算机信息系统数据罪。当网络爬虫行为抓取的数据具有稀缺性、有用性、可流通性和可控制性特征时,属于刑法中的财产,则该类行为应纳入财产犯罪范畴(如盗窃罪)。
第三,当所获取的数据具有保密性、实用性和秘密性特征时,其属于商业秘密,应以侵犯商业秘密罪论处。
第四,当非法获取的数据具有独创性和显著性特征时,属于著作权作品,该行为则侵害了他人音乐、视频、图片等作品的复制、发行权,构成侵犯著作权罪。须注意的是,当该类作品包含淫秽内容而属于淫秽物品时,则将该行为应纳入传播淫秽物品牟利罪范畴。
第五,当所获取的数据不属于上述范畴时,则适用兜底性罪名,依据其物理属性归入计算机信息系统数据,以非法获取计算机信息系统数据罪论处。