抓取个人信息行为的法律解析：表征、性质与规制路径

2021-01-31 04:10秦大强

上海公安高等专科学校学报 2021年5期

秦大强

（上海公安学院，上海 200137）

数字时代，小到在线社交、移动支付，大到产业发展、城市治理，民众的一切在线活动均被予以即时性数字化展现，随之产生海量的以“人”为核心的网络信息数据。这些数据被新兴互联网企业视为核心资产，并因相互间通过技术获取而引发诸多问题争议①丁晓东,数据到底属于谁——从网络爬虫看平台数据权属与数据保护[J].华东政法大学学报,2019,(5):69-83.第70页.。作为争议焦点的爬虫技术，因其高效、海量、便捷获取网络信息数据能力被广泛应用于各类信息数据的深度收集，成为大数据产业野蛮扩张的主要工具，甚至是被用来大肆抓取网络空间的公民个人信息。当前，个人信息保护已成为广大人民群众最关心最直接最现实的利益问题之一②参见：全国人大法工委《关于〈中华人民共和国个人信息保护法（草案）〉的说明》，来源：https://www.thepaper.cn/newsDetail_forward_9665985，最后访问时间：2021年6月1日。。依法规制利用爬虫技术抓取公民个人信息行为，对保护公民个人信息、规范网络空间社会秩序、遏制因个人信息滥用引发的新型网络违法犯罪具有重要意义。

一、抓取个人信息行为表征分析

（一）爬虫技术及其争议

网络爬虫（Web Crawler），也叫网络蜘蛛（Web Spider），是互联网时代一项运用非常普遍的网络信息搜索技术。爬虫技术的本质是自动抓取程序，“通过遍历网络内容，按照指定规则提取所需的网页数据，并下载到本地形成互联网网页镜像备份的程序”①李慧敏，孙佳亮.论爬虫抓取数据行为的法律边界[J]. 电子知识产权，2018，（12）：58-67.。网络爬虫为海量信息的分类获取提供技术基础，“某种意义上讲，只要涉及信息搜集，就势必会运用到爬虫技术”②林维. 数据爬取行为的刑事司法认定[J]. 人民检察，2020，（4）：38-40.，而其与智能算法的深度应用极大地促进了信息数据的“挖掘/共享-分析-利用”多维度循环，推动了互联网生态的多元繁荣。

但是相对于数字化采集与存储的原生态，网络爬虫犹如其名，自始就是一种寄生的姿态，因其链接而获得展示、推广的数据所有者对其并无甚介意，但数据产权和数据人格视角下的所有者则通过设置robots协议或反爬技术对其异议不断，并迅速从主张民事上的不正当竞争扩展至要求对其进行行政、刑事规制。新浪微博诉鹰击系统一案③参见北京市知识产权法院（2019）京73民终某号民事判决书。中，蚁坊公司使用非搜索引擎类网络爬虫，未经授权大量采集对方网站数据并缓存，被法院认为属于“通过不正当手段获取新浪微博数据”的违法行为。而伴随网络借贷迅速崛起的某某科技等风控数据提供商，“通过后台‘爬虫’搜集信息，将通话信息、消费数据等互联网信息整合标准化，最终形成对借款人的综合评估”④参见：《爬虫凉凉！摩羯科技被查、聚信立等纷纷停业》，来源：https://news.p2peye.com/article-550019-1.html，最后访问时间：2021年6月1日。，涉嫌过度收集公民个人信息被警方调查。

网络爬虫侵权过程并不止步于数据的获取环节，抓取数据之后的泄露、滥用还会伴生出下游犯罪、社会分层、消费操控等衍生性、继发性新型损害⑤叶名怡. 个人信息的侵权法保护[J]. 法学研究，2018，（4）：90-92.。在当前隐私保护相对薄弱、数据安全漏洞频出的网络环境下，爬虫技术因其与信息来源违法、过度爬取、信息滥用以及助长下游犯罪等问题的频繁交织而占上舆论风口，由原本的“中立技术”逐步向“道德可疑”直至“违法技术”嬗变⑥刘艳红. 网络爬虫行为的刑事规制研究[J]. 政治与法律，2019，（11）：16-27.，一度从业人员谈“虫”色变、人人自危。

（二）网络公民个人信息评价

当前我国法律关于公民个人信息定义的规定主要有《个人信息保护法》第4条、《民法典》第1034条以及《网络安全法》第76条。综合来看，三者关注个人信息的主要载体都是电子，也即是网络空间公民个人信息，在具体信息类别上强调“识别性”，凡是能够直接或间接识别特定个人的信息，均为个人信息。这一规定以扩张性的态势来应对未来个人信息保护的不确定性，但从法律适用的角度出发，“法律扩张公民个人信息保护范围，是对于信息时代侵犯公民个人信息犯罪的积极回应，但没有框架限制和原则指导的扩张亦存在违背罪刑法定原则之嫌。”⑦王佳，朱佳乐. 厘清公民个人信息刑法保护边界[N]. 检察日报，2020-10-26.因此，有必要从具体的场景、识别、权属出发，以限缩的视角对网络公民个人信息进行评价。

1. 场景：信息获取的告知与同意。对于网络空间个人信息，任何第三方作出获取、更正或删除等行为，都必须在公平程序下在具体的适合场景（Context Appropriate）中完成①Reardon M. Democrats push for 'Internet Bill of Rights' to protect your privacy[EB/OL]. https://www.cnet.com/news/democrats-push-for-an-internet-bill-of-rights-to-protect-consumer-privacy/，最后访问时间：2021年6月2日。。严格地讲，在具体的场景之外网络空间不应有公民个人信息的存在。而在具体的场景之中，网络主体获取公民个人信息亦必须进行明确的告知并征得该公民的直接同意。因此，网络公民个人信息的合法存在必须是基于一定具体的场景，且同时具备告知与同意的二维标签。

2. 识别：法定保护的范围与强度。智能算法和大数据环境颠覆了网络空间对“人”的识别逻辑，过去由姓名或身份至个性标签的识别过程，转变为由圈子文化、消费记录、轨迹信息、浏览痕迹等碎片化个性特征到具体的姓名或身份。基此逻辑，网络空间的任何信息都可以最终扩张到公民个人信息范畴，但“法律的过度介入也必然压缩数据科技的发展空间”②杨楠.个人信息“可识别性”扩张之反思与限缩[J].大连理工大学学报（社会科学版），2021，42，（2）：98-107.，因此在评价网络公民个人信息的时，有必要以可识别的程度来限缩保护的范围和强度。

3. 权属：平台共生的焦点与格局。在网络化、数字化、智能化发展变革的推动下，“人类进入了‘要么加入平台，要么被平台所消灭’的平台经济时代”③马长山. 数字社会的治理逻辑及其法治化展开[J]. 法律科学（西北政法大学学报），2020，（5）.。网络平台是数据的收集者、使用者、保存者，以数据为自身发展和财富积累的根本，而网络空间一切数据的核心是控制财富流动的具体的人。因此，在具体的环境场域中评价网络空间公民个人信息，还必须从各类数据深度融合、交织共生背后的具体平台从发，以数据的权属作为最终焦点。

（三）抓取个人信息行为表征

基于前述概念，抓取个人信息，通常是指利用计算机编写特定的爬虫程序在网络空间收集公民个人信息的行为。该行为以信息网络为依托，以爬虫技术为工具，以完整的或碎片化的公民个人信息为目标，是基于一定目的自动收集行为。鉴于爬虫技术的特性，与传统信息收集行为相比，网络抓取公民个人信息行为呈现出更加复杂的表征。

1. 目标涵摄一切网络空间个人信息。基于智能算法的深度应用，“计算机科学正在将你的生活转化成他人的商机”④马尔克·杜甘，克里斯托夫·拉贝. 赤裸裸的人：大数据，隐私与窥视[M]. 上海：上海科学技术出版社，2017：142.，凡是以数字化记载的个人生活信息，都悉数囊卷于当下数字经济的纵深拓展。也正因此，网络抓取公民个人信息的目标并非停留于指向直接可识别的姓名、电话、住址、工作单位、身份证号码以及就诊记录、银行流水、车辆号牌、实名账号等公民个人信息，包括公民的行车轨迹、浏览痕迹、消费记录、网站点评等间接可识别信息也涵摄其中。换言之，网络空间一切要素完整的或简单碎片的、直接显示的或深度关联的、静态表面的或动态深层的个人信息都无所幸免地成为网络抓取的目标。

2. 手段表征为穷尽一切的深度收集。从纵深看，在交互性数据勾连的虚拟空间内，“网络爬虫的工作机制依赖于互联网的超级链接网络”⑤王成军.“今曰头条”的技术逻辑:网络爬虫＋矩阵筛选[J]. 传媒评论，2015，（10）：34-37.，无论是广度优先还是深度优先，均不受时间和物理地点的限制。从目的看，每一款爬虫产品的设计均基于一定的目标，一旦触发即自动化无限制穿梭于不公开的深层网页中，都可以实现对对象空间的无限检索和目标信息的深度收集。从频次看，自动化的抓取目标数据行为触发极其频繁，与正常的人工网页搜索存在天壤之别，而且非善意的爬虫使用者通常会在目标网页投放大量的爬虫来获取多次且大量的数据。从技术看，爬取的对象和目标都只是具体设置中的一个象征性的“数值”，而非技术本身的“能力”极限，基于特定目标可以“变态”爬取一切数据。

3. 过程伴生着个人信息的永续失控。一切被数字化记载于网络空间的个人信息都具有商业价值，是当前市场分析、产品开发、消费画像、个性推送和精准营销等商业行为的数据基础，而商业诱惑的背后则是无止境的信息收集与存储、流转与衍生。“公私机构对个人信息的广泛需求还催生了专门的个人信息服务提供者，后者通过大量收集个人信息，形成各种类型的个人信息库，对外提供查询或租赁乃至销售等信息服务”①张新宝. 从隐私到个人信息:利益再衡量的理论与制度安排[J]. 中国法学，2015，（3）：38-59.。“为精准对接用户需求而衍生的网络黑灰产上游犯罪本质上是对个人信息的侵害”②刘宪权. 网络黑灰产上游犯罪的刑法规制[J]. 国家检察官学院学报，2021，（1）：3-17.，在网络瞬时性传播环境下，这些信息数据一旦被抓取脱离最初的场域，便会有违最初收集目的而伴生着非法存储、使用、流转等，完全进入一种不可逆的失控状态，对公民的人格尊严和个人自由造成无限次侵害，甚至将流转于网络诈骗、暴力催债等严重侵害了公民人身财产安全的刑事违法犯罪。

二、抓取个人信息行为的法律性质

数字时代，“数据和信息变成了基本的生产要素、新兴的财富源泉甚至重要的控制力量”③马长山. 数字时代的人权保护境遇及其应对[J]. 求是学刊，2020，（4）：103-111.，网络空间的公民个人信息呈现出多元交织、利益消长、秩序多维的共生格局：自然人视角下是人格权和财产权等私权益的限缩保护，企业等营利法人则积极谋求智能算法下的数据财产权以及拓展商品和服务提供个性化、精准度的运维自由，而公共管理部门则基于个人信息的收集分析来防范和化解管理风险、提升社会治理能力。因此，解析网络抓取公民个人信息行为的法律性质，必须从网络空间公民个人信息背后的主体授权、权益保护出发，在具体的环境场域中展开。

（一）行为是否合法的本质是主体授权同意

个人信息保护的实质是对信息主体的权益加以保护，是“保护个人信息主体不因信息处理而受到侵害，是针对个人信息处理行为可能对主体带来的侵害进行的保护”④高富平，李群涛. 个人信息主体权利的性质和行使规范[J]. 上海政法学院学报（法治论丛），2020，（6）：40-51.，主体及其权益是涉个人信息保护的要义所在。而主体的授权同意是网络空间个人信息存在及流转的基础，是一切基于个人信息实现权益让渡、衍生或再生的根本。依据《个人信息保护法》《民法典》，当前个人信息保护规范的要旨是个人信息收集和使用应遵循合法、正当、必要等原则，经被收集者同意收集和保存后应当依法处理或使用。因此，网络抓取公民个人信息行为是否合法的根本在于是否获得了信息主体的真正授权同意。

1. 公开系征得授权同意的例外。网络的意义在于信息的聚集链接与开放共享，数据控制者可以和个人明确约定无需征得同意即将其公开的个人信息作为商业使用并向第三方披露。最基本的网络爬虫只能以这部分由个人主动公开的信息为获取对象，这是由其本身的代码方式所决定，若要进入封闭系统则必须获得相关数据源或数据主体的授权。在检索信息主体自行公开或合法公开披露的信息时，爬虫在不侵害计算机系统运行安全的情况下与普通人的访问并无实质区别。《个人信息保护法》第13条第六项规定：“依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”无需征得个人同意①参见：《中华人民共和国个人信息保护法》，来源：http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml，最后访问时间：2021年9月24日。。2020年10月1日实施的《个人信息安全规范》（GB/T 35273-2020）第五条第六款也规定了多种不必征得信息主体授权同意也可以收集的情形，其中包括个人信息主体自行向社会公开的、根据要求签订和履行合同所必需的以及从合法公开披露的信息中收集个人信息。因此，以主体自行公开或平台合法公开的个人信息为对象的爬取行为并不违法。

2. 个人同意并不完全等于授权。《个人信息保护法》第13-16条、第31条和《民法典》第1035条，都将“征得该自然人或者其监护人同意”视为个人信息处理行为合法的条件之一；则两者都处理个人信息免责的条件之一是既要征得主体“同意”又要在同意的范围内“合理实施”。可见，主体同意并没有为信息处理者创设自由，不产生“授权”的法律效果，概括同意或推定同意的授权模式已明确为法律所禁止。因此，抓取公民个人信息行为作为对已沉淀于特定网络数据控制者的信息次收集，其合法的基础是“一个原则、三个条件”：抓取行为是否遵循合法、正当、必要原则，是否征得个人的同意，抓取的范围是否合理，数据控制者提供或公开的被爬数据是否属于依法被授权。换言之，除已获得个人对数据控制者允许数据被处理的明确授权或属于《个人信息保护法》第13条第七款、《民法典》第1035条第一款“法律、行政法规另有规定”的情形，以公民个人信息为对象的网络抓取行为均不具有合法性的基础。

3. 个人授权无需再经平台同意。形式上看，网络平台上的沉淀的一切个人信息均已被该具体的予以平台个性化加持，形成了个人及网络平台双重共有的财产权益，抓取方获取数据需满足个人信息主体和网络平台的“双重授权”原则。但实质上，个人信息沉淀于网络平台前提是信息主体的授权许可，平台是否享有财产利益“取决于数据主体对自身的财产利益是否进行了处分”②任丹丽. 民法典框架下个人数据财产法益的体系构建[J]. 法学论坛. 2021，36（02）：89-98.，且平台的财产利益无法对抗信息主体。个人有权通过一定的方式访问、查询、下载或复制网络平台上的数据信息，若抓取数据方基于合同关系获得个人授权，以特定账户加密码等方式访问、查询、复制这些信息，等同于该网络平台用户自己在登录、访问、查询和下载复制，自然无需再经平台同意。但是所抓取数据的范围应当限定于用户授权的范围，且不得抓取平台经过加工整理后个性化展示的内容用于不正当竞争等非法目的。

4. 平台授权并非个人授权同意。平台经济下个人完全处于被动依赖地位，其对平台的授权以及平台对其他合作主体或平台的授权之间均存在不真实、不明确、不具体等情况。主体视角下，平台在提供应用或服务前通常以获得用户对其一定范围内个人信息收集或使用的授权为前提，但是该“授权”存在捆绑交易或服务违反真实意识表示、复杂格式条款未遵循公平原则而无效、基于胁迫的概括式同意范围可随意扩展等诸多问题①程明皓.网贷领域爬虫:既非原罪者也非无辜者[EB/OL]. https://m.mpaypass.com.cn/news/202003/30103442.html.最后访问时间：2021年5月8日。。平台视角下，基于收集获得原生数据的平台在对其他合作主体或平台进行信息数据的二次获取或使用授权时，往往已经是以一种次生模式对信息数据进行了差别化、碎片化、模型化的展示，其后还可能衍生无限次的数据流转，早已脱离了信息主体最初的授权同意场景。可见，抓取公民个人信息若是基于原生或次生平台的授权，无疑脱离了信息主体的真正授权同意。

（二）行为是否侵权的核心是突破合理限制

基于前述分析，以公民个人信息为对象的网络抓取行为合法的场景仅限于合法公开或主体的账号加密码方式授权，但鉴于公民个人信息的特殊属性，场景合法情况下爬取公民个人信息行为还可能因违反协议而涉嫌民事侵权，包括无数据处理协议情况下违反合理的爬虫协议、有数据处理协议情况下的超出协议范围或约定方式以及“爬虫+”情境下伪造主体身份模拟登陆后的数据抓取。

1. 爬虫协议及其合理限制。爬虫协议又称为机器人协议（robots协议），是互联网站所有者基于商业竞争、数据安全或用户隐私，利用robots.txt文件向网络机器人（Web robots）给出网站指令的协议。作为一种“代码规制”，爬虫协议从技术上并不能阻止目标数据被爬，但目前已得到互联网搜索行业的普遍遵循，一些法院判决也认可其效力②参见北京市知识产权法院（2017）京民终某号判决书。。国内多家互联网搜索引擎服务公司还通过行业协会约定，开展搜索引擎服务要“遵循国际通行的行业惯例与商业规则，遵守机器人协议”、限制搜索应当具有“行业公认合理的正当理由”、不得利用协议“进行不正当竞争行为”③中国互联网协会：《互联网搜索引擎服务自律公约》[EB/OL].https://www.isc.org.cn/hyzl/hyzl/listinfo-25501.html.最后访问时间：2021年5月10日。。因此，在确保数据不用于进行不正当竞争前提下，基于主体授权后对平台上的个人信息进行抓取是否涉嫌民事侵权，还要审视该平台爬虫协议所保护内容是否具有明确排他性私权和有无以针对性、歧视性的方式限制公平竞争，否则该爬虫协议可能因对抓取行为的限制缺少合理性而不获法院支持。

2. 数据合作协议及其效力。从技术上讲，网络数据获取的方式可分为抓取和获取两种。前者是搜索引擎未经数据控制方授权，通过爬虫程序自行分析网页上的非结构化数据；而后者是经过数据控制方授权后，根据协议的数据需求，通过数据控制方提供的不同开放平台接口（OpenAPI）获取结构化数据。数据合作协议看似与普通的民事合作协议无异，基于合作协议，数据的获取无需借助爬虫，数据的提供方也可以通过技术手段设置相应的权限级别来对其获取用户相关信息的权限进行严格控制。但公民个人信息是特殊的数据信息资源，平台之间通过OpenAPI可协议获取的范围必须以明确获得主体的授权为前置条件，且第三方平台在后续使用时，还应当明确告知用户其使用的目的、方式和范围并再次取得用户的同意。从其他平台协议获取数据并使用不符合“用户授权”+“平台授权”+“用户授权”的三重授权原则，或者在数据合作协议范围之外抓取数据的行为，无异也是涉嫌民事侵权。

3. 伪造主体身份的数据抓取。自爬虫技术诞生以来，网络空间爬虫与反爬虫的争议和斗争就从未停止。数据权益语境下，以特定数据为目标，无视平台的多重反爬技术设置，利用爬虫技术与模拟登陆、秒拨动态IP等技术的组合升级来强行抓取数据的行为具有明显的非法性①苏青.网络爬虫的演变及其合法性限定[J]. 比较法研究,2021,(3):89-104.。以基于robots协议禁止网络爬虫抓取信息的新浪微博为例，虽然定期升级自身的反爬措施，但还是会经常会面临一些数据收集者，通过建立大量微博账户来模拟正常用户行为，或者购买大量IP来伪造调用IP来源，通过伪造为正常用户的请求在互联网主页、移动客户端等进行数据抓取。对于此类行为，数据控制方只能记录到大量的非正常访问相关印记，却无法识别出具体的爬取方也无法区分相关数据是如何被爬取的。这种行为既非法收集了控制方的数据信息又扰乱了正常用户的访问秩序，无异是侵犯了数据控制方的合法权益。

（三）行为是否入罪的关键是侵犯相关法益

任何信息的获取都是为了利用或变相利用，爬取公民个人信息行为除其本身涉嫌对信息的不正当获取外，其与不正当利用虽有表象的区别但又有着实质的关联，还体现为对相关法益的侵害或威胁。而作为代码化的技术，爬虫对目标个人信息数据的收集必然伴随着对计算机系统的侵入，甚至指向特定的技术领域。判断以公民个人信息为对象的网络抓取行为是否入罪，关键要从整体上考量其对具体法益实质的侵害与威胁，以具体的法益保护导向来类化其入罪路径、界定其入罪标准。

1. 侵犯网络安全和数据安全。我国《刑法》第285条至第287条有关网络犯罪立法的主要目的是维护网络安全和数据安全，前者以网络访问控制、防网络攻击等为手段来维护网络边界和安全域、网络通信系统或传输安全、网络空间主权等，后者以加密、脱敏等手段来实现数据保护、数据主权、隐私保护等②郑云文：数据安全——架构设计与实战[M].北京：机械工业出版社，2019：8-10.。实践中，互联网平台根据《网络安全法》关于维护系统和数据安全的相关要求，均采取了一定的安全策略和安全防护措施。为抓取目标数据，本身不具有攻击性的爬虫技术，必须加持一定的模拟登陆、伪造IP等破解技术进而演变为“爬虫+”，来突破计算机信息系统有关反“爬虫”的安防措施。上海某某网络科技有限公司、侯某强等非法获取计算机信息系统数据罪一案③参见北京市海淀区人民法院（2017）京0108刑初某号刑事判决书。，被告方为破解北京某某网络技术有限公司的防抓取措施，使用特殊的数据抓取工具，通过伪造用户身份（ID）、用户代理（UA）及伪装IP来源方式绕过服务器的身份校验和访问频率限制，最终被法院认定为非法获取计算机信息系统数据罪。此案中，被告方为强行抓取通过反爬措施明确限制访问、获取的目标数据，行为上采取故意避开或强行破解网站的技术措施，且抓取的数据用于不正当竞争，造成了被抓取方的实际损失，侵犯了刑法所保护的网络安全和数据安全法益。

2. 抓取可识别性的个人信息。我国《刑法》第253条有关侵犯公民个人信息罪的立法目的是要规范三种行为：一是违反国家有关规定向他人出售或者提供，二是违反国家有关规定将在履行职责或者提供服务过程中获得的公民个人信息出售或者提供给他人，三是窃取或者以其他方法非法获取，爬虫抓取公民个人信息显然不属于“违反国家有关规定”的出售或提供，也不可能存在于履行职责或提供服务过程中。因此，判断抓取可识别个人信息行为是否入罪，关键在于其是否属于“窃取”或以其他方式“非法获取”。突破了合理限制且未经授权或个人同意的抓取可识别个人信息行为，经前述分析可见不具有合法性基础且有侵犯个人或数据平台权益的可能，显然属于此处的“窃取”或“非法获取”，情节严重的侵犯了刑法所保护的个人信息安全法益。当然，行为人使用爬虫或“爬虫+”软件程序，避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据中公民个人信息的行为，同时触犯非法获取计算机信息系统数据罪、破坏计算机信息系统罪与侵犯公民个人信息罪，属于一行为触犯数罪名的想象竞合犯。

三、抓取个人信息行为的规制路径

个人信息是数字时代一切财富与经济的根本出发点，相关的法律制度也在动态契合中努力探寻着合理使用与充分保护之间的权益平衡。“从保护个人信赖或交易安全的角度，一个社会不应当赋予个人控制自己的个人信息的绝对权，或者说法律不应当作出非经本人同意就不能获取其个人信息的规定”①高富平. 个人信息保护：从个人控制到社会控制[J]. 法学研究，2018，（3）：84-101.。对抓取个人信息行为，也应该基于其大数据时代社会性取代个人性成为主要属性这一理念嬗变②王怀勇，常宇豪. 个人信息保护的理念嬗变与制度变革[J]. 法制与社会发展，2020，（6）：140-159.，在法律的框架内对其持谨慎开放的态度。况且当前网络空间个人信息的非法获取、流转、利用等诸多乱象源于各种风险因素集合叠加，并非爬虫“一虫之力”，需要多视角探寻依法规制的具体路径。

（一）民事保护路径

侵犯公民个人信息具有“非接触式”和“非即时性”特征，受害人普遍无法第一时间产生“被害感知”③汪明亮. 治理侵犯公民个人信息犯罪之刑罚替代措施[J]. 东方法学，2019，（2）：16-28.，对个人信息被非法获取的发觉能力和警觉程度远低于被非法利用场景。而且鉴于个人信息在网络空间数字化、代码式的独立存在，受害人甚至是数据平台均无法从技术上实现“实时标识跟踪”。虽然《个人信息保护法》规定了个人信息主体的查询、复制、撤回同意、请求删除等权利，以及承担损害赔偿等侵权责任等责任形式，《民法典》还规定了停止侵害、消除影响等责任形式，但因缺少“及时发现”这一前置条件，且举证能力受限，个人基于民法条款对非法抓取个人信息行为进行救济很难实现。因此，民事视角保护个人信息免被抓取，有赖于个人视角的主张侵权和数据平台基于不正当竞争的倒查。

1. 个人视角主张侵权。前述可知，抓取行为合法的必要前提限于个人信息的合法存在且已公开或获得授权，而个人信息的合法存在依赖于具体的场景，虽然用户已将个人信息发布于具体的平台上，但第三方平台仍不得基于未经授权的爬取而随意使用，否则将构成对公民个人信息的侵权。在孙某某诉北京某科技一案中，某公司通过搜索引擎爬虫技术从校友录网站上抓取原告孙某宝带有其面目特征信息的头像照片，并通过关键词搜索加结果展示的形式将“孙某某”这一自然人姓名和照片进行关联，使得个人信息脱离了“校友录网站上传的个人证件照和真实姓名仅限班级同学可见”的具体场景，且在孙某某两次通知后仍未采取措施消除不良影响，被法院认定为侵犯了孙某某的个人信息权益①参见北京互联网法院（2019）京0491民初某号民事判决书。。

2. 平台视角主张不正当竞争。数字时代持续激发商业新模式、不断催生市场新业态，消费画像、精准营销、个性推送理念下，微博上的“转”“评”“赞”“删”记录，美团、淘宝、京东等互联网平台上的交易记录、消费评价、行为轨迹，甚至前程无忧职介网所记载的职业信息、珍爱婚介网所记载的教育履历等个人信息，都已经成为竞相争夺的数据“矿产”。当前流量红利渐失，单纯依靠平台用户活跃生产内容需要漫长时间积累且难以触顶规模量级，不少平台都选择“爬虫”抓取、抄袭同业竞争数据的“捷径”来拓展影响力、吸引新用户，某互联网平台最为核心的2100万“真实点评”里面有1800万条是通过机器人从点评和某互联网公司等竞争对手那里抄袭过来的”②参见《马蜂窝被曝点评造假，是行业原罪还是企业弊端》，来源:http://www.guigu.org/content/20181022125873.html，最后访问时间：2021年6月21日。。公民个人在网络平台的个性化推荐和点评内容等信息数据，具有平台加持和个人痕迹双重属性，竞争公司以“机器抓取+人工编辑”方式获取此类数据用于商业活动明显属于不正当竞争。在A公司诉B公司不正当竞争一案中，B公司在其检索结果界面直接全部呈现A公司用户的点评信息，被法院认定为B方“超出必要限度使用涉案信息”，损害了数据采集方的利益，该行为“破坏正常的产业生态，并对竞争秩序产生一定的负面影响”③参见上海知识产权法院（2016）沪73民终某号民事判决书。。同样，C公司诉D软件公司一案中，法院也认为“任由技术抓取能力获取信息的方式如果不加规范必将引发技术的恶性竞争”，脉脉未经同意和授权，“获取、使用脉脉用户手机通讯录中非脉脉用户联系人与新浪微博用户对应关系的行为”④参见北京知识产权法院（2016）京73民终某号民事判决书。，有损互联网行业有序公平的市场竞争秩序、构成不正当竞争。

（二）刑事规制路径

作为普适性的信息检索收集技术，爬虫本身不具有规范违反的特征。从刑法谦抑性视角出发，有观点认为“基于非法目的的出售或提供行为才具有刑法意义上的实质违法性，也只有基于非法目的的出售或提供行为才有必要动用刑法进行规制”⑤高富平，王文祥. 出售或提供公民个人信息入罪的边界——以侵犯公民个人信息罪所保护的法益为视角[J]. 政治与法律，2017，（2）：46-55.。但我们应当看到，信息的获取是出售或提供行为的基础，当前刑法选择性打击的倾向，在一定程度上也丧失了对形式多变的各类涉公民个人信息犯罪打击的精准性，需要从多维的视角对网络抓取公民个人信息行为进行考量，立体化其刑事规制路径。

1. 对信息系统非法侵入的考量。未经授权利用爬虫技术非法进入计算机信息系统内部，如果有故意避开或突破技术防护措施的行为，体现出明显的“采用侵入或其他技术手段”，则其侵入行为本身可能构成犯罪。对于侵入非特殊领域计算机信息系统，若爬取数据时使用技术暴力破解系统安全防护或辅以进行多线程提交、批量刷单、验证码自动识别等非正常访问的方式，造成网站访问拥堵、系统运行崩溃，甚至将爬虫技术滥用为网络攻击方式①刘艳红，杨志琼. 网络爬虫的入罪标准与路径研究[J]. 人民检察，2020，（15）：26-31.，后果严重的可能构成破坏计算机信息系统罪。若是侵入的对象为涉及国家安全和国家秘密的政府内网、国防建设、尖端科学技术领域的计算机信息系统，只要实施了侵入行为即构成非法侵入计算机信息系统罪。当然，如果非法侵入后获取了该计算机信息系统内部存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，将爬虫用作“专门用于侵入、非法控制计算机信息系统的程序、工具”，则可能会构成非法获取计算机信息系统数据、非法控制计算机信息系统罪。而对于爬虫或变异爬虫技术的提供行为，明知该技术专门用于侵入、非法控制计算机信息系统，或者明知他人为实施侵入、非法控制计算机信息系统的违法犯罪行为而提供，情节严重的则可能构成提供侵入、非法控制计算机系统程序、工具罪。

2. 对个人信息非法获取的考量。前述论述可见，在未获信息主体的明确同意或授权情境下，抓取非依法公开的公民个人信息显然属于“非法获取”的范畴。根据现行刑法规定，窃取或者以其他方法非法获取公民个人信息，情节严重的构成侵犯公民个人信息罪。从行为表征来看，利用爬虫技术非法获取行为，与“购买、收受、交换”等非法手段获取行为，以及与网络运营者未经被收集者同意或超出必要范围收集行为，三者都违反了法律、行政法规、部门规章有关公民个人信息保护的具体规定，无论是所侵犯的个人信息权法益②杨志琼. 数据时代网络爬虫的刑法规制[J]. 比较法研究，2020，（4）：185-200.，还是行为所造成的个人信息失控客观后果，均无实质的区别。根据相关司法解释③参见《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》，来源：https://mp.weixin.qq.com/s/YzKveektM2IwKbjCY3w5uw，最后访问时间：2021年6月21日。，若非法爬取的公民个人信息系行踪轨迹等四类关键信息五十条以上，系住宿信息、等其他可能影响人身、财产安全的公民个人信息五百条以上，系一般公民个人信息达五千条以上的，构成侵犯公民个人信息罪。

3. 对帮助犯罪主观故意的考量。剥离前述涉嫌非法收集公民个人信息的对象特殊性和以爬虫技术作为入侵计算机系统的手段特殊性，单纯的爬取公民个人信息的行为还可能因其牵连于网络犯罪的帮助行为，独立构成帮助信息网络犯罪活动罪，这与网络空间涉公民个人信息犯罪无限衍生化有关。根据相关司法解释④同上。，行为人实施信息获取行为时，主观上有或被推定明知他人有利用信息网络实施犯罪的故意，仍为犯罪提供技术支持，并符合司法解释中关于情节严重的要求，可构成帮助信息网络犯罪活动罪。基于这一帮助犯正犯化和帮助犯独立性司法态度，考量以公民个人信息为对象的爬取行为，还必须同时辨析其信息获取后如何利用的主观故意。当然，如果在提供爬虫技术支持时主观上不明知或根据现有证据无法推定其技术支持、帮助的行为被犯罪活动所利用，则不能构成帮助信息网络犯罪活动罪。

4. 对整合目的抓取公开信息的考量。当前，结合“撞库”分析、算法匹配等人工智能技术手段，利用爬虫或“爬虫+”海量抓取网络上与公民个人信息有关的已公开信息资料，继而进行全面整合以获取有利用价值的公民个人信息，已成为新型网络黑灰产业的主要内容。此处的抓取公开信息虽将对象限定于“已公开”，但经过整合后的“已公开”显然突破了最初的公开目的和场景，具有侵犯公民隐私权的盖然化和实质性。有些情境下，经授权被抓取的个人信息并未即时流转于网络空间，而是缓存于一定数据库中等待被整合后“再利用”。在某科技侵犯公民个人信息一案中，法院认定某科技利用各类爬虫技术爬取“贷款用户本人账户内的通话记录、社保、公积金等各类数据”，未经许可“以明文形式非法保存的个人贷款用户各类账号和密码条数多达21241504条”①参见杭州市西湖区人民法院（2020）浙0106刑初某号刑事判决书。。虽然抓取已公开信息、经授权抓取个人信息以及利用人工智能技术对所收集的信息进行整合三种行为本身均不违反国家的法律规定，但基于个人信息整合目的作出类似于“电子人肉”行为，仍会带来公民个人信息的永续滥用，有必要从侵犯公民个人信息罪视角予以规制。

（三）行政规制路径

相对与技术的飞跃，个人及数据平台对信息数据的保护具有后觉性，加之法律体系的不完善，当前我国对于公民个人信息的保护具有典型的“先刑后民”特色，而以专项整治方式为主的行政规制更是体现出明显的阶段性和运动式。但是从长远看，我国应该逐渐完善形成以行政手段保护为主、以消费者和数据平台保护为双核心、以刑事规制为辅的个人信息保护格局。当前，行政监管部门应该积极变消极守门人为积极执法者，针对非法抓取公民个人信息可能违反法律规定尚不构成犯罪的行为，主动加强执法监管。

1. 对信息获取者违反规定行为的规制。综合我国《个人信息保护法》、《网络安全法》、《数据安全法》、《治安管理处罚法》等有关法律法规，从目标指向看爬虫非法抓取公民个人信息涉嫌“窃取或者以其他非法方式获取”数据信息。我国网络安全法和数据安全法都明确规定，对于个人信息和数据不得有“窃取或者以其他非法方式获取”行为，但对相应法律责任的规定则不尽相同。《个人信息保护法》对违反“本法”规定，构成违反治安管理行为的，依法给予治安管理处罚；《网络安全法》对违反“本法”规定尚不构成犯罪的，赋予公安机关“没收违法所得，并处违法所得一倍以上十倍以下罚款，没有违法所得的，处一百万元以下罚款”的处罚权限；而《数据安全法》则规定：“违反本法规定，构成违反治安管理行为的，依法给予治安管理处罚”。

从具体过程看，强行抓取或以变异爬虫技术抓取个人信息涉嫌危害网络安全或计算机系统。抓取行为未经授权或超出权限，或者所使用的爬虫及“爬虫+”技术突破合理限制体现出明显侵入性，可以相应认定为侵入计算机信息系统造成危害，同时该行为也可能违反网络安全法涉嫌从事非法侵入他人网络活动；使用自动抓取程序，加重被抓网站运维负荷甚至造成瘫痪，则可以认定为对计算机信息系统功能进行干扰造成计算机信息系统不能正常运行，同时该行为也可能违反网络安全法涉嫌干扰他人网络正常功能。依据《数据安全法》和《治安管理处罚法》，前述行为不构成犯罪的，“处5日以下拘留；情节较重的，处5日以上10日以下拘留”。依据网络安全法，前述行为尚不构成犯罪的，“由公安机关没收违法所得，处五日以下拘留，可以并处五万元以上五十万元以下罚款；情节较重的，处五日以上十五日以下拘留，可以并处十万元以上一百万元以下罚款。”可见，对于非法抓取公民个人信息行为，公安机关有责任和义务在职责范围内主动发现、调查、处理，并可以根据具体的行为实事和违法情节给予没有违法所得、罚款、行政拘留的行政处罚。

从技术规制看，开发变异爬虫技术向他人提供，可能构成“为危害网络安全行为提供专门程序、工具”，或者明知他人从事危害网络安全的活动的提供技术支持，同样违反《网络安全法》给予没收违法所得、罚款、拘留的处罚。若爬虫技术同时结合破坏性程序，暴力抓取目标数据，则可以相应认定故意制作、传播计算机病毒等破坏性程序影响计算机信息系统正常运行，则同样违反《治安管理处罚法》第29条之规定给予行政拘留的处罚。

2. 对数据平台未尽安全保护义务的规制。网络平台作为网络运营者和数据处理者，对其受收集的个人信息应当采取必要的安全保护措施，防止被爬取致泄露。《个人信息保护法》规定：个人信息处理者应当根据需要对个人信息实行分类管理、采取加密或去标识化等安全技术措施等一系列保护措施，并指定个人信息保护负责人、定期开展个人信息保护影响评估，对发生或者可能发生个人信息泄露、篡改、丢失的应当采取必要补救措施并履行通知义务；第58条还特别规定：“提供重要互联网平台服务、用户数量巨大、业务类型复杂的个人信息处理者”应当建立健全个人信息保护合规制度体系、明确平台内产品或者服务提供者处理个人信息的规范和保护个人信息的义务、对违反个人信息保护规定的平台内产品或者服务提供者停止服务等。违反《个人信息保护法》可以由履行个人信息保护职责的部门责令改正，以及给予警告、没收违法所得、责令暂停或者终止应用程序提供服务；对拒不改正的，可以对平台及其直接负责的主管人员和其他直接责任人员处以罚款；对情节严重的，还可由省级以上履行个人信息保护职责的部门处以较大数额罚款以及“责令暂停相关业务或者停业整顿、通报有关主管部门吊销相关业务许可或者吊销营业执照”等较为严厉的处罚。依据《网络安全法》规定未采取必要安全保护措施，或者依据《数据安全法》规定未尽数据安全保护义务，可由有关主管部门责令改正，并可以根据情节依法依次对数据平台及其直接负责的主管人员和其他直接责任人员给予一定数额的罚款，对情节严重或造成严重后果的，还可以相应给予网络平台“责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照”的处罚。同时，依据《网络安全法》还可以给予关闭网站的处罚措施。

四、结语与展望

数字化不仅是当前这个时代的标签，它所引导的产业变革更是在深刻重塑这个时代。数据的扩张必然结果是数据权益的占有、分配以及动态抗争，“大数据技术扩充的逻辑终点在于穷尽公民的个人信息，而公民在贡献个人信息充实大数据时渴望个人信息被有限化利用”①许桂敏，张转. 非法获取公民个人信息行为的智化、解读与规制[J].中国人民公安大学学报（社会科学版），2020，（6）：130-142.。随着爬虫技术及其变异程序产品的工具属性被无限放大，网络空间公民个人信息必将面临越来越突出的隐私、安全、异化、污染、鸿沟等信息伦理问题，以及公民个人被数据画像、精准营销、信息敲诈、电信诈骗、网络暴力等衍生社会问题。

爬虫技术的不可或缺并非其无序滥用的有效抗辩，其存在本身以及持续的衍生、异化终究是加持了人为的设计、使用和导向，技术的无序性和明确的目的性又反向推动爬虫技术逐步脱离工具范畴，演变为不再客观中立的各色载体，犹如刀和剪已不能再一概称为铁。因此，必须细化爬虫技术所寄附的具体行为背后的目的，在具体的场景中类化其载体表现、构建其依法治理的法理依据和规制路径。特别是在当前个人信息保护整体缺位环境下，截断信息非法收集之源头，以法治的视角将网络抓取公民个人信息行为纳入具体的规制路径情势紧迫，急待理论和实务视角进一步纵深探索。