苏丽洁
本文文献研究主要利用CNKI 全文数据库,通过关键词“数据泄露”搜索结果,时间限制为2018年至2020 年,检索出共338 篇文献,其中有核心期刊33 篇;继而在搜索结果中检索“政府”一词,得出共有22 篇文献,其中与“政府开放数据”相关文献共3 篇。从近两年338 篇相关文献来看,其中被引用文献共259 篇,被核心期刊引用共44 篇。
通过对这些文献进行阅读发现,近两年我国对数据泄露的研究主要集中于数据泄露反思和解决办法两个方面。王春伟[1]研究了央企防范数据的办法,指出数据防范的两大困难,分别是管理者的疏忽和技术缺陷;苟洪景[2]以Facebook 数据泄露事件为例,指出了数据泄露的原因,首先是网络媒体和信息技术为数据泄露提供条件,其次是个人数据价值不断升高,一切网络活动痕迹都可能成为有价值的数据,并给媒体创造经济利益,一旦被不法分子盗取利用,给个人带来极大伤害;张志成[3]指出数据泄露是政府,企业和个人多方技术作用的结果,在社交媒体时代,保护个人信息数据可利用区块链技术;王泽群[4]指出政府在个人数据保护中应重塑职能;数据泄露的持续发展引起政府的极大重视,不仅对个人数据的保护,政府开放数据的保护同样重要。侯晓丽[5]在研究政府开放数据保护中指出,政府应建立完善定密制度,加强对工作人员的管理与限制,更好的保护数据信息;张素华[6]认为通过行为规制模式保护数据可以更好的防范风险,数据保护应由个人控制转向社会控制,将静态的隐私保护转向动态的隐私保护。
除此之外,不少学者,从立法角度寻找数据保护办法。赵淑钰[7]认为我国数据泄露时常见的仍是网络运营者的自我补救,我国应当借鉴国外数据泄露通知制度①内容,保障《网络安全法》的实施,同时相关政府部门能够有法所依,对数据泄露现象迅速做出反应,减少损失;王海波[8]则指出当前我国数据保护制度尚不完善,政府相关部门应提高对相关法律法规建设的重视度;何玉颜[9]通过对欧盟《通用数据保护条例》分析,提出我国应当学习国外法律条例,统一个人数据保护的原则性问题,对各行各业数据保护制定最低标准。
总体来看,数据泄露行为的反思与保护是近两年研究热点,研究学者大多利用案例分析法进行研究,并且基本都认识到数据泄露下政府监管的重要性和我国数据保护立法空白现象。本文将以2019年网络爬虫风波事件为例,展现我国政府在此次数据泄露事件中的处理办法。
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它是指这样的一类程序,他们可以自动链接到互联网站点,并读取网页中的内容或存放在网络上各种信息,并按照某种策略对目标信息进行采集(如对某个网站的页面进行全部读取)[10]。
早在2017 年,致力于为全球人工智能企业提供数据获取及数据产品服务的数据公司数据堂,由于大量售卖市民的私人信息,在2019 年2 月份时,对其作出了判决,相关八人,最严重的判罚5 年有期徒刑,并罚款310 万元人民币②。在2019 年4 月22 日,巧达科技法人代表王某某等36 人因非法获取计算机信息系统数据,被依法批准逮捕。该公司在未经授权的情况下,通过大量代理IP 地址、伪造技术设备等手段,大量恶意窃取放在服务器上的用户数据③。
2019 年中秋以来,杭州市公安加大对数据公司的查处力度,该次调查行动起源于贷款催收公司,通过贷款人个人信息进行暴力催收导致自杀事件。2019 年9 月6 日,魔蝎数据公司高管被警方带走,引起业内波动;9 月11 日,公信宝运营方杭州存信数据科技有限公司被警方查封;同年10 月21 日,港股上市公司51 信用卡因外包催收公司暴力催收寻衅滋事被杭州警方突击查处,将此次数据泄露风波推向高潮④。网络爬虫的合法性受到质疑。综合此次事件得知,当抓取的数据是真实的数据并且遵守使用规则的情况下,是允许的;但遇见原创数据时,受版权限制不能转载,否则会造成严重的侵权行为。
据安全情报供应商RBS 显示⑤,截至2019 年9 月30 日,全球披露的数据泄漏事件共有5183起,较2018 年上涨了33%;泄露的数据数量达到了79.95 亿条,较2018 年上涨了117%。从泄露的内容来看,53%的内容是个人基本信息,其次是用户个人的账号信息。由此可看,数据泄露事件在全球范围内一直在发生,这也展现了数据泄露是亟待解决的问题。
此次爬虫风波的核心原因是数据泄露和非法买卖。在数据保护法中,数据大致分为可以采集的数据和禁止采集的数据[11]。作为可以采集的数据指的是不涉及个人隐私的数据或经个人同意授权的数据;禁止采集的数据是涉及个人隐私数据或商业机密的数据。众多数据公司被查处的原因之一是利用网络爬虫技术从网页上非法获取个人隐私数据。例如,信川科技下的核心产品数聚魔盒通过数据采集工具帮助客户采集信息,利用爬虫技术获取各类用户个人数据,但在爬取个人信息前是否征求用户个人同意不得而知,所以在此次风波中也不得不暂停相关服务。
网络爬虫爬取数据来源是多样的,数据来源主要有一下几个方面:企业产生的用户数据,第三放数据购买平台,政府开放数据和网页数据。无论数据来自何处,利用爬虫技术进行爬取数据信息时,涉及个人隐私的数据应当征求当事人同意。此次被调查的数据公司绝大部分对外提供数据分析服务,对购买服务人员收取相应的服务费,但存在风险,且受技术程度的限制,同时不确定数据信息的合法性,时刻在法律边缘游走。非法获取个人数据信息是其一,倒卖个人数据是其二,两者造成大数据风控公司走向风口浪尖的主要原因。例如,2015 年11 月至2016 年5 月,元光公司为了提高本公司的App 软件“车来了”的用户量和信息查询的准确度,指使员工利用爬虫技术爬取谷米公司“酷米客”App的实时公交数据信息,用于自己公司的软件并对外提供公众查询数据[12]。对于倒卖个人数据,最为典型的例子是2017 年数据堂公司被查处,数据堂公司大量售卖个人信息,8 个月内,日均传送个人信息1.3 亿条,数量之多,令人惊讶。
杭州警方此次调查的大数据风控公司,起因于贷款催收导致自杀事件。不少知名大数据风控公司深陷其中,如同盾科技,新颜科技,公信宝以及51 信用卡等。梳理被查处公司信息了解到,大多数公司为银行,贷款平台,保险等提供风控服务。其中对公众影响最大的是贷款业务。用户在下载某些借钱App 时,系统要求开放用户开放手机内的通讯录等隐私信息,这些隐私信息为后期催还贷款暴力催收埋下“炸弹”。2019 年9 月11 日杭州市公安局举行新闻发布会,共有60 个套路贷App被关停,捣毁现金贷等犯罪团伙8 个。早在2019年“3.15”晚会上,曝光了一大批网贷平台,其中涉及现金贷犯罪团伙8 个,抓获违法犯罪行为300余人。
套路贷⑥是指以无抵押快速放贷为诱饵,以民间借贷为幌子,诱骗或强迫他人陷入借贷圈套,通过精心设计的“套路”手段让借款人的债务在短时间内几何式倍增,继而通过暴力讨债、虚假诉讼等手段非法占有他人较大数额财产,是一种组织性、预谋性强的违法犯罪行为。10 月21 日杭州公安发布声明,51 信用卡涉及大量异常投诉信息。综合多方信源,51 信用卡委托外包催收公司催还贷款,并利用自身技术优势,将贷款人的个人通信录,定位住址提供给催收公司,通过恐吓,滋扰等软暴力形式催收债务。根据威瑞森《2019 年数据泄露调查报告》⑦显示:在41 686 件安全事件中,共有2 013件已经证实的数据泄露事件,可见数据泄露规模之大。这些数据泄露事件中,其中71%的违规行为来自经济动机,这就不难理解为什么此次被查处的数据公司均与银行,金融行业有关。
大数据时代下,数据泄露成为老生常谈的话题,我国关于数据泄露立法至今尚不完善,此次风波在一定程度上促进我国立法完善。目前我国刑法中的二百五十三条强调侵犯公民个人信息罪,《中华人民共和国民法总则》中明确个人信息权利受到法律保护。但针对我国数据泄露的特定法律仍有欠缺。在2017 年6 月1 日,《网络安全法》⑧正式实行,第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。此次法律的颁布使得我国个人信息泄露犯罪行为有法可依。2018 年5 月欧盟出台了《通用数据保护条例》⑨,表明过去互联网机构习以为常的、利用爬虫技术过度抓取用户行为数据的做法,因涉嫌侵犯隐私变得不再“合法”。
2019 年9 月至10 月的“爬虫风波”,引起政府得极大重视,杭州市公安局对相关数据公司迅速摸查,查处违法犯罪行为。例如针对51 信用卡公司的突击检查时,动用三辆客运车,公司内部被警方严格把守,只进不出。由此可看,对于违法犯罪的数据公司严格防范与查处。同年10 月14 日,央行下发了《个人金融信息(数据)保护试行办法》,第十八条规定:金融机构不得以概括授权得方式获取信息主体对收集处理使用和对外提供其个人金融信息的同意,同时要求各企业征信机构自我排查是否存在违法爬虫行为。上海市在10 月份率先实施《上海市公共数据开放暂行办法》⑩,该《办法》重点考虑了数据开放和数据安全的关系,既要推进公共数据开放和深度利用,又要高度重视和保障数据安全,明确指出政府应当落实数据安全管理要求,采取措施保护商业秘密和个人隐私,防止被非法获取。
除了对数据安全迅速作出回应,在51 信用卡被查处的当天,针对贷款违法犯罪行为,我国最高人民法院颁布了《关于办理非法刑事案件若干问题的意见》,明确提出了,涉及强行索要非法贷款行为,因非法放贷诱发涉黑涉恶以及其他违法犯罪活动,违法必究。2019 年12 月时,全国人大表明,中国将在2020 年制定《数据安全法》和《个人信息保护法》,其中《数据安全管理办法》目前已经完成了公开征求意见。今年政协会议上,明确提出政府部门之间应加快信息之间的统筹协调,建立统一的个人信息保护监管平台,避免重复执法。由此可看,我国对数据安全的探索始终没有停止,虽然我国关于数据保护的法律没有国外那么完善,但一直在探索的道路上,始终为人民社会服务。
数据泄露伴随互联网运营而生,数据保护理应是政府,企业和用户三者共同努力的结果。其中政府应做好带头作用,大力鼓励数据保护技术,利用数据加密技术保护数据。区块链技术2019 年引起大家的关注,习近平总书记在中央政治局第十八次集体学习时强调,把区块链作为核心技术自主创新重要突破口,加快推动区块链技术和产业创新发展11。区块链作为一种去中心化的分布式账本数据库,通过数据密码学进行加密,避免了数据的篡改与盗窃。这为数据保护提供了更好的技术支撑。今年3 月保尔森基金会绿色金融中心与清华大学绿色金融发展研究中心联合发布《金融科技推动中国绿色金融发展:案例与展望》12报告中指出,利用区块链等技术,解决资金穿透管理的问题,可以帮助金融机构实现对绿色信贷、绿色债券等投向的跟踪,帮助降低“洗绿”“漂绿”的风险。由此可看,区块链技术应用广泛,区块链本质作为一个数据库,不仅为数据保护提供技术支撑,且该技术不涉及第三方,对大数据公司的金融服务建设健康交易环境。
网络爬虫技术是数据和信息的搬运工,最为常见的网络爬虫是通用网络爬虫即搜索引擎,如百度,谷歌等浏览器。除此之外,还有增量型网络爬虫,聚焦型网络爬虫。网络爬虫爬取的数据来源是多样的,主要有政府公开数据,第三方平台买卖数据,网页数据以及企业产生的用户数据,其中第三方平台购买数据存在较大风险,是数据泄露主要方向之一,同时也此次爬虫风波的主要承担者。数据公司获取数据主要通过网络爬虫技术实现,这使得网络爬虫走向了“害虫”,技术中立也有可能走向违法犯罪行为。
2019 年网络爬虫事件凸显两大问题,一是数据泄露,二是贷款后的暴力催收。我国政府对次进行了硬核查处,不少知名数据公司深陷其中。相关政府部门也迅速对此作出回应,建立数据保护相关法律条例;针对网络非法贷款,最高法院提出相关办法。数据保护不仅通过法律的约束,还要从技术层面解决问题,我国现如今大力发展区块链技术,为数据保护提供新的方向。
注释
①数据泄露通知制度:是指负有数据安全保护义务的主体在发生个人信息泄露事件时,在规定的时间内以适当形式,通知主管机构及用户的制度。
②2018年7月11日 中国证券网 http://www.cqn.com.cn/cj/content/2018-07/11/content_6025374.htm。
③2019年4月22日腾讯网https://new.qq.com/omn/20190422/20190422A0N7IF.html。
④2019年10月26日澎湃新闻https://m.thepaper.cn/baijiahao_4790252。
⑤Risk Based Security (RBS) 2019年Q3季度全球数据泄露事件报告https://www.freebuf.com/column/225216.html。
⑥套路贷:2019年4月10日 常德长安网《扫黑除恶为何要给这四个词“官方解释”》
⑦威瑞森 2019年数据泄露事件报告 该报告从2008年记录至今,http://www.199it.com/archives/885531.html。
⑧《网络安全法》:由全国人民代表大会常务委员会于2016年11月7日发布,自2017年6月1日起施行。中华人民共和国主席令(第五十三号)公布。
⑨《通用数据保护条例》:2018年5月25日,欧洲联盟出台《通用数据保护条例》,前身是1995年制定的《计算机数据保护法》。
⑩《上海市公共数据开放暂行办法》:2019年9月10日上海市人民政府公开,定于同年10月1日正式实行。
11 2019年10月24日习近平总书记在中央政治局第十八次集体学习时的重要讲话。
12 2020年3月9日,该报告首次出炉,经过一年的合作研究,综述了金融科技在绿色金融领域运用的一些具体案例,讨论了这些运用所面临的障碍,展望了未来的发展前景,并从政策和产业支持角度提出了建议。