吴振豪 高健博 李青山 陈 钟
(北京大学高可信软件技术教育部重点实验室 北京 100871)
(北京大学信息科学技术学院计算机科学技术系 北京 100871)
近年来,爆炸式增长的数据量助力数字经济快速发展,社会各界也对数字经济寄予厚望.在2020年新冠疫情席卷全球的大背景下,我国数字经济依然保持强劲增长,在疫情中逆势崛起,已然达到39.2万亿元规模,占GDP比重达38.6%,比2019年占比(36.3%)同比提升近2.4个百分点[1].
在数字经济快速发展的背景下,数据安全的问题日益凸显.美国联邦调查局(Federal Bureau of Investigation, FBI)在2020年的网络犯罪报告中指出,2020年接到投诉791 790起,平均每天超过2 169起,损失金额超过41亿美元,这表明总投诉比2019年增加了69%[2].中国互联网应急中心(National Internet Emergency Center, CNCERT/CC)在2020年全年监测中发现政务公开、招考公示等平台未脱敏展示公民个人信息事件107起(涉及未脱敏个人信息近10万条),个人信息非法售卖事件203起,联网数据安全事件3 000余起[3].数据安全问题已经成为数字经济快速发展中的一大担忧,保护大数据环境下的数据安全需要依赖系统的数据安全治理.
本文以加强数据安全治理为主要目标,从数据安全的基本概念、数据生命周期、数据安全技术、数据安全技术应用出发,整理先进数据安全技术中表达的数据安全理念,理性看待数据安全技术的作用,思考数据安全治理在技术上的可行性,研究数据安全治理的技术路线.
根据《中华人民共和国数据安全法》中第3条规定,数据安全是通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力.数字经济发展中使用的数据是事实或观察的结果,是对客观事物的逻辑归纳,反映了公民的实际信息和我国的实际社会情况.因此,数据安全治理具有极高的战略意义.保护数据安全,不仅仅是保护数据本身的安全和使用过程的安全,更是保护数据相应实体的安全,对于保护我国公民的人身安全具有重大作用.
数据安全重要的战略意义、深远的影响以及严峻的形势促使各国政府积极采取措施保障国家数据安全.为了积极推进数据安全治理,我国除了《中华人民共和国数据安全法》之外,还推出了《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》这2部基本大法.此外还有其他更为细致的条款和办法,如《国家网络空间安全战略》《个人信息和重要数据出境安全评估办法(征求意见稿)》《数据安全管理办法》《中华人民共和国密码法》《网络安全审查办法》等.在国外,欧盟颁布了《通用数据保护条例》《联盟机构个人数据处理保护条例》《非个人数据自由流动条例》以及《欧盟数据战略》等,并声明数据保护是增强公民赋权和欧盟实现数字化转型的基础.美国提出了《加州消费者隐私法案》《数据保护法》《国家安全和个人数据保护法提案》以及《联邦数据战略与2020年行动计划》.此外,其他国家和地区性组织也纷纷推出了数据安全保护的相关法律、计划以及条例.
可是,法律条例的实施并不能完全代表数据安全得到了有效的治理.一方面,前述与数据泄露相关的例子本就是违法行为,尽管有防护系统和安全条例,数据泄露事件仍然不断发生,社会和企业也在呼求更好的数据防护措施.另一方面,数据和技术的不良使用仍然在影响大家的生活,违规的数据获取、不合理的数据操作、虚假的数据反馈不断给民众和社会造成困扰.因此,数据安全治理的落实还需要全面的技术体系来保障数据在各方、各层面、各领域流转过程中的安全性,使得公民、国家、企业的正当、合法利益不会受到各种恶意行为的侵害.
数据生命周期反映了数据的阶段性变化及其规律.根据使用目的的不同,可以发展具有不同侧重的数据生命周期,如云数据的数据生命周期[4].但目前少有针对数据安全治理的数据生命周期,本文从数据安全治理的角度,提出了一个新的数据生命周期,如图1所示.该数据生命周期以全过程监管为主,将数据流转的各个阶段归结为数据准备阶段、数据存储阶段、数据使用阶段和数据销毁阶段.
图1 数据安全治理的数据生命周期
数据准备阶段是数据可用的前提,包括数据生成、数据筛选和数据汇集,能够解决数据来源分散、数据需求多样化的问题.其中,数据生成是产生新数据的行为,无论是在软件服务的基础上产生原始数据,还是在现有数据的基础上产生新的数据,都属于数据生成过程.数据筛选是根据数据可用性对数据进行选择,未通过筛选的数据是当前服务所不需要的无用数据,理论上应当进行销毁.数据汇集是更换数据存储位置的过程,如大量个体用户的本地数据上传到云端服务器.
数据使用阶段则包括数据分析、大规模计算和数据合作,该阶段是发挥数据价值的主要阶段.数据分析的主要功能是了解数据中的信息,挖掘数据的价值,形成可用的自动化分析方法,如大数据模型或机器学习模型.大规模计算是数据分析成果的大范围应用,需部署、运行数据分析成果,提供稳定、便捷、有效的数字服务.数据合作是利用不同数据主体的数据去完成单独数据主体难以完成或完成度不高的数据任务.
数据存储阶段是重要的中转阶段,将数据保存在特定的存储容器中(如关系型或非关系型数据库),并随时为被调用做好准备.数据长期处于该阶段中,因此该阶段要尤其注意保护数据的安全,防止数据泄露事件的发生.
数据销毁阶段是所有数据的最终归宿,任何阶段、过程中的数据可以随时进入数据销毁阶段.销毁后的数据不再以任何形式可用,如果数据拥有者要求数据使用者销毁数据,那么数据使用者须给出销毁成功的信息,数据使用者不可瞒报、漏报数据销毁的情况.
全过程监管对数据准备、数据存储、数据使用和数据销毁中的过程进行全面的监控管理,能检查数据相关操作是否符合规定,利于落实数据安全相关法律法规,是数据安全治理的核心,有助于提高数据安全的整体水平.
根据数据安全治理的数据生命周期,可以发展如图2所示的相关技术.在图2中,数据存储阶段和数据销毁阶段被放到了一起,因为执行数据存储和数据销毁的通常是同一方.此外,图2中还涉及了系统防护安全技术,这在数据生命周期中没有提及.系统防护安全技术是现阶段数据安全保护的常用技术,可以为数据生命周期中各过程提供基本的安全环境.另外,图2中的技术可以根据使用目的自由组合,并非全部应用了图2中的技术才能保障数据安全.
图2 数据安全治理中的技术
全过程监管安全技术的作用是对数据生命周期中的各个过程进行监控管理,可以对数据的流转过程进行溯源,合理地验证各参与方的行为,全局管理数据安全治理形势.
数据溯源包含了系统和应用层面详细、准确、完整的数据操作历史[5],可以了解数据的产生及演变过程,为所有监管工作提供帮助.零知识证明[6]允许进行数据操作的各方在不提供具体数据内容的情况下向监管方证明已经获得了用户的许可并采取了数据保护操作,避免直接查探数据可能引起的隐私泄露问题.零知识证明常与区块链一起使用.区块链是去中心化的分布式账本,能够在分布式环境下不依赖可信第三方进行数据的存储、传输和验证,实现系统状态的一致性[7].区块链的防篡改特性可以保证记录内容的可信性.态势感知能够综合利用安全大数据来对数据流动的整体情况进行分析、展示和预警[8].将态势感知用于数据安全治理,利于发现数据安全治理中的薄弱环节,评估数据安全事件发生的可能性,预测未来的数据安全状况.
数据使用阶段是当前数据安全的薄弱环节,但为了保证能够充分发挥数据的价值,该阶段的安全性在生产环境中难以引起重视.数据使用中可能产生的安全问题主要是计算的不可信问题以及对原数据的窃取行为.计算的不可信问题是潜在的恶意攻击导致人们难以相信计算结果.对原数据的窃取行为是计算方能够通过内存攻击等手段窃取数据内容.因此,不需要直接接触原始数据就可以完成数据计算的相关技术是对抗这2个问题的有效方法.
图2中联邦学习、同态加密、安全多方计算和可信执行环境的共同特点就是:数据使用方不需要直接接触原始数据就可以完成数据的使用.联邦学习用于解决数据孤岛问题[9],可以在节点不上传数据的情况下完成对节点数据的学习.同态加密[10]可以在密文上进行加法和乘法运算,将计算结果解密后等同于直接在原文上的计算结果.安全多方计算[11]能够在去中心化的分布式计算任务中保证多方输入隐私性和输出结果正确性.同态加密和安全多方计算都是“密文计算”的重要技术.可信执行环境[12]是一种基于硬件的安全方案,它运行在一个独立的环境中且与操作系统并行运行,能够确保运行在其中的程序和数据不被可信执行环境外的程序读取和破坏,因此若在可信执行环境中执行数据计算,任何人无法知晓数据原文.
数据分类分级基于对数据的有效理解和分析,对数据进行类别和密级的划分,进而可以对数据采取差异化的操作,利于协调数据保护和数据可用之间的关系.
数据存储技术主要是为了保护数据不被恶意访问、篡改和窃取.因为数据存储阶段是数据最重要的集散地,所以该阶段是数据安全的必争之地,对数据安全也有更高的要求.图2中该阶段的技术是从防止非常规访问、实现密态操作和加强存储过程审计3个方面来提升安全性.
数据分类分级、数据安全隔离和访问控制技术是防止非常规访问的重要力量.在该阶段,数据分类分级可以指导不同类别、级别数据的差异化存储,规范数据存储行为,提高非常规访问的门槛.数据安全隔离主要用于数据防泄密,是针对数据分类分级中密级较高数据的技术手段,通过磁盘、网络等多重隔离手段保证密级数据在安全区域内可控,外发审核可记录、可查询.访问控制技术[13]是数据分类分级理念的体现,可以通过角色和策略组来控制用户的访问权限,但常见的访问控制粒度较粗,常常会泄露意料之外的数据.细粒度的访问控制技术可以实现某个字段、某个值的访问控制,真正落实分类分级的相关理念.
密态操作可以让数据以密文形式进行存储,防范越权访问、数据泄露等意外发生后明文数据泄露的问题.同态加密和可搜索加密是密态数据存储的重要技术.同态加密保证了数据即使以加密的形式存储也不会影响数据存储必须提供的功能(如检索、查询).可搜索加密[14]也能够提供安全的加密方法和在密文上直接检索的功能,在发出搜索请求之后,服务器可以根据加密文档是否与查询关键词有关联来返回搜索结果.同态加密和可搜索加密虽然都允许服务器以密文的形式保存数据,但两者存在不同.可搜索加密是返回包含目标内容的文档,同态加密是返回想要的目标内容,因此同态加密比可搜索加密更为细粒度,但同态加密的计算速度不如可搜索加密快.
数据完整性、数据安全审计和数据信托都具备针对数据存储的审计能力.数据完整性可以保证托管在别处的数据是完整的、未被恶意行为篡改的,且支持在不检索整个数据的情况下进行审计[15].数据安全审计是为了防止合法人员做非法的事情,如数据开发人员利用职权进行信息篡改、违规删除记录等.数据安全审计可以检查数据操作行为、监控数据相关权限变化以及对偏离正常行为的操作告警.数据信托[16]衍生于传统的信托行业,可以在数据主体与数据控制人之间创设出信托法律关系,数据控制人基于数据主体的信任对数据享有更大的管理运用权限,同时也承担更严格的法律信义义务.数据信托可以解决3个问题:数据的授权使用问题、数据的收益分配问题和数据使用纠纷中的举证问题.也就是说,数据信托也会具备相应的审计制度来校验数据的使用和收益分配.
对数据销毁来说,最重要的是保证数据确实按照用户的要求被销毁,防止瞒报、漏报的情况.因此,数据完整性、数据安全审计、数据信托的相关技术也可以用于数据销毁.
数据准备安全技术的核心是保护数据隐私.其中数据匿名化和数据脱敏以模糊处理和删除敏感信息的方式防止隐私泄露,但这2种技术容易不可量化地降低数据的可用性.差分隐私技术[17]主要用来防范差分攻击,使整体结果不因有限个体的变化而发生改变,因此也就无法根据整体结果推测出个体样本包含的隐私信息.差分隐私具有隐私预算的概念,能够可量化地衡量隐私保护程度和数据可用程度,但差分隐私技术只能作用在整个数据,难以满足客户端的隐私保护需求,其变种——本地化差分隐私——则可以在客户端直接应用[17].本地化差分隐私技术是对数据进行扰动后再上传数据,令某算法对任意2条不同的数据计算后得到的结果差异处于某个极小的范围,从而满足差分隐私条件.本地化差分隐私不需要额外的第三方,也不需要数据字典等工具,支持动态保护隐私.
在数据准备阶段,零知识证明可以验证本地数据的价值,从而通过数据筛选.因为零知识证明不需要提供具体数据信息,所以可以满足筛选需求下的隐私保护.数据加密传输已经是广泛应用的技术,如HTTPS和虚拟专用网络(virtual private network, VPN)技术.数据加密传输保证了数据在传输过程中是密文状态,防止第三方在截获数据后窥探数据隐私.数据分类分级能够指导不同的数据采用不同的处理方式,对数据隐私保护也非常有利.
系统防护安全技术的主要目的是保护所有数据应用系统的安全,是信息安全中的常用技术,主要用于保护计算机硬件、软件、数据等不因偶然意外和故意的恶意攻击而遭到破坏和泄露.系统防护安全技术是数据安全治理的底层技术,对于优化数据治理环境有重大意义.
防火墙、入侵检测、入侵防御、恶意代码检测主要用于抵御故意的恶意攻击.防火墙可以限制网络数据的出入行为,入侵检测可以有针对性地检测恶意行为,2项技术都依靠大量的规则.入侵防御在入侵检测的基础上添加了防御机制,能够及时中断、调整或隔离一些不正常或是具有伤害性的行为.恶意代码检测主要针对蠕虫、后门、僵尸网络等恶意软件,需要建立恶意代码特征库来提高检测成功率.
容灾备份可以保障系统在遭遇意外情况时也能正常运行,解决的是系统可用性的问题.如果系统遭到物理破坏(如自然灾害)或者严重的恶意攻击而无法正常提供服务,就可以将服务入口切换到备份服务器上,保证服务的正常运行.
隐私保护是当前数据使用中的一个强烈需求,也是各国推行数据安全治理相关法律、法规的关注重点.
近年来,国际上有多部法律出台,要求商业公司在采集数据时,必须做好隐私保护工作.如欧盟的《通用数据保护条例》(General Data Protection Regulation, GDPR),美国的《加州消费者隐私法案》,我国的《中华人民共和国网络安全法》,都对数据安全与隐私保护相关问题进行了严格的规范与引导.Google因为违反欧盟GDPR法规被处罚5 000万欧元;Facebook因为泄露了8 700万用户的信息,需要支付50亿美元的天价罚单.
隐私保护的相关法规都认为流通的数据应当经过脱敏处理,欧洲主要称呼为匿名化处理[18].《中华人民共和国网络安全法》第42条规定:“未经被收集者同意,不得向他人提供个人信息.但是,经过处理无法识别特定个人且不能复原的除外”[19].欧盟的GDPR规定“匿名化是指将个人数据移除可识别个人信息的部分,通过数据匿名化后,数据主体不会再被识别.匿名化数据不属于个人数据,因此无须适用条例的相关要求”[20].美国则规定“数据控制者通过改变或删除数据集中的个人可识别信息,使数据使用人难以识别数据主体身份”[21].
根据这些法律法规的要求,隐私保护概念下的数据安全治理的首要目标是如何去除数据中的隐私信息,且不影响数据处理行为.根据图1中的数据生命周期和图2中的数据安全技术可以发现,数据准备阶段的差分隐私、数据匿名化和数据脱敏技术是数据安全治理的关键技术,全过程监管中的相应技术则是监控数据中隐私信息是否被去除的有力手段.
在去除隐私信息方面,数据匿名化和数据脱敏都已经有一定的应用基础,国外的数据掩蔽工具Informatica ETL中的脱敏模块,国内的世平SIMP-SDM、安华DBMasker等都可以满足一定的脱敏需求.差分隐私也能满足去除隐私信息的需求,尤其是本地化差分隐私,直接在采集端就可以应用.Google利用本地化差分隐私从Chrome浏览器采集用户数据,Apple使用本地化差分隐私优化emoji表情的推荐.
《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》中将数据与土地、劳动力、资本、技术一起看成了生产要素,并且强调“加快要素价格市场化改革”.也就是说,数据不再仅是具备表面浅层统计意义的数字信息,而是成为重要的生产资料和要素,数据的权属问题需要尽快界定清楚,以便对数据的收益进行研究.
数据权属的研究需要建立数据权利的概念.GDPR赋予了用户知情权、访问权、修正权、删除权、限制处理权、可携带权、拒绝权等权利,保证了用户对相关数据访问、控制、修改和删除的能力.从数据作为生产要素的角度出发,数据权属还应当赋予用户收益权的概念,如果个人信息涉及商业利益,那么个人可以向信息利用者请求支付报酬.法国《数据处理、数据档案及个人自由法》规定:任何自然人均依法有权反对信息控制者在未对其付费的情况下,为行销目的,特别是为商业目标,在当前的或进一步的信息处理中使用与其相关的信息.
因此,若在数据权属的概念下进行数据安全治理,前文在隐私保护概念下的数据安全治理就存在不足.需要从让数据使用者不知道数据属于谁,变成让数据使用者无法读取数据中的隐私信息.否则,数据所有者与其数据之间的关系将断开,无法确定数据所属,也无从保护数据所有者在数据上的各项权利,遑论从数据上获得相应收益.
虽然数据安全治理在数据权属概念和隐私保护概念下的执行方式有所不同,但图2所示的数据安全保护技术仍然可用,尤其是数据存储/数据销毁安全技术和数据使用安全技术的应用范围被大大扩大.数据使用安全技术的核心是数据使用方不需要直接接触原始数据就能完成数据的使用,实现了计算和数据的分离.既不会消除数据的权属信息,也不会在操作过程中侵犯数据隐私,适合在数据权属概念下的数据安全治理中使用.
数据存储安全技术的核心是防止数据被恶意访问、篡改和窃取.其中:数据分类分级、数据安全隔离和访问控制确保了数据不会被恶意访问;可搜索加密和同态加密能使数据以密文形式存储,即使数据泄露也不会影响数据安全;数据信托、数据完整性和数据安全审计可以对数据的存储情况进行审计.在这些技术的组合作用下,数据权属和数据隐私的侵犯将会变得困难.因此,发展、应用数据存储阶段的安全技术,可以对保护数据权属和数据隐私起到关键作用.
全过程监管技术在数据权属概念下的数据安全治理中有着比在隐私保护概念下的数据安全治理中更大的作用,需要对数据使用阶段、数据存储阶段、数据销毁阶段都进行监管,确保数据权属法律、精神和理念的有效落实.
值得注意的是,在数据权属概念下的数据安全治理中,数据信托有着比较大的发挥空间.在具体执行数据信托时,产生数据的一方作为委托方需要将自己的数据交给数据信托机构和其他各方的数据进行统一管理,信托机构作为被委托方利用收到的所有数据创造收益,并将收益的一部分分享给委托方.如果委托方陷入数据使用纠纷,还可以向数据信托机构索要自身数据的所有使用记录,解决举证困难.在实施数据信托方案时,对数据信托机构的信用有着很高的要求,也就是说,将会对数据信托机构执行严格的监管,这有利于通过数据信托保护委托方的各项数据权利.
1) 明确数据安全治理的治理理念
数据安全治理的治理理念对如何推进数据安全治理有着重要的意义.正如本文所述,隐私保护概念下的数据安全治理和数据权属概念下的数据安全治理存在着较大的差异,这些差异会影响数据安全治理的应用范围、治理方向、执行策略和相关安全技术的研究方向.因此,需要尽快明确数据安全治理的治理理念.
2) 加强数据安全保护知识普及
无论要推行怎样的数据安全治理,让公民具备数据安全保护的相关知识都是必须的.加强数据安全保护知识的普及,可以让公民更好地认识数据生命周期,理解数据的运转方式,鉴别违背法律法规的数据操作,有利于形成良好的数据安全治理环境,对推进数据安全治理有着重要的积极意义.
3) 加强数据安全技术发展
数据安全技术能够为数据安全治理提供可行性保障.数据安全技术和数据安全治理理念是相互依存、相互促进的,数据安全治理理念可以为数据安全技术的发展指明方向,数据安全技术的进步可以促进数据安全治理理念的提升.缺少了数据安全技术的数据安全治理就像是只用一条腿走路.因此,有必要继续加强数据安全技术的发展.目前,许多数据安全技术对数据安全治理能够提供理论支撑,如区块链、联邦学习、同态加密、安全多方计算、数据信托等都可以满足以前难以想象的需求.但是,这些技术离实际应用或者大规模应用还有很长的路要走,如同态加密和安全多方计算的运算效率需要大幅提高,数据信托在法律层面和实施层面的完备性也需要进一步的探索.
近年来,数据对社会发展的重要性已经逐步被人们所认识,数据安全保护的必要性也已经为人们所接受,数据安全治理将成为保护公民、国家、企业安全的重要手段.本文从数据安全的基本概念入手,立足于数据生命周期,总结数据安全保护技术,分别分析隐私保护概念下和数据权属概念下的数据安全治理中数据安全技术的可行性,最后从数据安全技术的角度对如何推进数据安全治理进行了思考.大力发展数据安全治理,可以保护公民的切身利益,提高国家的治理水平,明确企业的发展方向,利于构建和谐健康的社会秩序.