吴振刚 中国信息通信研究院安全研究所工程师,博士
面向大数据应用的隐私保护技术进展
吴振刚 中国信息通信研究院安全研究所工程师,博士
随着互联网的迅速发展,大数据应用保存了海量的用户数据,也增加了用户隐私泄露的风险。本文总结了大数据应用技术及相关隐私保护技术的发展情况。
大数据;隐私保护;k-匿名;查分隐私;加密
随着信息通讯技术及互联网的飞速发展,应用系统收集了海量用户数据,并依赖这些用户数据为用户提供更有价值的信息。互联网应用为满足海量用户在真实世界中活动的需要,不可避免地保存、转发、生成了大量与用户属性和行为紧密相关的数据。通常,隐私(即隐私权)是用户对其个人信息的一种权利。用户主观上不希望不可信参与方获取自己的个人信息,用户担心不可信参与方会滥用个人信息,从而对用户造成潜在风险或多方面的损失,因此用户有权限制不可信参与方获取不必要的个人信息或者限制不可信参与方使用这些个人信息的方式。
互联网是一个开放环境,用户通过终端设备,经由网络连接最终访问远端的互联网应用服务,个人信息经过了多个参与方,更重要的是,大多数互联网应用服务本身也是不可信参与方。近年来,很多大型网站出现用户数据库泄露的安全事件,引起了广泛关注。事实上,在用户访问互联网的各个环节都有泄露或滥用用户个人信息的隐私风险。因此,针对大数据应用的隐私保护技术是目前数据安全与隐私研究的一个热点。
互联网应用系统通常需要为数百万以上用户提供公开服务。建立为成百上千用户提供服务的小型信息系统在现代信息技术基础上并不困难,但是建立为海量用户提供可靠服务的大型信息系统仍然是非常具有挑战性的技术工作。即使看起来很简单的业务,如个人邮箱、Blog、微博、即时通讯等,让信息系统能支持快速增长的用户数量通常具有很大的挑战性。更重要的是,业务逻辑本身也随着用户数的增加变得更加复杂并具有更多功能。互联网应用服务为了尽可能满足用户需求,必须实现大量细致、繁琐的业务流程,同时还要考虑效率、扩展性、安全性等方面。一系列大数据应用技术逐渐普及并实用化,极大地提高了构建大规模互联网应用服务的开发效率,显著降低了研发成本与建设成本。
面向互联网的大数据应用技术更关注基于容易获取的低成本软硬件来构建大规模应用系统,具有极大的成本优势、可扩展性和开放性。虽然支持大规模应用系统的信息技术传统上并不缺乏,但是主要依赖于高成本的企业级软硬件及中间件,例如小型机、存储区域网络SAN、商业数据库软件等专有技术。构建大数据应用的基础软件可以很方便地运行在主流的PC服务器、笔记本,甚至在云计算平台提供的虚拟机中也可部署并测试,具有很强的适用性。开源社区提供并维护了大数据应用的大量基础软件,在比商业软件更加宽松的版权约束下,任何人都可以自由获取并使用这些基础软件。大数据应用技术可以从功能上分为大数据存储技术和大数据计算技术。
2.1大数据存储技术
大规模数据存储技术是为互联网应用提供大规模数据存储和管理的一类技术。互联网应用需要存储的对象包括文件、结构化数据和非结构化数据。
文件可以直接存储在本地磁盘的文件系统上。但是,单机文件系统或传统的网络操作系统的文件系统难以满足互联网应用对海量文件的管理需要。Google为自己的互联网应用设计了一套大型的分布式文件系统,Google文件系统(GFS)作为整个Google互联网应用平台的基础。通常,大数据计算平台都设计并实现了一套分布式文件系统,Hadoop平台的分布式文件系统是HDFS,OpenStack平台则是对象存储系统Sw ift。互联网应用的分布式文件存储系统都在联网存储的基础上提供了基于复制的冗余机制来保证文件的完整性。这种冗余机制的核心思想是把文件的不同部分同步地分散存储在不同计算机节点上,保存了多个复本,从而减少节点故障导致数据丢失的风险。
结构化数据又称作行数据,可表示成二维表形式。二维表可定义为关系,是两个数据集合上笛卡儿积的子集。显然,关系型数据库最适合储存结构化数据。关系型数据库已经发展到比较成熟的阶段,拥有广泛的软件支持,为上层的技术平台提供了丰富的数据库驱动和维护工具。例如,流行的Java轻量级开发框架Spring能很方便地通过JDBC驱动支持多种流行的数据库,包括M ySQL、Oracle、SQLServer等,并为了简化数据库应用开发,提供了Spring JDBCTemplate来对JDBC进行轻量级的封装。此外,Hibernate、JPA等对象关系映射组件及规范对基于JDBC的数据库操作进行了对象化的封装,更进一步简化了开发工作,增强了代码的可维护性。
非结构化数据也称作列数据,可表示成键值对的集合,每个键值对有一个可命名的键和对应键的一个值组成。非结构化数据通常用键值存储系统来进行管理。键值存储系统是专门针对大数据应用的海量存储需求而设计的分布式存储系统,是重要的NoSQL数据库类型之一。Google设计并构建的键值存储系统是BigTable。Hadoop平台基于BigTable的基本原理实现了键值存储系统——Hbase。此外,开源社区提供了更多可自由获取、支持各种高级特性的键值存储系统,例如Cassandra、Redis等。
2.2大数据计算技术
大数据计算技术是一套为海量数据而设计的并行计算系统。与更早出现的用于高性能计算领域的计算集群技术和网格计算技术相比,在互联网应用领域发展起来的大数据计算技术对低成本的PC服务器支持更好,计算机节点之间更容易扩展。开源社区为大数据计算技术的普及贡献了很大力量。Google为自己的计算平台设计了MapReduce计算模型,可以在廉价硬件上很高效地构建支持海量数据、高度并行的运算。M apReduce把计算任务拆分成M ap和Reduce两种子任务。通常,越简单的计算任务,内部逻辑耦合越松,越容易拆分成M ap和Reduce子任务,例如统计网页中的单词数。现实中的互联网应用大量依赖于这种简单的计算任务。因此,MapReduce计算模型非常适合海量数据的互联网应用。Hadoop、Spark等开源平台实现并改进了Google的MapReduce计算模型。
为了满足用户越来越个性化的需要,互联网应用的业务逻辑也越来越复杂,大数据应用更多地关注对海量用户数据进行更深入的分析和挖掘,需要实现更加复杂的数据挖掘和深度学习方法。大量研究机构和企业投入大量精力在MapReduce及其扩展计算模型下实现各种特定算法。Spark在Hadoop的基础上改进了复杂算法执行的效率,并以函数库的形式预先实现了大量的基本数据挖掘与机器学习算法,大大简化了复杂算法的开发与实现。
目前,基于大数据的互联网应用都提供了开放API供其他互联网应用获取内部的用户数据,在发布前需要对用户数据进行预处理,去掉用户的标识符或真实身份信息,例如手机号、身份证号等,但是仍然会泄露很多用户数据。目前,可支持大数据应用的用户隐私保护技术可分为两大类,即匿名化和加密。
3.1基于匿名化的隐私保护技术
数据匿名化是最早研究并实现的一类隐私保护技术,主要关注如何有效地平衡数据准确性和数据匿名性,以较低的性能损失和数据质量损失实现可接受的隐私保护程度。
k-匿名技术是以k-匿名作为隐私准则的一系列实现技术,是研究最广泛的一类匿名化技术。k-匿名是针对二维表的匿名化准则。k-匿名用于保护二维表中身份标识符的匿名性。在一个包含多条个人信息的二维表中,每条个人信息是一个多元组,包括一个身份标识符和多个个人属性信息。如果这张二维表中至少k条个人信息是无法区分的,此二维表满足k-匿名准则。可见,k-匿名技术需要对个人信息进行修改,降低了二维表中数据内容的准确程度。通常,k-匿名技术需要针对特定系统设计符合k-匿名准则的算法。例如,一个互联网应用对外发布数据时,不能对外直接发布其保存的用户信息数据的任意子集,需要确保每个数据子集中任意的k条数据都是无法区分的,需要隐去或泛化能识别用户的标识或属性值。
L-多样性技术是对k-匿名技术的改进。k-匿名只能保护二维表中的身份标识符,但是个人信息中的属性值中仍然可能存在敏感信息,例如个人年龄、地址、健康状况等。L-多样性在k-匿名的个人信息集合中,每个属性的值要至少有L个不同值。可见,L-多样性用于防止用户敏感属性信息的泄露。
差分隐私技术基于Dwork在2006年提出的差分隐私模型。对数据库进行统计运算并发布统计结果可能会泄露某人的敏感信息。例如,根据病人情况表输出一张直方图来反映不同疾病在人数上的分布,可能会泄露某个病人的疾病名称。差分隐私技术通过设计算法来防止从数据库的统计结果中获得敏感信息的概率低于预设阈值。差分隐私技术的一个基本方法是在数据统计结果的准确值上加上随机噪音。差分隐私技术对敌手的背景知识具有更加保守的估计,具有比k-匿名技术更强的隐私保护能力。
3.2基于加密的隐私保护技术
基于密码学提供的安全特性来构建特定系统中的隐私保护方案一直是一个重要的研究方向。传统上,加密解密算法主要用于保证信息或数据的私密性、完整性。通讯双方作为合法的参与方通常是可信的,而在隐私保护领域,合法的参与方通常是不可信的,一个参与方可能会泄露另一个参与方的信息,侵犯用户隐私。
隐私保护协议是具有参与方最小信息泄露的一类安全协议。很多隐私保护协议可以归约为安全多方计算问题或秘密共享问题。隐私保护协议需要在没有泄露额外信息的条件下,完成预先规定的分布式计算任务。常见的一个计算任务是集合运算。在大数据应用领域,不同的应用服务提供者保存了不同的用户数据,根据不同数据源的用户数据来进行数据分析会涉及到集合操作,如求交集、求并集、求交集的基数、求并集的基数等。数据源的数量可能是两个或两个以上,就会涉及到两个或两个以上的集合操作。两方的隐私集合交集协议(PrivateSetIntersection)可以让一个参与方在无需知道另一参与方输入的集合的条件下获取到双方的集合交集,一个参与方持有的集合事实上作为隐私信息对另一参与方保密。可见,运用加密技术能很自然地对另一参与方实现数据的私密性,但是挑战在于如何完成约定的计算任务。通常,隐私保护协议需要依赖具有特殊属性的加密技术。常用的一个密码学工具是具有同态性质的加密体制,可以在不解密的前提下用密文完成明文上的算术运算。
数据库加密技术是对数据库的内容进行加密的技术。大数据应用管理大量数据和信息,维护并管理了大量的异构数据存储系统,包括文件、关系数据库和键值存储系统。管理和检索加密的数据库是一个具有挑战性的研究方向。可搜索加密主要解决在数据库上储存密文,同时无需解密就能在密文数据库上检索到客户端需要的信息。密文数据库不能持有解密密钥,因此无法直接获取到密文的明文,从而保护了用户和客户端的隐私。隐私信息检索则是在服务器不知道用户提交索引的情况下返回给用户需要的数据。可见,隐私信息检索是把用户提交的索引或关键字视作用户隐私信息。隐私信息检索与可搜索加密的一个重要区别是,隐私信息检索中的数据库持有者通常保存了数据库的明文,而可搜索加密中的数据库持有者没有数据库的明文。对数据库进行按需加密关注利用现有的加密算法来在数据库中同时管理密文和明文,设计一套可管理的中间件来对数据库中的内容或列有选择地进行加密和解密操作,避免加密整个数据库。按需加密数据库在大数据应用中具有很高的实用价值。事实上,对大规模异构的数据库加密是非常困难且不必要的任务,大数据应用中需要保护的用户敏感数据通常在整个数据中只占据较少的部分,取决于大数据应用的具体业务功能,大部分数据可能是低价值的非敏感数据。
目前,互联网应用大量采用了大数据技术,开源社区为大数据技术的普及化贡献了很大力量,然而用户隐私也面临越来越严重的威胁。在大数据应用技术普及与发展的情况下,如何有效地保护用户隐私是一个具有挑战性的问题。隐私保护技术是大数据应用的重要发展方向。
一方面,大数据应用服务提供者会越来越重视用户隐私保护功能,不断集成或升级专门的隐私保护技术,降低因为泄露用户数据和隐私信息而导致的信用风险。
另一方面,大数据技术本身也提供了很好的分析用户行为、发现用户隐私信息的技术,可以由可信的企业或机构来构建专门的用户隐私保护系统,监控并及时阻止互联网上不断发生的用户隐私泄露事件。
[1]熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014(37).
[2]张晓波,宁相军.大数据安全问题及应对措施研究[J].电信技术,2015.
[3]黄刘生,田苗苗,黄河.大数据隐私保护密码技术研究综述[J].软件学报,2015(26).
[4]Fung BCM,Wang K,Chen R,et al.Privacy-preserving Data Publishing:A Survey of Recent Developments.[J].Acm Computing Surveys,2010,42(4):2623-2627.
[5]Popa R A,Redfield C M S,Zeldovich N,et al.CryptDB:Protecting Confidentiality with Encrypted Query Processing[J].Sosp,2011:85-100.
[6]Cristofaro E D,Tsudik G.Practical Private Set Intersection Protocols with Linear Complexity[J].Lecture Notes in Computer Science,2010,6052:143-159.
[7]Abdalla M,Bellare M,Catalano D,et al.Searchable Encryption Revisited:Consistency Properties,Relation to Anonymous IBE,and Extensions[J].Journal of Cryptology,2008,21(3):350-391.
[8]Gertner Y,Ishai Y,Kushilevitz E,et al.Protecting Data Privacy in Private Information Retrieval Schemes[J].Journal of Computer&System Sciences,2000,60(3):151-160.
近日,诺基亚通过一系列创新继续扩展其小基站产品组合的功能,包括增加新的基站类别。NokiaFlexiZone迷你宏站与小基站一样,非常紧凑,易于部署,并能提供2×20W功率,可支持运营商经济高效地快速填补覆盖盲区。诺基亚还将在2016年世界移动通信大会上发布其他创新成果,比如支持将LTE-Advanced Pro LWA功能集成到小基站中,利用未授权频谱为用户提供超高数率;提供新同步方案,以大幅降低小基站部署成本等。创新技术演示包括诺基亚FlexiZone控制器调度和协调特性,这些特性能够显著提升小区的边缘性能,并降低室内小基站规划的复杂性。随着网络结构不断转型以适应云时代要求以及人们日益采用云应用,小基站将会发挥关键性作用,确保网络性能和覆盖。
诺基亚小基站产品管理负责人Randy Cox表示:“我们专注于推动网络向超高密度、多连接的HetNets演进,因为它更加易于部署,并能够帮助运营商提供绝佳的客户体验。通过这些创新,我们提供了前所未有的射频功率,能够有效增强FlexiZone小基站解决方案的覆盖能力。这种新SC产品类别将会帮助运营商找出新的方法来利用小基站技术,从而有效满足城市、农村和居民区客户日益增长的网络覆盖和容量需求”。
Advance on Privacy Protection Techniques for Big Data Applications
Wu Zhengang
With the rapid development of the Internet,Big Data applications have hold massive user data and increased the risk of violating user privacy.This paper summarizes Big Data application technology and its privacy protection techniques.
Big Data;privacy protection;K-anonymity;differential privacy;encryption
2015-12-10)