云环境数据发布服务中隐私保护相关技术研究

2012-04-29 00:44王有刚徐勇王泽成周善英
现代情报 2012年12期
关键词:隐私保护云计算

王有刚 徐勇 王泽成 周善英

云环境数据发布服务中隐私保护相关技术研究

〔摘 要〕云计算环境下数据库服务应用系统中的隐私保护问题是影响组织是否选择相关服务的重要因素之一,本文界定了云计算数据库服务应用系统架构;分析了基于密码学理论实现访问控制方法的不足,探讨了云计算环境下支持多管理域合成的访问控制模型;研究了云计算环境数据动态变化场景下的用户隐私保护问题;介绍了经典数据发布模型,对比了发布数据效用度量方法。最后指出云计算环境数据发布服务中隐私保护的热点研究方向。

〔关键词〕云计算;数据发布;隐私保护;k-匿名

DOI:10.3969/j.issn.1008-0821.2012.12.001

〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2012)12-0003-05

云计算在现有技术、方法的基础上,整合诸多资源,为用户提供无限制的、可伸缩的、易获得的IT资源服务,是目前信息领域的热门课题之一。云环境下的数据发布服务(Data Releasing)是云平台服务[1-2]的重要内容之一,逐渐受到国内外学者越来越多的关注。相对于传统服务模式将信息保存在数据所有者可控的计算机系统范围内,云环境下数据所有者把作为其重要资产的数据发布到“云”中时,用户数据管理方式由传统的自己拥有和完全掌控格局转变为租用由第三方提供物理的和虚拟的基础设施资源的方式,这就意味着敏感数据将存储在不受数据所有者控制的外部系统中,显然这将会带来一系列的安全问题,云计算数据发布服务中如何在保持数据具有足够效用的同时,保护数据主体身份信息的隐私性正日益成为其中的一个重要内容[1,3-5]。

由于云计算与效用计算、分布式或网格计算等模式在用户接口、体系结构和系统自治性等方面存在显著的区别,通过密码学、集中系统访问控制等常规技术保护敏感数据的隐私,如:用户访问模式,逐渐显得力不从心了[6]。正如EMC信息安全部RSA和欧洲信息安全署ENISA等指出,数据的私密性和安全性以及服务的稳定性已成为用户考虑是否使用云服务和如何选择云提供商的关键衡量指标[7-9]。

1998年PSamarati[10]用实验数据证明了攻击者将发布数据中的某些非标识信息与从其它渠道获得的数据进行链接,可能会造成个体隐私信息的泄露。2000年Agrawal等指出数据库隐私保护的10条规则(Ten Principles)[11]。2002年Sweeny等提出适用于数据发布过程隐私信息泄露的k-匿名模型[12-13]。在此之后,国内外很多学者从多个不同的角度和层面对微观数据匿名隐私保护方法展开了研究,取得了许多重要的研究成果[14]。

1 云计算环境下数据库服务中的访问控制

云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式。计算机资源服务化是云计算重要的表现形式,它为用户屏蔽了数据中心管理、大规模数据处理、应用程序部署等问题。通过云计算,用户可以根据其业务负载快速申请或释放资源,并以按需支付的方式对所使用的资源付费,在提高服务质量的同时降低运维成本[15]。数据库服务作为一种新的基于云计算平台的网络数据管理模式能够满足组织需求、提供像本地数据库一样的数据管理服务。然而,由于越来越多的数据涉及敏感信息,如医疗记录、交易信息、证券信息、财务信息等,组织对于数据库隐私信息泄露问题越来越重视[16]。一个典型的云计算数据库服务应用系统通常由4部分组成:(1)数据所有者(data owner),指产生数据并将数据交给云服务提供商管理的个人或组织;(2)数据用户(user),指提交数据查询等请求的实体,可以是个人、应用程序等;(3)客户端(client),指完成用户提交的查询与适合于在云计算平台上执行的查询之间等价转换的应用程序或函数;(4)云计算服务运营商(server),指提供数据库服务的组织及其云计算平台。在云计算平台下,提出数据发布服务请求的主体将其数据发布至云计算平台,相关数据的存储、处理和保护等操作,都在“云”中完成,这样不可避免地会产生数据安全、用户隐私泄露等问题。

2012年12月第32卷第12期现?代?情?报Journal of Modern InformationDec,2012Vol32 No122012年12月第32卷第12期云环境数据发布服务中隐私保护相关技术研究Dec,2012Vol32 No12不同于传统的本地数据管理模式,云计算环境数据发布服务模式中,数据的访问控制、用户隐私、机密性、完整性等概念被赋予了新的含义;并且也产生了一些新的安全问题,如在云计算环境中,数据发布服务可以有隶属不同安全管理域的服务提供商提供,每个安全域都管理着本地的资源和应用,当用户提交服务请求时需在域边界设置认证服务对访问共享资源的用户进行统一的身份认证管理;各域也都有自己的访问控制策略,在进行资源共享和保护时必须对共享资源制定一个公共的、双方都认同的访问控制策略,因此,云计算环境需要支持访问控制策略的合成。关于访问控制策略合成问题最早由Mclean在强制访问控制框架下提出,他将两个安全格合成一个新的格结构构建了一个基于强制访问控制策略的合成框架[17]。但是Mclean没有进一步验证合成之后访问控制策略的安全性问题、以及新合成的访问控制策略与各个域原来的访问控制策略的兼容性问题。为此,Bonatti提出了一个访问控制策略合成代数,用形式化的方法描述、分析了合成策略的安全性[18]。对于多安全域实体间的授权关系,林莉通过属性值的计算结构扩展了现有的策略合成代数,提出了新的基于属性的策略合成代数模型。但是该模型存在两点不足:首先,没有区分隐私属性和一般属性的差异性访问控制问题。其次,没有考虑云计算环境下不同自治域异构系统上的访问控制策略协商[19]。云计算环境下,研究者关注较多的是基于密码学理论实现访问控制的方法[20]。基于密码类方案面临的一个重要问题是权限撤销,一种有效的解决方案是为密钥设置失效时间,每隔一定时间用户从认证中心更新私钥,并引入一个在线的半可信第三方维护授权列表[21]。基于密码的数据库服务访问控制策略还存在可扩展性问题,对此Yu等综合基于属性的加密方法(Attribute-based Encryption,ABE)、代理重加密和懒惰重加密方法提出一种细粒度外包数据访问控制策略[22]。Vimercati等提出了一个访问控制实施及其进化(evolution)管理的解决方法,以选择性加密作为实现授权管理的基础,研究了适应授权策略动态变化场合的应用方案[23]。加密是一种常用的保护敏感数据的方法,但是不支持有效的数据操作,因此黄汝维等设计了一个基于矩阵和向量运算的可计算加密方案CESVMC,将云数据分为字符串和数值数据两大类,通过运用向量和矩阵的各种运算,实现对数据的加密,支持对加密字符串的模糊检索和对加密数值数据的加、减、乘、除4种算术运算并保证数据存储和运算过程的隐私安全性。CESVMCF方案中乘除法运算的性能仍需改进,并且该方案不支持多次乘/除法运算。这显然限制了该加密方案在实际云平台数据库服务中的应用[24]。

近年来,云计算环境数据动态变化场景下的用户隐私保护问题[16]逐渐引起人们的关注,张逢?等利用虚拟机监控器保证参与计算的云中数据的隐私安全,在用户指定的时间点,内存中的数据以及用户密钥将被强制销毁[25]。但是张逢?提出的隐私保护模型Dissolver存在一个假设前提:虚拟机监控器是可信的,而事实上虚拟机监控器仍然存在被攻击的可能;其次云平台中参与计算的数据必须以明文形式才能参与计算,其中的加解密过程的效率是一个重要的问题。云计算环境下现有的隐私保护方案大多面向用户可用数据的保护而忽视了个人身份信息的保护。毛剑等针对用户身份信息保护提出基于可信服务器的云存储架构,实现数据存储和用户个人信息管理隔离[26]。云服务器利用可信服务器提供的存储认证码判断用户的存储权限,用户的身份信息存储于可信服务器。但是可信服务器对用户隐私信息的威胁问题没有考虑;经过二次混淆的数据分割方案将会使得数据的可用度大为降低。

综上所述,由于在云计算平台下服务商未必会忠实实施安全访问控制策略,所以传统单服务器上的访问控制策略研究成果都无法直接应用于云计算平台;其次,已有关于云计算环境下数据访问控制策略研究工作的侧重点是对数据机密性的保护,较少考虑用户个人身份隐私的保护问题。所以需要进一步研究在云计算环境下实施外包数据对象的访问控制,实现对数据机密性和用户隐私信息的保护目的等。

2 发布数据匿名模型

在发布数据隐私保护研究领域,国内外学者提出了许多有效的隐私保护匿名模型,典型的发布数据匿名模型有如下几种。

21 k-匿名模型

Sweeny等首先设计了k-匿名模型,该模型将数据记录划分为若干个等价类,每个等价类至少包含k条记录、并且这k条记录在准码属性上的取值相同,以防范隐私攻击[12-13]。文献[14]证明,获得最佳的匿名数据表是一个NP-完全问题。

K-匿名模型的形式化定义如下:假设RT(A1,…An)是一个数据表,QIRT是该表的准标识符属性。称RT满足k-匿名当且仅当RT[QIRT]上的每一个值序列在RT[QIRT]上至少出现k次。即在满足k-匿名的发布数据表RT中,任何一条记录在准标识符属性上都至少与其它k-1条记录是不可区分的。

如表1即为一个满足2-匿名要求的匿名表。在表1中,k=2,QI={Race,Birth,Gender,ZIP}。

对于满足k-匿名的数据表,有学者研究发现其仍然可能遭遇同质攻击(homogeneity attack)和背景攻击(background knowledge attack)而泄露用户隐私信息。例如当等价类中记录在敏感属性上的取值相同,攻击者仍然可以获知个体的敏感属性取值,从而造成隐私泄露。表1 2-匿名表

22 改进的匿名模型

在基本k-匿名模型的基础上,文献[27]提出了l-diversity模型,该模型仍然首先将数据表划分为若干个等价类,但是对于每个等价类中记录的要求是该等价类中至少含有1条满足特定要求的记录,这里指定的特定要求可以根据问题领域由用户指定。例如:文献[27]作者指定特定要求是“每个等价组内敏感属性至少出现1个不同的属性值”等。L-diversity模型的实质是要求每个等价类中记录在敏感属性上的取值满足“l-diversity”特性,抵御恶意攻击,但在有些情况下仍然不足以保证发布数据中的隐私信息。例如:等价组中的大多数记录的敏感属性都取相同的值,则恶意攻击者仍然可以较高的概率推断隐私信息具体取值。另外,若敏感属性取值的分布情况也是隐私信息,则满足l-diversity模型要求的数据表仍然容易遭受隐私泄露。文献[28]提出的t-逼近模型针对通过全局隐私信息推测单个统计个体隐私信息的保护问题而提出的,若发布表每个等价类中敏感属性值的分布与该敏感属性值在整个发布表中的分布差异不超过t时,称该发布表满足t-closeness匿名要求。

针对动态情况下的数据隐私信息保护问题,m-invariance策略[29]利用桶装算法保证数据表存在记录插入和删除两种操作情况下的隐私保护问题。m-invariance策略将等价组中相异敏感属性值的集合称为“签名”,当数据表等价类至少包含m条记录、并且它们的敏感属性取值各不相同,对于每条记录t,在其生存期的每个发布版本中,包含t的等价组都具有相同的签名。作者证明了若发布表序列中每个版本与前一版本之间满足m-invariance,则所有版本两两间满足m-invariance;且发布序列满足该条件时,不会产生信息泄露。

m-invariance桶装算法由于在匿名时只需要考察相邻两个表之间的推理通道,因而效率相对较高。但是该算法要求发布序列表的等价组中,具有相同签名的元组不能超过一条,所以m-invariance会带来数据质量较低的问题;另外,算法有可能添加伪造数据,从而对数据的真实性产生影响。该方法能处理数据具有动态插入和删除的情况,假设各个插入、删除数据相互之间是完全独立的,但实际应用场合动态更新的数据相互之间并不一定是完全独立的。对此问题,国内外学者又陆续提出了一些改进的匿名模型,如(alpha,k)-匿名模型[30]等。但是纵观各种改进的匿名模型可以发现没有任何一种匿名模型适用于所有数据发布问题领域。因此针对不同的问题领域,我们应该研究不同的匿名模型解决特定的数据发布任务。

3 匿名发布表的效用

对数据进行隐私保护处理必然会造成原始数据表的信息损失,如何评价隐私保护方法及相关算法、如何度量发布数据表的数据质量,建立恰当的评价标准是一个非常重要的问题。

目前有很多匿名方法中都研究了数据表匿名发布之后的效用度量问题。这些度量方法大致可以分为二类,第一类是将属性分为数值属性和类别属性从属性取值域变化角度分别度量其泛化程度,本文将其称为域度量方法;第二类未对属性进行区分,从属性取值在泛化层次树上高度的变化情况或等价组中元组个数角度度量发布表泛化程度,本文将这一类方法称为非域度量方法。

31 域度量方法

基于泛化技术的隐私保护模型中较多采用NCP度量标准[31],通过为每个属性分配权重表示属性在应用中的数据效用。NCP度量标准中定义数据泛化前后效用变化的公式分别为:数值属性:NCP(t)=∑ni=1ωizi-yiAi,其中wi是属性的权重,yi、zi分别是属性Ai泛化后的区间的左、右界,Ai是属性Ai在表中的最大取值和最小取值的差;类别属性:NCP(t)=size(u)A,其中size(u)为泛化后的类别属性值集合中值的个数,A为泛化属性的所有可能取值的个数。每个等价类G的惩罚计算公式为:NCP(G)=∑di=1wi·NCPAi(G),其中d为准标识符属性数,wi为各准标识符属性的权重。整个泛化表在经过泛化得到的满足k-匿名要求的表的惩罚为所有等价类的惩罚之和。

32 非域度量方法

同一个原始数据表泛化过程往往会存在多个满足要求的泛化k-匿名表,Sweeney等在文献[13]中从泛化匿名表信息损失程度视角提出了描述泛化匿名发布表扰乱程度的度量公式Prec。Sweeney等通过属性泛化高度描述了数据表的效用变化,即用1减去泛化表中所有元组的所有字段对应的该比值即可描述泛化表信息损失程度,其形式化描述如下:

设PT(A1,…,ANa)为原始数据表,tPj∈PT,RT(A1,…,ANa)为PT的泛化表,tRj∈RT;DGHAi表示属性Ai的域泛化层次结构,fi为施加于属性A的泛化函数,则泛化表RT的精确度Prec(RT)为:

当PT=RT时,由于发布表RT中每个每条元组所有属性值的泛化高度均为0,即h=0,则Prec(RT)=1;当发布表RT中每条元组每个属性取值为对应属性的最大泛化取值时,即h=DGHAi,有Prec(RT)=0。

域度量方法从属性泛化前后取值域的变化角度度量数据表效用的变化情况,度量结果精确、但计算过程复杂;非域度量方法从属性泛化高度视角度量数据表效用变化情况,计算简单、但存在度量精度不高的问题。

目前关于发布表数据效用度量方法的研究主要侧重于基于泛化技术匿名发布表的数据效用度量方法研究,基于置换等其他隐私保护技术求解的发布表数据效用度量方法研究成果较少。

4 小结与展望

随着人们对隐私信息越来越重视、以及云计算相关应用的逐步开展,在云环境微观数据发布领域,如何保护微观数据中数据主体的敏感隐私信息不被恶意攻击者获取,同时又保证数据用户能够获得足够的数据信息进行有效的探索和数据分析任务变成一个亟待研究、解决的问题。尤其是随着移动设备和定位技术的发展,产生了大量的移动对象轨迹数据,数据发布中轨迹数据具有时间相关、位置相关、大规模、高维的特点带来的一些新的隐私保护问题无法直接用现有的隐私保护技术处理,如高维数据等价类的划分效率,移动轨迹数据实时、增量产生发布时多数据表上的依赖隐私。下一步我们将针对云计算环境下轨迹数据发布问题领域的隐私保护问题开展研究。

参考文献

[1]Curino C,Jones E,Popa R et al.Relational Cloud:A Database-as-a-Service for the Cloud.5th Conf.on Innovative Data Systems Research,CIDR 2011,January 9-12,2011 Asilomar,California

[2]Choubey R,Dubey R,Bhattacharjee J.A Survey on Cloud Computing Security Challenges and Threats.Int.Journal on Computer Science and Engineering,2011,3(3):1227-1231.

[3]Dudin E,Smetanin Y.A Review of Cloud Computing[J].Scientific and Technical Information Processing,2011,38(4):280-284.

[4]Zhang Q,Cheng L,Boutaba R.Cloud Computing:State-of-the Art and Research Challenge.Journal of Internet Serv Appl,2010,1:7-18.

[5]Hamlen K,Kantarcioglu M,Khan L et al.Security Issues for Cloud Computing[J].International Journal of Information Security and Privacy,2010,4(2):39-51.

[6]Ma H,Schewe K,Thalheim B et al.A Formal Model for the Interoperability of Service Clouds.Service Oriented Computing and Applications,Online First,18 Jan 2012.

[7]Amazon Security Bulletins[EB/OL].http:∥aws.amazon.com/security/security bulletins/,2011.

[8]Google[EB/OL].http:∥googledocs.blogspot.com/2009/03/just-t o-clarify.html,2009.

[9]Microsoft[EB/OL].http:∥www.microsoft.com/technet/security/,2010.

[10]Samarati P,Sweeney L.Generalizing data to provide anonymity when disclosing information[C]∥Proc of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems,Seattle,1998:188.

[11]Agrawal R,Srikant R.Privacy Preserving Data Mining.In Proc.of ACM SIGMOD,Dallas,USA,2000.

[12]Sweeney L.K-anonymity:a Model for Protecting Privacy[J].Journal on Uncertainty,Fuzziness and Knowledge-based Systems,2002,10(5):557-570.

[13]Sweeney L.Achieving k-Anonymity Privacy Protection Using Generalization and Suppression[J].International Journal on Uncertainty,Fuzziness and Knowledge-based Systems,2002,10(5):571-588.

[14]MEYERSON A,WILLIAMS R.On the complexity of optimal k-anonymity[C].Proc.of the 23rd ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems.New York,2004:223-228.

[15]罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21.

[16]田秀霞.数据库服务保护隐私的访问控制与查询处理[D].上海:复旦大学,2011.

[17]Mclean J.The Algebra of Security.In Proc.of the 1988 IEEE Computer Society Symposium on Security and Privacy,1988,pages 2-7.

[18]Bonatti P,Vimercati SC,Samarati P.An algebra for composing access control policies[J].ACM Trans.on Information and System Security,2002,5(1):1-35.

[19]林莉,怀进鹏,李先贤.基于属性的访问控制策略合成代数[J].软件学报,2009,20(2):403-414.

[20]洪澄,张敏,冯登国.AB-ACCS:一种云存储密文访问控制方法[J].计算机研究与发展,2010,47(增刊I):259-265.

[21]Ibraimi L,Petkovic M,Nikova S et al.Ciphertext-Policy attribute-based threshold decryption with flexible delegation and revocation of user attributes.Technical Report,Centre for Telematics and Information Technology,University of Twente,2009.

[22]Yu SC,Wang C,Ren K et al.Achieving Secure,Scalable,and Fine-grained Data Access Control in Cloud Computing.Proc.Of 29th IEEE Int.Conf.on Computer Communications,San Diego,CA,Mar.2010,pages 1-9.

[23]Vimercati S,Foresti S,Jajodia S.Over-encryption:Management of Access Control Evolution on Outsourced Data.Proc.of the 33rd Int.Conference on Very Large Data Bases,University of Vienna,Austria,September 23-27,2007.ACM 2007,pp.123-134.

[24]黄汝维,桂小林,余思,等.云环境中支持隐私保护的可计算加密方法[J].计算机学报,2011,34(12):2391-2402.

[25]张逢,陈进,陈海波,等.云计算中的数据隐私性保护与自我销毁[J].计算机研究与发展,2011,48(7):1155-1167.

[26]毛剑,李坤,徐先栋.云计算环境下隐私保护方案[J].清华大学学报,2011,51(10):1357-1362.

[27]Machanavajjhala A,Gehrke J,Kifer D.l-diversity:Privacy beyond k-anonymity[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2007,1(1):1-36.

[28]Li N,Li T,Venkatasubramanian S.t-Closeness~Privacy beyond k-anonymity and l-diversity[C]∥Proc of IEEE 23RD Int.Conf on Data Engineering.Istanbul:IEEE Computer Society,2007:106-115.

[29]Xiao X K,Tao Y F.m-Invariance:Towards Privacy Preserving Re-publication of Dynamic Datasets.In Proc.of the 26th ACM International Conference on Management of Data(SIGMOD),2007:689-700.

[30]Wong RCW,Li J,Fu AWC et al.(a,k)-Anonymity:An enhanced k-anonymity model for privacy-preserving data publishing[C]∥Proc of the 12th ACM SIGKDD int.conf on Knowledge discovery and data mining,New York:ACM Press,2006:754-759.

[31]Xu J,Wang W,Pei J et al.Utility-Based Anonymization Using Local Recoding.Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,ACM Press,2006:785-790.

(本文责任编辑:马 卓)

猜你喜欢
隐私保护云计算
基于层次和节点功率控制的源位置隐私保护策略研究
关联规则隐藏算法综述
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
社交网络中的隐私关注及隐私保护研究综述
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
大数据时代的隐私保护关键技术研究
实验云:理论教学与实验教学深度融合的助推器