陈克非,翁 健
(1.杭州师范大学理学院,浙江 杭州 310036;2.暨南大学信息科学技术学院,广东 广州 510632)
作为新一代信息技术和IT应用方式变革的重要支柱,云计算已经成为当前信息技术产业发展和应用创新的热点,其巨大的应用前景带动了云计算的迅猛发展.市场研究公司IDC认为云计算的增长速度将是传统IT行业增长率的6倍,预计未来四年云计算市场的年增长率是26%.据Gartner预测,随着云计算服务认可度的持续升高,云计算服务市场将延续高速增长的态势, 2015年将突破1 800亿美元[1].云计算已经从概念走向实际应用,将愈加促进信息化、工业化的整合进程.随着大数据时代的到来,云计算巨大的潜力将得到充分的释放,并获得更快速的发展.目前,中国的云计算产业链已经开始形成,虚拟化技术、分布式计算、大数据处理挖掘等创新成果开始得以应用,云计算技术不再是“只见其声不见其形”的空洞概念,交通物流云、医疗健康云、金融云、电商云等与百姓生活息息相关的行业云应用也正在推出.虽然云计算被一致认为有巨大的增长空间,但在推广过程中面临着用户认可度不高、运营经验不足、产业链不完善等诸多问题.在诸多不利因素中,云计算的安全性问题一直排在首位,云安全逐渐成为制约云计算发展的瓶颈[2],而其中的云计算隐私问题也被大数据技术进一步放大,成为阻碍云计算发展的关键问题之一[3].
在国际信息系统审计与控制协会(ISACA)最近进行的一项调查中,约45%的IT专业受访者表示,云计算所涉及的风险已高于任何利益.美国IDG公司2013年对1 300多位企业高管进行调研,66%的企业高管认为安全问题,包括访问控制、数据保护是云计算中的关键因素[4].
近年来关于云计算隐私泄露的问题层出不穷,引发了云计算的信任危机,对云计算发展造成了严重不利的影响.2013年,斯诺登“棱镜门”事件曝光了美国国家安全局的秘密监听计划,事件表明美国政府通过技术手段一直在对各大网络服务商的服务器进行监听,并对获取的用户数据进行分析.2012年8月,苹果公司的iCloud云服务受到黑客攻击,黑客暴力破解用户密码后,删除了部分用户资料,而云平台并未备份用户数据,导致了用户数据的丢失,并致使用户Gmail和Twitter账号被盗.2012年8月,盛大无锡数据中心因服务器硬盘损坏,导致用户数据丢失.2011年4月,Amazon的EC2云计算服务被黑客租用,对Sony PlayStation网站进行了攻击,造成了大规模用户数据的泄露.2011年3月,谷歌邮箱爆发用户数据泄露事件,大约15万用户的信息受到影响.2010年9月,谷歌员工David Barkadale利用职权查看了多个用户的隐私数据,其中包括4个未成年人的信息[5].2014年10月,美国资产规模第一大银行摩根大通称,由于公司计算机系统遭遇网络攻击,7 600万家庭和700万小企业的相关信息被泄露[6].这是美国历史上波及范围最广的信息泄漏事件之一,进一步加剧了用户尤其是重要企业客户对网络安全以及云计算、大数据环境下数据安全和隐私的担忧.此外,2014年5月美国电商巨头亿贝公司遭遇网络攻击,全球范围内1.45亿条客户信息被泄露.因此保护数据隐私成为目前极为重要而紧迫的任务.
通常所说的数据安全,是指用户数据应受到保护不被非授权者读取具有保密性,同时如果数据被篡改或假冒能够有效自动甄别即具有完整性,用户及其所属数据的真实要有保障即具有认证性,此外还要保证数据的可用性等等.现代密码技术为数据安全需求提供了坚实有效的保障,通过加密、认证、签名及其衍生技术,面对网络时代的各种安全需求几乎都能够找到基于密码的解决方案.
与之相比,针对隐私的保护手段还很有限,结果也不能令人满意.上述用户资料泄露的事例恰恰说明目前在隐私保护方面问题严重.
按照一般的看法,隐私是一种与公共利益、群体利益无关,当事人不愿他人知道或他人不便知道的个人信息,当事人不愿他人干涉或他人不便干涉的个人私事,以及当事人不愿他人侵入或他人不便侵入的个人领域[7],可以分为个人事务、个人信息、个人领域3种.由于民族文化、生活习惯的差异,对隐私的界定可谓仁者见仁,智者见智.但至少有以下几点是公认的:首先,隐私是一个抽象的概念,它不能代替具体事物或人的行为,只能是它们所反映出来的信息.隐私的本质是一种信息,一种属于私人的排他性的不愿为他人知晓或干涉的信息.如信件、记事本等,其本身并不是隐私,其中记载并反映出来的信息才是隐私;再如年龄、身高、体重、心理疾病、女性三围等具体的个人人身性数据,以及个人嗜好、投资、收入、行踪等非人身性数据信息;其次,隐私应包括绝对个人隐私和相对个人隐私.绝对个人隐私是指纯个人的,与一切非本人的他人无关的信息,如上文提到的人身性数据等.相对个人隐私是指由于某种关系如夫妻关系、合同关系等与特定的他人相关的应为他们共同支配、共同保护的隐私.
在网络世界中隐私的对照物有多种表现形式:1)网络用户在申请上网开户、个人主页、免费邮箱以及申请服务商提供的其他服务(购物、医疗、交友等)时,登录的姓名、年龄、住址、身份证、工作单位、健康状况等信息.2)个人的信用和财产状况,包括信用卡、电子消费卡、上网卡、上网帐号和密码、交易帐号和密码等.3)邮箱地址.4)个人的网络活动踪迹,如IP地址、浏览踪迹、活动内容等.
上文已提及,隐私是与个人相关的一些特定信息.当这些隐私与某些个人发生明确关联,也就是在明确涉及个人身份信息PII(Personal Identifiable Information,如姓名、手机号、身份证号、电子邮箱、住址等)时,称其为显性隐私信息;但很多情况下,隐私呈现隐蔽的形式,它并不与任何PII联系在一起,只是涉及模糊的用户相关信息(比如年龄、性别、公司、职业等).这类准标识符(Quasi-identifier)信息虽然不能直接标识一个用户,但把这些条件组合在一起,还是有相当的隐私风险的.为此,人们用进一步泛化模糊的用户属性标签解决“Quasi-identifier”问题,即把年龄、职业、地址等准标识信息放宽到一个更大的范围中,并确保符合每一个属性的对应物有足够多的数量,从而无法与明确的个体关联,这就是k-anonymity的概念.
在大数据时代有太多的数据样本,很多公开的信息看似并不涉及隐私内容,或者仅有少量隐式的隐私信息具有k-anonymity性,但是大量如此碎片化的数据,经过“大数据技术”挖掘、关联、分析和整理,还是可能披露出重要的隐私内容.所以,面对大数据的冲击,要达到绝对意义的隐私保护也许无解?
图1 云环境的数据隐私保护系统架构
图2 包含多个公有云的混合云架构
云计算的特色是将大量计算资源、存储资源与软件资源链接在一起,形成规模巨大的虚拟共享IT资源池,为个人用户提供集中的公共服务.用户将个人数据交由公共数据中心管理,出于安全性的考虑用户数据自然需要先进行加密.具有挑战性的问题是如何实现密文数据的快速搜索、有效共享等,同时搜索的相关信息作为用户隐私也能得到充分的保护; 另外针对云计算的一项特色服务外包计算需要提供对委托人的保护,即云服务商可以在不知道用户数据的情况下为用户计算处理数据,保护了用户的数据隐私性;还有,在云计算、移动互联和大数据环境下,用户一方面需要得到便捷的服务,另一方面个人隐私也要得到有效的保护,这就需要建立一种支持数据分割机制的新型混合云存储框架(图1),既能保护用户数据的隐私,又可充分利用云平台的计算和存储能力.
根据NIST的定义[8],混合云是由两个或者多个独立运行却绑定在一起的云组成的混合体,它可支持数据和应用在不同云之间迁移.由私有云和公有云组成的混合云兼具了两种云的优点,既有私有云的隐私性,也具有公有云的低计算成本.因此混合云成为许多公司或机构的首选模式,并被认为是将来云计算的主要模式[9].如图2所示,公司或者机构可以将它们的核心机密,例如财务数据、员工数据等,保留在自己的私有云中,而将其他的数据外包给公有云,以充分利用公有云低廉的计算资源.目前IBM、Microsoft、Amazon、VMWare、CISCO等公司均推出了自己的混合云解决方案[10],混合云成为解决云安全及隐私保护的重要方向.
公有云和私有云相结合是解决云计算安全和隐私的理想方案,但如何将公有云和私有云有效组合,在充分利用公有云的丰富计算和存储资源的同时,有效保护用户的隐私信息是混合云架构设计的关键.
国外对混合云安全和隐私保护已经有了较为深入的研究,并获得了一定的成果.Zhang等[11]提出了名为Sedic的面向大数据的隐私感知混合云计算模式,该模式在开源云计算系统Hadoop MapReduce的基础上增加了隐私保护模块,实现了隐私感知的混合云计算.其基本思想是将计算任务分割,将敏感的隐私数据留在私有云中处理,而将非敏感数据外包到公有云上计算.Sedic可以根据用户指定的敏感数据标识,自动划分计算任务,分离出其中的敏感数据;同时,Sedic中的程序分析器可以对MapReduce中的归约过程进行分析,通过组合器减少归约过程中的云间数据交换,这对于突破云计算的性能瓶颈具有重要的意义.但是Sedic的局限性在于用户必须指定敏感数据,对于在数据处理前未知的敏感数据无能为力.同时,在类似在线社交网络(Online Social Networks)等应用中,多个相互关联的数据之间蕴含有朋友关系的信息,Sedic对此无法进行有效的防范.此外,Sedic将所有的非敏感数据外包给一个公有云,公有云可以根据其所承担的计算量、数据量等信息推断用户的业务量等商业机密. Chen等[12]提出了保护隐私的大规模混合云计算方案,用于人类基因序列的匹配.Oktay等[13]提出了在混合云模式下计算任务分配的最优化框架.该框架综合考虑计算性能、隐私泄露风险及资源使用代价三方面的指标,采用最优化方法对任务进行分配.然而该方案对数据隐私的处理较为简单,只对敏感的数据项进行了计数,并未考虑数据引起的人员识别或者用户商务机密的泄露.Smit等[14]针对Web应用利用混合云计算平台对应用进行了任务分配,根据应用开发者对应用中的不同代码所做的敏感/非敏感标识,将它们分配到私有云或公有云中分开执行.该方案只适用于Web应用,而且需要应用开发者对代码进行标识,无法满足一般的云数据处理的要求.
对于如何将关系复杂的图数据进行合理的划分,再分配到云平台上计算的问题,Gao等[15]提出了将图数据进行变形转化的方法.他们将原始的图数据转化为一个包含敏感信息的关联图和一个无敏感信息的外包图,分别在本地和公有云上进行计算.尽管此方案非常适合混合云计算模式,但是它仅能用于图数据的处理,对于关系数据库等常见数据无法处理.
Rekatsinas等[16]认为将所有的计算任务分配给一个云计算平台是非常危险的,因此提出了将敏感数据分配给k个不合谋的计算平台的方案SPARSI.该方案可以防范两类隐私泄露问题:用户身份泄露和企业/机构业务机密泄露.此方案还考虑了不同数据之间的关联关系暴露出来的隐私问题,并使用超图模型对之进行了形式化处理.在隐私保护的限定条件下,该方案通过最优化方法求解获得最终的数据分配方案.但SPARSI中数据效用简单地定义为割离后的各个独立数据集的效用之和,并未考虑完整的数据集可能具有更高的价值.因此SPARSI数据分割方式有可能降低数据效用,导致现有数据挖掘算法的不适用.
尽管国内外的研究者在隐私感知的混合云方面已有较深入的研究,但现有的成果存在适用范围有限、隐私保护有限、数据效用降低的显著问题,因此亟需一套适用面广、隐私保护全面、支持数据挖掘的混合云隐私保护方案.
对数据加密后,破坏了原有的有序性、可比较性等特性,数据的检索将变得困难.在云存储中一个直接的密文检索方案是数据拥有者先将所有密文从云服务器中下载至本地,然后解密密文获取数据明文,最后对数据明文进行检索.很明显该方法缺乏效率,一种更有效的密文检索方案是采用带关键字搜索的公钥加密.
Song等[17]在2000年首次提出加密数据检索的实用算法.该算法使用对称加密算法对文档及其关键字分别加密,服务器能够根据用户提交的关键字检索出哪些文档包含该关键字,但并不能获得有关文档内容的实用信息.随后,又出现了进一步的工作[18-20].一方面,现有的对称密钥环境下的可搜索加密方案大部分仅支持单一关键字的搜索,无法满足用户一般性的查询,也即用单调布尔逻辑表达式(包含任意多个逻辑与和逻辑或)表示的查询;另一方面,在云环境下,基于对称密钥的可搜索加密将面临密钥管理、密钥分发困难等诸多问题.Boneh等[21]于2004年提出并构造了第一个带关键字搜索的公钥加密方案.后续的研究者们基于不同的技术构造了多个PKES(Public Key Encryption with Keyword Search)方案[22-23].无安全信道的带关键字搜索公钥加密(Secure Channel Free Public Key Encryption with Keyword Search, SCF-PEKS)也被称为指定测试者的带关键字搜索公钥加密(Searchable Public Key Encryption with Designated Tester,dPEKS)[24].PKES方案仅仅支持关键字密文的相等查询.Park等[25]提出了支持关键字逻辑与查询的公钥加密概念(Public Key Encryption with Conjunctive Keyword Search, PECK),并给出了相应的构造.Boneh等[26]扩展了PKES的概念,提出可搜索公钥加密(Searchable Public Key Encryption)以支持关键字的逻辑与、子集、范围比较等查询.所有上述方案都无法支持关键字的逻辑或查询. Katz等[27]提出了内积谓词加密(Inner-Product Predicate Encryption,IPE)的概念,并注意到IPE可以用来构造支持复杂逻辑表达的可搜索公钥加密,也即支持任意可用单调布尔逻辑表达式(包含任意多个逻辑与和逻辑或)表示的查询.
事实上,上述所有的可搜索的公钥加密方案都并不保证陷门不泄露相对应的查询内容信息.当用户的查询内容包含敏感信息时,这将限制可搜索公钥加密在云环境下的运用.用户在使用查询服务的同时,也希望自己的查询隐私能得到保护.为使可搜索的公钥加密更好地适用云计算环境,需要构造可保护隐私、支持复杂逻辑表达的有效可搜索公钥加密方案.
以云计算为代表的第三方外包平台技术的快速发展,使得数据拥有者能够把海量数据上传到云服务器上并提供计算、查询请求,以降低自身的存储、计算和管理等开销.近年来,属性加密、同态加密等功能加密技术被用于解决外包云数据的计算问题.功能加密(Functional Encryption)又称函数加密,它可以看成是公钥加密的一种新扩展,能够提供更为灵活的数据加密方法.在功能加密中,任何人可以使用公钥pk对明文m进行加密得到密文C=Enc(m),私钥持有者针对某个函数f颁发一个密钥sk[f], 利用sk[f]可以从密文C中计算出f(m), 但是除了f(m)外不能获得关于m的任何信息.基于身份加密、属性加密、同态加密等都可以视为功能加密的具体形式.
保护数据的隐私性和验证第三方外包平台提供计算结果的正确性是数据和计算外包技术的两个核心问题.国内外学者为解决上述两个问题提出了一系列方法,包括同态加密、同态签名及消息认证码、非交互可验证计算.以下逐一对其进行分析.
3.3.1 同态加密
Rivest等[28]首次提出了同态加密(Homomorphic Encryption)的概念.同态是指直接对密文进行操作的同时也对明文执行了相应的操作.同态加密方案允许任何人在不知道明文的情况下对密文直接进行操作,效果等同于先对明文进行操作然后加密得到结果.早期的同态加密方案[29-33]或者只支持对密文的加法运算,或者只支持对密文的乘法运算,或者只支持对密文的加法运算和一次乘法运算.直到2009年Gentry[34]才构造出第一个全同态加密方案,自此以后,全同态加密获得了蓬勃的发展.
全同态加密允许对密文进行任意的操作,因而非常适合应用于云计算环境以保护数据的隐私性.用户首先用全同态加密方案对数据进行加密,再将加密后获得的密文上传至云服务器;云服务器可以对数据密文进行用户指定的任意操作,并将计算结果返回用户;用户使用其私钥解密返回的密文,获取对应的明文计算结果.全同态加密方案的安全性要求使得敌手在没有对应私钥的情况下无法从密文中获得对应明文的任意信息,从而保证了数据的隐私性.然而,用户无法验证云服务器返回的计算结果是否正确,即全同态加密可以保障云数据和计算外包服务中用户数据的隐私性,但无法提供外包计算的可验证性.
3.3.2 同态签名及消息认证码
在一个同态签名(或消息认证码)方案中,给定多个消息m1,…,mk的签名(或认证码),任何人都可以对这些签名(或认证码)进行函数f的运算从而获得一个新的签名(或认证码);该签名(或认证码)是消息f(m1,…,mk)的一个合法签名(或认证码).同态签名是以非对称形式呈现,而同态消息认证码是以对称形式呈现.即在同态签名验证过程中,验证者仅仅需要签名者的公钥便能够验证签名的合法性;而在同态消息认证码验证过程中,只有消息认证码的签发者能够验证认证码的合法性.
同态签名及消息认证码最早被用于网络编码[35]中的消息认证以防止数据污染.Johnson等[36]提出第一个同态签名算法.随后,一系列高效的同态签名及消息认证码方案被提出,包括一些在随机预言机模型以及标准模型下被证明安全的方案.同态签名及消息认证码方案仅支持线性组合计算,也即前述提及的函数f必须是线性函数.因此,上述方案也被称为线性同态签名及消息认证码方案.Boneh等[37]提出了目前唯一一个非线性的同态签名方案,该方案建立在格困难问题之上,能够支持k次多项式运算.构造能够支持任意函数运算的同态签名方案,也即全同态签名方案,仍然是一个公开问题.最近,Gennaro等[38]基于全同态加密方案提出一个支持全同态的消息认证码方案,能够对消息认证码进行任意函数运算,但效率非常低.Catalano等[39]提出了能够支持k次多项式运算的有效同态消息认证码方案,但方案的安全性仅在一个较弱的安全模型下(在该安全模型下,敌手无法验证预言机)可获得.
全同态签名及消息认证码能够用于验证外包计算的正确性.用户首先对每个外包数据做签名或者消息认证码运算来生成标签,而后将数据及标签上传到云服务器.用户向云服务器发出计算请求,云服务器根据收到的请求做出相应的计算,并将数据对应的标签根据函数做相应的合成,以证明计算结果的正确性.在收到计算结果以及相对应的标签之后,用户能够通过标签来验证结果是否正确.然而,在上述应用场景中,数据是以明文形式存储在云服务器上的,因而云服务器知道数据拥有者的隐私数据.也即,全同态签名及消息认证码可以提供云数据和计算外包服务中外包计算的可验证性,但无法保障用户数据的隐私性.
3.3.3 非交互可验证计算
非交互可验证计算(Non-Interactive Verifiable Computation)的概念是Gennaro等[40]提出的.一般而言,非交互可验证计算使得计算资源受限的用户能够将一个函数F作用在输入x上的操作(通常这一操作需要大量的计算资源)外包给拥有大量计算资源的工作站或云服务器.云服务器计算y=F(x),然后返回y和能够向用户证明y确实是函数F作用在x上的结果的有效证据.这里的有效证据是指用户验证该证据的计算花费要远小于用户自己计算F(x)的开销,否则用户就没有将F(x)的计算外包给云服务器的必要.自从Gennaro等[40]构造了第一个非交互可验证计算方案以来,国内外学者提出了一系列的非交互可验证计算方案.这些方案或者侧重于外包一般性函数的计算[41-44],或者侧重于外包某一特定函数或某类函数的计算[45-50].
现有的非交互可验证计算方案或者无法保证函数输入x的隐私性,或者用户需要外包计算的函数必须事先确定(即需要外包计算的函数F必须在系统建立时就确定).更重要的是,使用非交互可验证计算方案外包函数F的计算时,用户需要知道函数F的输入x.考虑下面一个常见的云计算外包场景:用户将其数据上传至云服务器上(即外包数据),用户本身将不再保存数据或仅存储该数据的简要描述;而后用户请求云服务器对其数据进行函数F1运算(即外包函数F1的计算);用户对存储在云服务器上的数据进行增加和删除操作(即存放在云服务器上的数据是动态变化的);用户请求云服务器对其数据进行另一函数F2运算(即外包函数F2的计算).这个特性将限制其在云计算外包中的应用.非交互可验证计算适用于解决用户数据未外包的情况下计算外包的可验证性.在用户数据已经外包到云服务器上的情况下,如果此时用户希望使用非交互可验证计算方案来获得外包计算结果的可验证性,用户需要首先将存储在云服务器上的数据下载到本地,这将大大增加用户的存储和通信开销,尤其是当用户存储在云服务器上的数据量很大时.因此,非交互可验证计算同样无法有效解决在云数据和计算外包服务中同时保障用户数据的隐私性和提供外包计算的可验证性这两个安全需求.
此前大部分做法是直接将数据存放在服务器,然后通过访问控制(Access Control)的方法来限制只有访问权限的用户进行共享.然而,这种做法是不适合云计算环境的,因为以明文形式存放数据,无法保证对服务商的保密性要求,而且一旦云数据服务中心被非法入侵,用户数据的安全性也会荡然无存.此外,一个简单(但不理想)的方法是,利用用户的公钥对数据加密后存放在云数据服务商,当用户A想让另外的用户B来共享数据时,用户A先把数据下载到本地来解密,然后利用用户B的公钥加密后发给用户B.显然,这不是理想的做法,因为它大大增加通信和运算开销.基于属性加密(Attribute-Based Encryption, ABE)近年来被用于解决数据共享问题[51-52].然而,利用ABE的方法不能很好地支持跨域操作.在云计算环境中,用户常常来自不同的管理域,因而ABE在这种场合下难以胜任.此外,在采用密文规则的ABE(Ciphertext-Policy Attribute-Based Encryption, CP-ABE)时,需要用户在数据加密时事先确定共享用户必须满足的条件,在一定程度上缺乏灵活性.
Blaze等[53]提出了代理重加密(Proxy Re-Encryption)的概念.在代理重加密方案中,一个代理者在得到授权人所给予的转换钥rk后,就可以将原先加密给授权人的密文C转换为针对受理人的密文C’.受理人收到C’之后,只需利用自己的私钥就可以对C’进行解密获得对应的明文.而对于代理者来说,虽然他拥有转换钥rk,也无法获得关于该明文的任何信息.此后又有人提出其他代理重加密方案[54].然而,这些传统的代理重加密中,代理者可以将授权人的所有密文都转换为针对受理人的密文.换句话来说,授权人没能在更细致层次上对代理者进行控制.Weng等[55]提出了条件代理重加密(Conditional Proxy Re-Encryption)的概念.在条件代理重加密中,只有当密文符合一定条件时,代理者才可以对该密文进行转换,这样就能较好地控制代理者的转换权限.条件代理重加密能较好地解决云计算环境中的加密数据共享问题:在将用户A数据存入云计算服务商之前,用户先用条件代理重加密对数据进行加密;当用户A的数据要被用户B(即使是其它管理域的用户)共享时,用户A只需要生成一个针对某一条件的转换钥交给云计算服务商或者第三方,后者就可以利用转换钥将满足该条件的指定加密数据转换为针对用户B的密文;用户B仅利用自身的私钥就可以访问这些数据内容.条件代理重加密的性质能够保证:即使云计算服务商拥有转换钥,也无法获得用户的数据内容;更严格的要求为,即使云计算服务商与用户B合作,也无法获得用户A的私钥.与ABE相比,(条件)代理重加密能更好地支持跨域操作.目前已经存在几个条件代理重加密方案[56-58].但这些方案均使用了双线性配对(bilinear pairing).众所周知,与模指数运算相比较,双线性配对的运算代价要昂贵得多,导致这些方案的效率都不够理想.因此,随之而来的问题是,能否构建一个无需双线性配对的条件代理重加密方案,以便能高效地用于云计算环境,解决加密数据的共享问题? 目前存在一个匿名的条件代理重加密方案[58],该方案只能支持简单的AND型条件表达式,且只能在非自适应模型下达到选择密文安全.而非自适应模型无法准确刻画云计算环境下敌手的强大攻击能力,简单的AND型条件表达式只能满足较粗糙粒度的数据共享.因此,如何构建一个自适应选择密文安全的、具有细粒度条件控制的匿名条件代理重加密方案,以便能在更细粒度上控制用户的数据共享、且不向云计算服务商泄漏转换条件的信息,成为一个值得研究的问题.
过去的几年中,本课题组在国家自然科学基金重点项目“云计算环境下的数据安全基础问题研究”的支持下,在面向云计算安全的相关密码理论研究,以及将密码技术应用在云计算安全的实现方面做了一些尝试,并取得了一些有意义的进展.
本课题组提出一个基于云存储服务的数据共享系统模型[59],根据该模型实现了一个原型系统,并实施了部署.使用密文策略属性加密技术(Ciphertext Policy-Attribute Based Encryption, CP-ABE)同时实现高效的数据加密与细粒度的访问控制,合并了加解密模块与访问控制模块.在搜索模块上,使用Lucene构建了一个轻量级的搜索引擎,以实现快速数据检索,并与访问控制结合,保证未授权的内容不会出现在检索结果上(图3).针对系统在响应速度、系统资源使用等性能方面的缺陷,提出利用缓存等技术、预解密技术以及使用摘要替代整个源文件进一步对系统进行优化,提高整个系统的效率与资源利用率,能够满足应用的需要(图4,图5).
图3 带权限控制的密文数据搜索系统
图4 不同机制下的检索响应时间对比
图5 检索服务性能测试结果
大数据时代的信息安全与隐私保护是一项系统工程.无论是在国家层面、技术层面,还是个人以及企业的社会责任感层面,都应该负担起相应的责任.一方面应该通过法律规范限制对用户数据的过度采集和使用,同时技术上需要将目前的数据存储模式变为真正意义的分布式分割存储,这样既可以方便对重要的和敏感的数据进行加密保护,还可以最大限度地将数据内容与用户个人信息、用户相关信息、属性信息实现剥离,从而达到对隐私的保护.
[1] 新华网.云计算从概念走向应用 至2015年收入将突破1800亿美元[EB/OL].(2013-12-20)[2014-10-05].http://news.xinhuanet.com/info/2013-12/20/c_132982365.htm.
[2] 中国工业和信息化部.云计算安全问题及对策[EB/OL]. [2014-10-05].http://www.miit.gov.cn/n11293472/n11293832/n15214847/n15218234/15475208.
[3] 新华网.大数据和云计算使的个人隐私四面楚歌[EB/OL].(2013-11-20)[2014-10-05].http://news.xinhuanet.com/info/2013-11/20/c_132902969.htm.
[4] Columbus L. IDG cloud computing survey: security, integration challenge growth[EB/OL].(2013-08-13)[2014-10-05].http://www.forbes.com/sites/louiscolumbus/2013/08/13/idg-cloud-computing-survey-security-integration-challenge-growth/.
[5] 陶涛.云计算领域隐私权保护的现实困境分析[J].现代情报,2014,34(2):162-167.
[6] 中文国际.摩根大通数据泄露影响8300万客户[EB/OL].(2014-10-03)[2014-10-05].http://www.chinadaily.com.cn/hqgj/jryw/2014-10-03/content_12481331.html.
[7] 互动百科.隐私[EB/OL].[2014-10-05].www.baike.com/wiki/隐私.
[8] Liu F,Tong J,Mao J,etal. NIST cloud computing reference architecture[J].NIST Special Publication,2011,500:292.
[9] ZDNet. Enterprise cloud outlook: inevitably hybrid, surprisingly agile and (eventually) cheap[EB/OL].(2014-04-03)[2014-10-05].http://www.zdnet.com/enterprise-cloud-outlook-inevitably-hybrid-surprisingly-agile-and -eventually-cheap-7000028032/.
[10] IBM.IBM hybrid cloud solution[EB/OL].[2014-10-05].http://www-01.ibm.com/software/tivoli/products/hybrid-cloud/.
[11] Zhang K H, Zhou X Y, Chen Y Y,etal. Sedic: privacy-aware data intensive computing on hybrid clouds[C]//CCS.Proceedings of the 18th ACM conference on computer and communications security.New York:ACM,2011:515-526.
[12] Chen Y Y, Peng B, Wang X F,etal. Large-scale privacy-preserving mapping of human genomic sequences on hybrid clouds[C]//Proceedings of NDSS.NDSS,2012.
[13] Oktay K Y, Khadilkar V, Hore B,etal. Risk-aware workload distribution in hybrid clouds[C]//2012 IEEE 5th international conference on cloud computing.Honolulu:IEEE,2012:229-236.
[14] Smit M, Shtern M, Simmons B,etal. Partitioning applications for hybrid and federated clouds[C]//CASCON.Proceedings of the 2012 conference of the center for advanced studies on collaborative research.Riverton:IBM Corp,2012:27-41.
[15] Gao J, Yu J X, Jin R,etal. Neighborhood-privacy protected shortest distance computing in cloud[C]//SIGMOD.Proceedings of the 2011 ACM SIGMOD international conference on management of data.New York:ACM,2011:409-420.
[16] Rekatsinas T, Deshpande A, Machanavajjhala A. SPARSI: partitioning sensitive data amongst multiple adversaries[J]. Proceedings of the VLDB endowment,2013,6(13):1594-1605.
[17] Song D, Wagner D, Perrig A. Practical techniques for searches on encrypted data[C]//Proceedings of 2000 IEEE symposium on security and privacy.Berkeley: IEEE,2000:44-55.
[18] Goh E J. Secure indexes[J].Cryptology ePrint Archive,2003,2003:216.
[19] Waters B R, Balfanz D, Durfee G,etal. Building an encrypted and searchable audit log[J].NDSS,2004,4:5-6.
[20] Curtmola R, Garay J, Kamara S,etal.Searchable symmetric encryption: improved definitions and efficient constructions[C]//CCS. Proceedings of the 13th ACM conference on computer and communications security.New York: ACM,2006:79-88.
[21] Boneh D, Crescenzo G D, Ostrovsky R,etal. Public key encryption with keyword search[M]//Cachin C,Camenisch J L.Advances in cryptology: EUROCRYPT 2004.Berlin: Springer-Verlag,2004:506-522.
[22] Bellare M, Boldyreva A, O’Neill A. Deterministic and efficiently searchable encryption[M]//Menezes A. Advances in cryptology:CRYPTO 2007.Berlin:Springer-Verlag,2007:535-552.
[23] Crescenzo G D, Saraswat V. Public key encryption with searchable keywords based on jacobi symbols[M]//Srinathan K, Rangan C P, Yung M. Progress in cryptology:INDOCRYPT 2007.Berlin: Springer-Verlag,2007:282-296.
[24] Rhee H S, Park J H, Susilo W,etal.Improved searchable public keyencryption with designated tester[C]//ASIACCS. Proceedings of the 4th international symposium on information, computer, and communications security.New York:ACM,2009:376-379.
[25] Park D J, Kim K, Lee P J. Public key encryption with conjunctive field keywordsearch[M]//Lim C H,Yung M. Information security applications.Berlin: Springer-Verlag,2005:73-86.
[26] Boneh D, Waters B. Conjunctive, subset, and range queries on encrypted data[M]//Vadhan S P.Theory of cryptography. Berlin: Springer-Verlag,2007:535-554.
[27] Katz J, Sahai A, Waters B. Predicate encryption supporting disjunctions,polynomial equations, and inner products[M]//Smart N. Advances in cryptology:EUROCRYPT 2008.Berlin: Springer-Verlag,2008:146-162.
[28] Rivest R L, Adleman L, Dertouzos M L. On data banks and privacy homomorphisms[J]. Foundations of Secure Computation,1978,4(11):169-180.
[29] Rivest R L, Shamir A, Adleman L. A method for obtaining digital signatures and public-key cryptosystems[J]. Communication of the ACM,1978,21(2):120-126.
[30] Goldwasser S, Micali S. Probabilistic encryption and how to play mental pokerkeeping secret all partial information[C]//STOC. Proceedings of the fourteenth annual ACM symposium on theory of computing. New York:ACM,1982:365-377.
[31] ElGamal T. A public-key cryptosystem and a signature scheme based on discrete logarithms[M]//Blakley G R,Chaum D. Advances in cryptology. Berlin: Springer-Verlag,1985:10-18.
[32] Paillier P. Public-key cryptosystems based on composite degree residuosity classes[M]//Sterm J.Advances in cryptology: EUROCRYPT’99.Berlin: Springer-Verlag,1999:223-238.
[33] Boneh D, Goh E-J, Nissim K. Evaluating 2-DNF formulas on ciphertexts[M]//Kilian J.Theory of cryptography.Berlin: Springer-Verlag,2005:325-341.
[34] Gentry C. Fully homomorphic encryption using ideal lattices[C]//STOC. Proceedings of the 2009 ACM symposium on theory of computing.New York:ACM,2009:169-178.
[35] Ahlswede R, Cai N, Li S Y R,etal. Network information flow[J]. IEEE Transactions on Information Theory,2000,46(4):1204-1216.
[36] Johnson R, Molnar D, Song D,etal. Homomorphic signature schemes[M]//Preneel B. Topics in cryptology: CT-RSA 2002.Berlin: Springer-Verlag,2002:244-262.
[37] Boneh D, Freeman D M.Homomorphic signatures for polynomial functions[M]//Paterson K G. Advances in cryptology:EUROCRYPT 2011.Berlin: Springer-Verlag,2011:149-168.
[38] Gennaro R, Wichs D. Fully homomorphic message authenticators[M]//Sako K,Sarkar P. Advances in cryptology:ASIACRYPT 2013.Berlin: Springer-Verlag,2013:301-320.
[39] Catalano D, Fiore D. Practical homomorphic MACs for arithmetic circuits[M]//Johansson T,Nguyen P. Proceedings of EUROCRYPT 2013. Berlin:Springer-Verlag,2013:336-352.
[40] Gennaro R, Gentry C, Parno B. Non-interactive verifiable computing: outsourcing computation to untrusted workers[M]//Rabin T. Advances in cryptology:CRYPTO 2010.Berlin: Springer-Verlag,2010:465-482.
[41] Chung K M, Kalai Y, Vadhan S.Improved delegation of computation using fully homomorphicencryption[M]//Rabin T. Advances in cryptology:CRYPTO 2010.Berlin: Springer-Verlag,2010:483-501.
[42] Barbosa M, Farshim P. Delegatable homomorphic encryption with applications to secure outsourcing of computation[M]//Dunkelman O. Topics in cryptology:CT-RSA 2012. Berlin:Springer-Verlag,2012:296-312.
[43] Parno B, Raykova M, Vaikuntanathan V. How to delegate and verify in public: verifiable computation from attribute-based encryption[M]//Cramer R. Theory of cryptography. Berlin: Springer-Verlag,2012:422-439.
[44] Goldwasser S, Kalai Y T, Popa R A,etal. Succinct functional encryption and applications: reusable garbled circuits and beyond[C]//STOC.Proceedings of STOC 2013. New York:ACM,2013:555-564.
[45] Benabbas S, Gennaro R, Vahlis Y. Verifiable delegation of computation over large datasets[M]//Rogaway P. Advances in cryptology:CRYPTO 2011.Berlin:Springer-Verlag,2011:111-131.
[46] Fiore D, Gennaro R. Publicly verifiable delegation of large polynomials and matrix computations, with applications[C]//CCS .Proceedings of the 2012 ACM conference on computer and communications security. New York:ACM,2012:501-512.
[47] Catalano D, Fiore D, Gennaro R,etal. Algebraic (trapdoor) one way functions and their applications[M]//Sahai A.Theory of cryptography. Berlin:Springer-Verlag,2013:680-699.
[48] Papamanthou C, Shi E, Tamassia R. Signatures of correct computation[M]//Sahai A.Theory of cryptography. Berlin:Springer-Verlag,2013:222-242.
[49] Backes M, Fiore D, Reischuk R M. Verifiable delegation of computation on outsourced data[C]//CCS. Proceedings of the 2013 ACM SIGSAC conference on computer and communications security. New York:ACM,2013:863-874.
[50] Papamanthou C, Tamassia R, Triandopoulos N.Optimal verification of operations on dynamic sets[M]//Rogaway P. Advances in cryptology:CRYPTO 2011.Berlin:Springer-Verlag,2011:91-110.
[51] Goyal V, Pandey O, Sahai A,etal. Attribute-based encryption for fine-grained access control of encrypted data[C]//CCS. Proceedings of the 13th ACM conference on computer and communications security. New York:ACM,2006:89-98.
[52] Lewko A, Okamoto T, Sahai A,etal. Fully secure functional encryption: attribute-based encryption and (hierarchical) inner product encryption[M]//Gilbert H. Advances in cryptology:EUROCRYPT 2010.Berlin: Springer-Verlag,2010:62-91.
[53] Blaze M, Bleumer G, Strauss M. Divertible protocols and atomic proxy cryptography[M]//Nyberg K. Advances in cryptology:EUROCRYPT’98.Berlin: Springer-Verlag,1998:127-144.
[54] Ateniese G, Fu K, Green M,etal. Improved proxy re-encryption schemes with applications to secure distributed storage[J]. ACM Transactions on Information and System Security,2006,9(1):1-30.
[55] Weng J, Deng R H, Ding X H,etal. Conditional proxy re-encryption secure against chosen-ciphertext attack[C]//ASIACCS. Proceedings of the 4th international symposium on information, computer, and communications security.New York:ACM,2009:322-332.
[56] Weng J, Yang Y J, Tang Q,etal. Efficient conditional proxy re-encryption with chosen-ciphertext security[M]//Samarati P,Yung M,Martinelli F,etal. Information cecurity.Berlin: Springer-Verlag,2009:151-166.
[57] Chu C K, Weng J, Chow S S M,etal.Conditional proxy broadcast re-rncryption[M]//Boyd C,Nieto J G.Information security and privacy. Berlin: Springer-Verlag,2009:327-342.
[58] Fang L M, Susilo W, Wang J D. Anonymous conditional proxy re-encryption without random oracle[M]//Pieprzyk J,Zhang F G. Provable security. Berlin: Springer-Verlag,2009:47-60.
[59] 张婧,陈克非,吕林,等.云存储中的用户数据安全[J].计算机科学与探索,2013,7(12):1093-1103.