田立伟+樊勇
【摘 要】大数据环境下的云存储平台具有多用户、虚拟化和伸缩性等特点,安全问题成为其发展的瓶颈之一。指出了开源云平台Hadoop存在的不足,从云存储平台数据的完整性、机密性、可用性、密钥分发机制以及检索效率等方面详细分析,提出了一整套完整的云存储平台安全机制,新的机制可以有效提升云存储平台的安全性能而又不降低数据的检索效率。
【关键词】大数据;云存储平台;Hadoop;安全机制
0 引言
大数据由于其庞大的数据信息量导致单机无法处理,云存储平台是以云计算为基础,是在大数据时代背景下的一种新型存储模式。云存储平台采用集群技术、网格计算、分级存储、分布式处理和虚拟化技术将大量的网络设备连接起来,对外形成统一的服务接口,极大提高了数据的存储效率。因为云存储平台较传统的存储模式在空间、价格、便捷性等方面有诸多优势,故其在相当长的一段时间内会保持高速发展。然而,云存储平台由于面向的用户众多、使用虚拟化的平台技术和需要可伸缩性的平台设计,其安全性的保障变的尤为困难。云存储平台的安全性是阻碍其发展的重要因素之一。
针对云存储平台的安全问题,访问控制机制、数据的保密性、加密解密方法以及隐私的保护是重要的防护手段。目前市面上用户占有率较多的几个云存储平台诸如百度、阿里巴巴和华为等,其提供的服务在安全方面无法取得用户的信赖。从传统的密码复杂度设置、口令验证、ACL策略过滤以及防火墙、入侵检测和入侵防御系统来看,面对“云”时显的比较脆弱。目前,众多学者提出了诸多密码学的控制方案。比较有代表性的是基于属性的加密访问控制机制(ABE),该机制是对基于身份的密码体制的扩展,以用户身份为标识,多个属性组成的集合。ABE也存在着许多问题,例如当有大量的消息需要加密和签名时,超负荷运转的机制和用户身份的保护成为一难题。学者们进一步提出了密钥策略的属性加密(KP-ABE) 和密文策略的属性加密(CPABE)等机制[1]。
1 开源云平台Hadoop存在的不足
Hadoop(Hadoop Distributed File System,简称HDFS)是一个开源的云存储平台基础架构,是由Apache基金会所开发的分布式系统。使用该架构的用户不必关心底层的细节,它充分使用集群模式,可以对数据进行高速运算和存储。
最初的Hadpoop云存储平台存在许多安全隐患,主要体现在以下几个方面:第一,数据在上传和下载过程中处于透明模式,缺少加密机制;第二,平台缺乏授权机制,用户操作权限不受控制;第三,缺少必要的身份验证机制。随着Hadpoop的发展,逐渐引入了认证机制,但也存在着许多缺陷,主要体现在以下几个方面:第一,大量用户同时通过Kerberos密钥分配机制分配认证时,导致时延变大,认证过程成为其安全保障的瓶颈;第二,Hadpoop采用的集群服务中主节点的压力大,一旦发生问题导致整个平台瘫痪;第三,访问控制策略ACL过于简单;第四,集群中主节点和其他节点的数据传输没有加密,处于透明传输;第五,数据隔离机制缺失[2]。
2 云存储平台安全机制
针对Hadpoop存储平台存在的安全问题,提出了如图1所示的安全体系结构,该结构从云存储平台的设施层、虚拟层、平台层、运营层和应用层通盘考虑,分别在不同的层次实施不同的策略,保证云存储平台在数据存储时的安全保障是统一的,这样的安全机制也可以大大提高数据的检索效率。
2.1 设施层的安全机制
云存储平台在设施层安全机制主要是针对硬件设施采取的加密和认证措施,包括身份认证、传输加密、加密交换机、磁盘加密、主机加密和主机加固等。云存储平台服务会将用户的数据完整地存储于云端,而不能对数据造成损坏或者遗失,这就要求硬件设施必须是安全的,数据无论是在传输过程中还是在存储过程中,都要保证数据未被修改或者伪造,始终保持数据的完整性。孙辛未等人提出的面向云存储的高性能数据隐私保护方法,数据在硬件设备上存储前将数据按照比特位来拆分,重新组装成新的数据文件,下载时按照规则再还原为原来的数据文件,很好的保护了数据隐私[3]。
2.2 虚拟层的安全机制
在云存储平台中,虚拟层安全的保障是十分重要的。主要采取的措施有身份认证、虚拟化安全和日志审计等。用户在访问过程中需要对身份进行认证,有授权的用户才能取得访问数据的权限。通过日志审计可以及时的发现数据在某段时间内有哪些用户访问过,哪些用户是合法用户,哪些用户是非法用户但尝试访问过,及时的掌握数据的动态,采取合理的策略,保障数据的机密性。洪汉舒等人提出的利用校验算法检测被拆分数据和组合后数据的一致性,避免数据重复、误删除等操作,确保大数据在存储过程中的安全[4]。
2.3 平台层的安全机制
平台层的安全保障机制有身份认证、访问控制、日志审计、文件加密、数据库加密和密钥保护等。平台层的安全机制对于云存储数据的可用性起着至关重要的作用。
1)根据文件的大小不同,采用不同的加密策略,小的文件可以直接采用的传统的加密算法进行加密,而对于大文件可以采用基于混沌映射加传统加密算法的方式进行加密。
2)为了提高检索效率,对数据库进行加密时,可以采用部分字段加密的方式。李文成等人提出的在企业端设置私有安全模型,采用基于属性的加密算法来解决数据检索和访问控制的问题,提高了检索效率,保障了数据的机密性[5]。
3)在密钥保护方面,将用户数据和加密与解密密钥分开存储,提高了数据的安全性。王丽娜等人提出了云存储中基于可信平台模块的密钥使用次数管理方法,该方法的思想是将基于密文策略属性加密算法对密钥进行加密,然后存储至可信平台,通过对比预设使用密钥次数和单调技术器的次数来判断密钥是否被安全使用,极大提高了密钥的安全性[6]。
2.4 运营层的安全机制
云存储平台中对于运营层的安全可以采用如下机制:通信加密、保密协议、身份认证、访问控制和日志审计。冒海微在其研究中指出采用混沌系统用于通信中数据的保密是一个可行的方法。该方法围绕非线性动力学和同步问题,提出基于全局吸引集的混沌系统同步方法,设计合适的系统控制器使混沌同步误差系统稳定到原点,实现了统一变形混沌系统与统一混沌系统的异结构同步,在改善传输速率的同时提高其保密性[7]。
2.5 应用层的安全机制
云存储平台中应用层的安全与否,直接关系到用户的体验。大数据环境下,用户对于云存储平台的第一感受就是来自于应用层。因此,应用层的安全要从身份认证、访问控制和日志审计等措施来考虑。刘雅辉等人在大数据时代的个人隐私保护一文中指出,对于应用层的个人隐私保护,要从在线社会网络、移动定位以及射频识别3个方面提高个人隐私的保护[8]。
3 小结
本文首先阐述了云存储平台存在的安全隐患,以Hadpoop为对象指出其安全机制的不足,提出了一个从设施层、虚拟层、平台层、运行层和应用层通盘考虑的安全体系结构,该结构从数据的保密性、完整性和可用性来考虑,参考了一些研究者的思想,以期能对云存储平台的研究提供帮助。
【参考文献】
[1]苏金树,曹丹,王小峰,等.属性基加密机制[J].软件学报,2011,22(6):1299-1315.
[2]朱劭.Hadoop云计算平台核心技术的安全机制缺陷研究[D].北京邮电大学, 2013.
[3]孙辛未,张伟,徐涛.面向云存储的高性能数据隐私保护方法[J].计算机科学, 2014,41(5):137-142.
[4]洪汉舒,孙知信.基于云计算的大数据存储安全的研究[J].南京邮电大学学报(自然科学版),2014,34(4):26-32.
[5]李文成,赵逢禹.企业云存储数据的加密与密文全文检索研究[J].小型微型计算机系统,2013,34(2):429-432.
[6]王丽娜,任正伟,董永峰,等.云存储中基于可信平台模块的密钥使用次数管理方法[J].计算机研究与发展,2013,50(8):1628-1636.
[7]冒海微.混沌系统的同步及其保密通信应用[D].南京信息工程大学,2014.
[8]刘雅辉,张铁赢,靳小龙,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[责任编辑:杨玉洁]