武警8710部队通信科 段志刚武警警官学院 吴耕锐 薄 鸟
一种武警云计算环境下集群重复数据删除策略
武警8710部队通信科 段志刚
武警警官学院 吴耕锐 薄 鸟
随着大数据时代的发展,数据量正在爆炸式增长,数据更新变化也在时刻进行[1]。调查发现云端数据中心有60%以上数据是冗余的,这就为数据同步提出了巨大挑战。针对云环境下集群分布式存储的全局重复数据删除,存在着数据块索引磁盘瓶颈和存储节点信息孤岛两大困难:(1)数据块索引磁盘瓶颈:在存储服务器节点的磁盘上建立一个数据块索引序列,完成集群内数据存储节点的重复数据删除。(2)重复数据删除节点信息孤岛:针对云环境下集群系统的重复数据删除过程,往往忽略节点之间的重复数据删除,由此产生了重复数据删除节点的孤岛效应。
现有云环境下的全局重复删除技术,如EMC公司的data domain全局重复数据删除阵列、IBM公司的protectTier、SEPATON公司的S2100-ES2等[2-4],由于在全局数据缩减率、单节点存储率、数据分布或者系统通信开销上存在不足,利用这些技术来设计由成千上万节点构成的集群,很可能不会成功。Bhagwat设计了Extreme Binning策略,Extreme Binning基于文件的相似性,以加密Hash生成的Chunk ID。文献[5]设计了一种支持云环境下大数据备份的可扩展在线集群重复数据删除框架。
本文利用Bloom Filter机制为存储节点内的所有数据块指纹建立一个全局的快速索引,从而实现支持高数据缩减率、高吞吐率、低通信开销及负载均衡的全局重复数据删除。
利用Bloom Filter机制可以将集群内所有节点存储的数据块指纹表示成Bloom Filter指纹摘要(Fingerprint Summary),形成全局的快速索引序列。例如集群中有p个存储服务器节点,假设所有节点的Bloom Filter长度全部为n,并且所有节点采用k个相同且相互独立的哈希函数。数据中心接收到客户端发送来的数据块指纹时,检测该块是新块还是已存储的数据块,其过程如图1所示:
图1 重复数据删除过程
基于Bloom Filter机制及相似性理论,在超块的基础上进行有状态路由的重复数据检测删除的算法描述如下: (1)控制服务器节点依次计算出超块Q{fp1,fp2,fp3,…fpn}中所有数据块指纹对应的k个哈希函数值,将hi(xj)保存并分发到每一个存储节点;(2)利用哈希值hi(xj)依次从FSA获取映射位置的列值。若某一列对应的值全是0(Negative),可判定其为新数据块;(3)若任一哈希值hi(xj)映射的列向量的值不全为0(Positive),返回一条Duplication Possible的消息;(4)查询结束后,若返回的数据块类型值为Duplication Possible。若依次查询到某一节点所有hi(xj)映射的位全部是1,则返回消息为Positive;(5)利用按行查询即节点确认算法返回的结果是节点的ID,进而在对应的存储节点进一步的细粒度查询重复数据,确认数据块是否是重复的。
在实验室现有的硬件环境下,选用1台计算机作为客户端,1台配置Hadoop框架的服务器及4台计算机搭建Hadoop集群[6]。
通过与文献[7]提出的基于Bloom Filter数据重复删除策略、文献[8]设计的Σ-Dedupe方案对比,实验结果如图5-4所示。实验结果表明,三种方案在数据重删消耗时间大致相同的情况下,本文设计的G-dedupe会获得最大的数据缩减率,在数据庞大的集群存储系统中就能极大地节省存储空间,提高集群系统的整体性能。
图3 试验对比结果
本文主要研究集群内部的全局重复数据删除。运用 Bloom Filter 技术为集群数据中心中存储的所有数据块建立快速索引的摘要信息,合成一个可以检测重复数据的指纹摘要阵列,分布在存储节点前端的控制服务器,控制服务器节点将客户端发送到的数据块指纹合并成若干粒度大小均匀的超块,进行重复数据的检测,然后将数据块的重复删除分布到存储节点中进行。研究成果实现了数据同步中的数据缩减率问题,为集群存储节省了大量的存储空间。
参考文献
[1]IBM Cloud Computing [EB/OL]. http://www.ibm.com/ibm/cloud.
[2]吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011,5.
[3]陈钊.基于云灾备的数据安全存储关键技术研究[D].北京邮电大学,2012.
[4]李俊中. 云存储环境下数据完整性验证方法研究[D].重庆邮电大学,2013.
[5]Bobbarjung D R, Jagannathan S, Dubnicki C. Improving duplicate elimination in storage systems[J]. Acm Transactions on Storage,2006,2(4):424-448.
[6]叶明江,崔勇,徐恪等.基于有状态Bloom filter引擎的高速分组检测[J].软件学报, 2006,18:117-126.
[7]毛波,叶阁焰,蓝琰佳等.一种基于重复数据删除技术的云中云存储系统[J].计算机研究与发展,2015(6):1278-1287.
[8]杨超,张俊伟,董学文等.云存储加密数据去重删除所有权证明方法[J].计算机研究与发展,2015,1(1):248-258.
作者简介:
段志刚(1977—),男,江西景德镇人,现供职于武警8710部队通信修理所,助理工程师,主要研究武警通信与信息化。
吴耕锐(1985—),福建漳州人,现供职于武警警官学院信息工程系,研究方向:信息化。
薄鸟(1986—),女,陕西西安人,现供职于武警警官学院数学与物理系,研究方向:固体物理。