武警8710部队通信科 段志刚武警警官学院 吴耕锐 薄 鸟
面向武警云灾备的数据同步技术研究综述
武警8710部队通信科段志刚武警警官学院吴耕锐薄鸟
近年来,云计算作为一种新的集群计算模式,为人们提供了一种市场空间巨大、全新的信息化服务[1]-[6]。尽管云计算与云存储带来极大的便利,诸多用户依然选择分布式计算系统,主要原因是在云计算及云存储中,没有采取有效的措施保护用户数据的可用性和完整性。换而言之,数据灾备问题是众多用户选择云存储的最大障碍,而用户数据的安全最大程度依赖于数据备份后的完整性和可用性。
传统的分布式系统中的数据灾难备份已经不能适应新环境下的灾备需求,云灾备服务拥有投入成本低、资源共享的巨大优势,这些优势为云灾备提供了强大的生命力,云计算环境下数据同步问题成为灾难备份发展的一个重大瓶颈。
数据同步是云环境下实时动态备份的关键技术,研究一种适用的数据同步技术成为云环境下灾难备份的迫切需求。因此,研究适用于云环境下的数据同步技术对于降低网络通信量、实现数据实时同步、缩减数据重复率以节省存储空间具有重大的理论意义和紧迫的现实意义。
针对现有网络环境下的数据同步问题,学术界的众多学者和专家已经有了深入的研究。基于广域网的网络环境下时刻伴随着数据同步,例如远程数据的备份、网络数据的同步、共享等。最直接的方法是用源数据覆盖旧数据,但是源数据和被覆盖数据之间往往存在较小的差异,因此会占用不必要的网络流量,特别是具有较高相似性的集群存储系统以及存储密度较大的云环境下,往往会造成大量网络流量资源的浪费。目前,网络环境下数据同步工作的研究主要有Rsync、FileGee(基于Windows平台的数据文件同步)[7],TAPER和 GrahanConmode提出的T.Suel[8]同步算法以及LBFS算法等。另外,在数据同步系统的开发与实践中,IMB、HP、DELL等著名的IT企业占据了其重要的地位。
吴昊[9]在共享内存体系结构下,为解决锁同步导致的并发性能瓶颈,提出了一种基于硬件CAS(比较交换)原语的无锁同步算法。该算法实现了多核多线程环境下共享变量的非阻塞同步操作,有效的避免由于锁竞争造成的程序串行化问题。
张凤琴[10]等人鉴于目前数据同步领域存在的不足,通过对WCF技术的分析和研究,构建了一个数据同步模型,该模型实现了分布式环境下多个数据中心之间的高效实时同步。文献[10]以实时数据检索机制的设计作为切入点,提出了结合一致性哈希算法的数据存储方案。对于数据同步的研究,目前研究主要侧重于数据复制策略以及数据压缩算法,通过计算得出数据源端和目标数据的差异部分,通过网络传输差异数据来更新目标数据,使数据达到一致。
远程同步往往缺少监控机制,不能实时的进行数据同步,针对此类问题,李贞[11]设计了基于Rsync算法的远程同步系统,并引入了Inotify机制,进行文件的实时监控。文献[12]基于云平台的数据同步需求,设计了以Rsync算法为基础的同步系统。
云环境下数据同步面临的另一个挑战是同步带来的大量数据冗余,针对数据冗余的问题,众多学者开始研究重复数据删除技术[12-14]。为在较少的数据冗余前提下保持数据的高可靠性,Bhagwat等人提出了基于副本的重复数据删除策略[15],根据数据chunk的共享度在存储系统内存放数目不同的数据副本,以增强数据删重系统的可靠性。
为了保证存储系统在较高可靠性的前提下缩减数据量,众多学者利用纠错编码技术进行数据的删重。Data Domain开发的DDFS[16]和HP开发的D2D4000[17]利用RAID-6编码技术实现了磁盘损坏后的数据恢复。Liu等人为提高存储系统可靠性,设计了重复数据删除系统R-ADMAD[18],将不定长的数据块打包成定长的数据块,并运用ECC编码进行校验。
1)数据传输的安全性和数据中心的安全访问控制在远程数据同步的整个过程中也是一个至关重要的方面。如何实现服务器接收请求的口令协定,是今后深入研究的问题之一。
2)云环境下的实时同步方案的设计中,首先,存在文件系统实时监控的可移植性行问题。在HDFS会同时存储一个文件的三个副本,在集群系统内部的副本之间的数据同步方法,将是未来进一步研究优化的方向。
3)集群式重复数据删除重点需要解决的两个问题是磁盘的索引瓶颈和节点之间的孤岛效应。如何尽可能降低全局的消重策略的误判率提高删除效率,在误判率可以接受的范围内进行重复数据的删除是下一步工作研究的主要方向,有效地清除磁盘碎片是重复数据删除中的又一个研究难点。
[1]Shamim S M,Sarker A,Bahar A N,et al.A Review on Mobile Cloud Computing[J].International Journal of Computer Applications, 2015,113(16):4-9.
[2]Crago S P,Walters J P.Heterogeneous Cloud Computing:The Way Forward[J]. Computer,2015, 48(1):59-61.
[3]IBM Cloud Computing [EB/OL]. http://www.ibm.com/ibm/cloud.
[4]吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.5.
[5]陆嘉恒等.分布式系统与云计算[M].北京:清华大学出版社,2011.5.
[6]Sookhak M,Gani A,Talebain H, et al.Remote Data Auditing in Cloud Computing Environments: A Survey,Taxonomy,and Open Issues[J]. Acm Computing Surveys, 2015.
[7]Pierce B C,Vouillon J.Unison:A File Synchronizer and Its Specification[C]// Proceedings of the 4th International Symposium on Theoretical Aspects of Computer SoftwareSpringer-Verlag,2001.
[8]陈煌.基于差异同步的云存储研究和实践[D].华东理工大学,2015.
[9]张青凤,张凤琴,王磊.多数据中心的数据同步模型研究与设计[J].微型机与应用,2013.
[10]傅颖勋,罗圣美,舒继武.一种云存储环境下的安全网盘系统[J].软件学报,2014,08:1831-1843.
[11]张海峰.基于Rsync的异构环境数据同步机制研究[D].成都:电子科技大学,2013.
[12]刘西岗.基于rsync算法的云平台文件同步系统设计与实现[D].成都:电子科技大学, 2013.
[13]敖莉.舒继武,李明强.重复数据删除技术[J].软件学报,2010(05):916-929..
[14]Muthitacharoen A,Chen B,Mazières D.A Low-bandwidth Network File System[J].Acm Sigops Operating Systems Review, 2001.35(5):174-187.
[15]Bolosky W J,Corbin S,Goebel D,et al.Single instance storage in Windows® 2000[C]//In Proceedings of the 4th USENIX Windows Systems Symposium (WinsSys 20002000.
[16]Bobbarjung D R,Jagannathan S,Dubnicki C.Improving duplicate elimination in storage systems[J].Acm Transactions on Storage,2006,2(4):424-448.
[17]付印金.肖侬.刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012(1):12-20.
[18]Zhu B,Li K,Patterson H.Avoiding the disk bottleneck in the data domain deduplication file system[C]//Proceedings of the 6th USENIX Conference on File and Storage TechnologiesUSENIX Association, 2008.
吴耕锐(1985—),福建漳州人,现供职于武警警官学院信息工程系,研究方向:信息化。
薄鸟(1986—),女,陕西西安人,现供职于武警警官学院数学与物理系,研究方向:固体物理。
未来对数据同步中的关键技术研究将主要集中在以下几个方面:
段志刚(1977—),男,江西景德镇人,现供职于武警8710部队通信修理所,助理工程师,主要研究武警通信与信息化。