浅析云存储数据中心存储系统优化访问的策略

2018-12-18 10:16张淼波
电脑知识与技术 2018年26期
关键词:副本

张淼波

摘要:该文对现行云存储数据中心或大规模数据中心的存储管理储系统,从提高数据访问效率的角度浅析如何优化访问策略的问题;以现行云存储数据中心存储管理方案为基础,详细描述和分析目前较为流行的两种数据存储管理方案:数据冗余策略和纠删码策略的优劣势,提出了一种根据数据访问“冷热度”,建立冷热数据统计模型、分析模型、冷热数据的分离模型,建立基于冷热数据震荡缓冲层的冗余策略变更模型,从而达到改进数据存储管理方案的新构想。

关键词:冗余策略;副本;纠删码;伸展树;数据冷热度

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)26-0005-02

云计算中心是我国十三五重点扶持领域,在整个“十二五规划”期间,我国的云计算领域的产业链规模将达到7500-10000亿元人民币。云计算的崛起使得数据越来越集中,在众多场合,云计算和大数据的概念通常紧密联系在一起,数据越来越大,使得数据中心需要面对一个极其重要的挑战:对大数据的安全、高效的管理。IDC数字宇宙研究指出,全球的数据量每两年翻一番。2015年创建和复制的数据量为8.6ZB。预计到2020年将达到44ZB。这要求数据中心能够同时满足大数据的存储规模,以及数据安全可靠性和可用性的要求。

现行云存储系统中数据冗余是保证系统可靠性、提高数据可用性和持久性最基本的方法,目前,云存储系统广泛使用的冗余策略分为副本和纠删码[1]两种,两种策略的优缺点都非常明显。

1 副本和纠删码简介

文本副本中的节点,最简单的数据就是获取该文件。由于副本不涉及冗余策略,通过将文件的多个副本原理,通过将文件的多个副本分布到系统不同节点,只要这些节点中的一个副本有效,数据的可用性越好,就能获取该文件的编码运算。文件的副本越多,数据的可用性越好,可靠性越高。文件读取和创建需要解码和编码操作,读写效率高。

纠删码是另一种重要的冗余策略,将这K块文件编码成N个编码(N,K),纠删码将一个大小为M的原始文件分成K块,其中每个存储节点存储一个编码块,每块大小为M /K;然后块后分发到N个节点中去,且N>K。(N,K)纠删码指的是N编码中的任意K个编码块就能重构原文件。

2 副本和纠删码的比较

相关文献对两种冗余策略进行比较,得出在不同情况下,两种策略各有各的优势。副本冗余方式响应速度快,冗余方式简单,但极大地浪费存储资源。特别是在规模庞大的云存储中心,势必会增加系统的投入成本,例如常见的3副本策略,使得存储系统的存储资源利用率最高也只能达到30%左右;纠删码方式虽然能够节省存储空间,提高存储利用率,但是纠删码分片冗余机制也有其自身的局限性。首先,对数据分片及解码算法的引入将增加系统设计的复杂度。其次,纠删码分片冗余机制要求用户必须从网络的多个节点中获得多个分片才可以恢复原始数据,若在互联网环境中,由于地理位置等因素,用户到多个节点的时延各有差异,这样获取数据的最终时延总是取决于各节点中的最大者,导致数据下载率降低。

3 冷热数据与冗余策略

对云存储系统中数据访问特性的统计分析发现,文件访问集中在文件创建时的时间段,并且满足于Zipf分布规律[2],呈现出“局部性”的特点,即大量的访问集中在小部分数据之上。

3.1 冷热数据的分级存储

虚拟内存的冷热数据的分级最早的原型是页面置换算法[3],页面置换算法最近最久未使用置换算法,页面置换算法是一种典型的两级存储模型,包括先进先出置换算法,最近未用置换算法。页面置换算法的核心是选择哪些永不使用的,这个思想在最长时间内不在被访问的页面,反映了對页面重要性的基本评价标准或者是转换出云。 数据是否被访问,一直延用当前这种思想转型为分级存储算法。

3.2 冷热数据的判定

3.2.1 固定阀值法

将数据迁移到固定阀值法,基本思想是在一段时间内,当数据存放在高级存储设备中设定一个固定的访问频度阀值对数据进行分级,否则不迁移数据;首先统计一段时间内所有数据的访问频度,并且访问频度大于阀值,(速度快容量小),如果(速度慢容量大)数据存放在低级存储设备中,并且访问频度小于阀值,低级存储设备,将数据迁移到高级存储设备,否则不迁移数据。

3.2.2 高低水位法

设定存储设备总容量高低水位法的基本思想是采用最高百分比和最低百分比,将数据向低级存储设备迁移,迁移数据的选择根据是从上一次迁移开始将这两个百分比称之为存储高水位和低水位。当高级存储设备中的数据最达到高水位时,直到数据量达到低水位时停止。由低到高依次迁移到低级存储设备。由于数据量快速增长,当前的访问频度统计值,高低水位法强调解决,导致高级存储设备容量不足问题的算法。

分级存储系统中,根据数据的不同重要性、数据的访问频率、存储成本等因素,分别存储在相应的设备上,由信息生命周期理论可知,数据信息在不同地域、不同时间、不同应用环境中其价值也不相同,因此,不同情况下同一类数据要在存储系统的不同等级存储设备之间流动;典型的数据迁移算法主要有三种[4]:基于存储空间的高低水位法,基于数据访问频率的Cache替换法和信息生命周期管理(ILM)中的价值评估法。

3.3 针对云存储系统中数据的“局部性”特征,我们可以进一步探求冷热数据的分离机制,建立更科学、合理的存储策略

3.3.1 建立热度统计和分析模型

在存储系统中,热点数据被分为两在类:永久性热(Permanent Hotspor)和阶段性热(Stage Hotspot)。其中阶段性热点还可以继续分成两小类:周期性热点(Cyclical Hotspot)和突发性热点(Sudden Hotspot)。如果某个数据一直都被频繁地访问,则称为“永久性热点”,如图1(a)所示。周期性热点是一个数据对像周期性地被频繁访问,如图1(b)所示。如果一个数据对象从默默无闻突然变成数据访问的焦点,则将其称为“突发性热点” 如图1(c)所示。

热度统计和分析模型需要根据数据的访问频率、数据大小、创建时间、热点访问、重要性等参考信息进行设计,对于热点数据需要建立一套识别和评价方法,在构建分析模型时应区分永久性热点、周期性热点和突发性热点等问题

3.3.2 建立基于伸展树的冷热数据分离模型

伸展树(splay tree)是一种能够根据访问请求变化动态调整其自身结构的二叉搜索树(BST)。采用伸展树(splay tree)方式对元数据进行有效的索引组织,伸展树是能够根据访问请求变化动态调整其自身结构的二叉搜索树。对于提升热点数据节点的访问性能,伸展树是一种很理想的数据结构。最近最多被访问的节点一直位于根节点的附近,从而将缩短再次被访问时的搜索路径长度。通过伸展树的这一特性,可以使用伸展树实现冷热数据的分离。

3.3.3 建立基于冷热数据震荡缓冲层的冗余策略变更模型

在对索引缓存进行自适应调整实现冷热数据的调整之后,需要对元数据索引指向的数据进行冗余策略变更操作,采用某种冷热度数判定方法(固定阀值法或高低水位法),当系统出现突发性热点事件时,在临界点将产生冷热震荡的数据,其冗余方式的变更将出现“摇摆”现象,频繁的冗余策略变更会极大的消耗系统资源。

此时我们应当考虑通过设置冷热震荡缓冲层,采用延迟变更冗余策略的方式来防止该现象的产生,在基于冷热数据震荡缓冲层的模型中有两个关键问题也需要解决,一个是冷数据、热数据以及缓冲带数据的比例,另一个是冗余策略变更时间点的选择。

4 结束语

大量研究已对副本和纠删码冗余策略在分布式系统中的应用做了对比分析,指出了副本和纠删码在存储系统可靠性和可用性方面的特點。本文采用原型系统Swift所提供的副本和纠删码两种冗余策略方式,因此只需对数据的访问热度进行统计分析,建立冷热数据分离模型和冗余策略模型,如若采取理论与实验相结合的方法,即可验证理论的可行性,从而实现对云存储数据中心存储系统管理的优化。

参考文献:

[1] AJoseph.O.Sullivan.and L.Xu. coding for High-Density Storage System.Technical report.Network and Information System lab.Washington University Saint Louis.Feb,2004.

[3] 昌帅,高光明,徐凯,等.海量信息分级存储数据迁移策略研究[J].计算机工程与科学,2009,31(A01):163-167

[4] 王艳云,边根庆,王瑞龙.数据迁移算法研究[J].电脑知识与技术(学术交流),2012,8(5):2968-2970.

[通联编辑:光文玲]

猜你喜欢
副本
一种基于3 阶段实现的高性能云存储计算*
使用卷影副本保护数据
面向流媒体基于蚁群的副本选择算法①
一种基于可用性的动态云数据副本管理机制
副本放置中的更新策略及算法*
云存储中基于竞标模式的副本管理策略
云存储环境下基于QoS的动态副本策略研究
用户兴趣感知的内容副本优化放置算法
备份技术研究
网格环境下副本技术的研究与实现