马伯元 甄 义 张 诣
(石家庄铁路职业技术学院 河北石家庄 050041)
基于云存储的元数据管理关键技术研究
马伯元 甄 义 张 诣
(石家庄铁路职业技术学院 河北石家庄 050041)
云存储已经得到越来越广泛的应用,而它的构建离不开分布式文件系统的支持。本文借鉴当前主流分布式文件系统的设计理念,提出了一种适合云存储环境的元数据管理方案;利用基于保留值的缓存替换算法能提高缓存命中率从而使云存储中元数据管理的效率明显提高;最后设计云网盘系统。
云存储 元数据管理 元数据缓存替换
云计算是通过在计算机网络上的资源共享来形成一个连贯的、规模经济的实际应用,能够实现计算机网络所联系的计算资源的统一分配和共同利用。云计算在发展中便延展出一个新的概念——云存储[1],云存储最大的特点就是规模十分庞大,它需要强大的分布式文件系统作为底层支撑,并将集群应用技术、网格技术结合起来。云存储把大量类型不同的存储节点集合起来,通过应用软件让它们协同起来工作,对外提供数据存储的能力,共同处理业务访问请求。从本质上来说,云存储就是一个特殊的云计算系统,只不过它把数据存储和管理作为系统的核心。
云存储与普通存储系统相比,有很多明显的优势[2,3]。首先,由于云存储中有大量的存储节点构成集群共同提供存储能力,所以它可以存储超大规模的数据量,这是普通存储系统所望尘莫及的。第二,云存储管理起来十分方便,因为云存储的容量可以随需求的改变而随意伸缩,理论上讲,甚至能进行无限扩展。第三,虚拟化。用户不需要知道云存储内部的结构,就可以对云存储进行便捷的访问,所以云存储系统对用户是透明的。第四,高可靠性。云存储中的数据都存有副本,并且具有很好的容错能力,系统如果出现故障,也能讯速的自动恢复,这就使云存储中的数据比本地存储具备了很高的可靠性。第五,量身订制的解决方案,云存储产品除了提供用户海量存储能力,还能满足企业针对自身系统的各种不同需求。
由于元数据在文件系统中是最主要的访问对象,所以必须研究更有效的机制,以保证系统的元数据服务具有高可用性。本文主要研究了云存储中元数据管理的关键问题,包括元数据的分布和元数据缓存策略。
2.1 文件系统中的数据与元数据
存储在磁盘中的文件系统可分为两个部分:一部分是数据,另一部分是元数据。前者就是文件内容本身,后者其实是描述该文件的一些属性信息。元数据就是“关于数据的数据”,它是关于数据或信息资源的一种结构化数据,是对数据或信息资源的结构化的描述。
在传统的文件系统中,元数据和数据都被存放于同一个设备,均由同一个文件系统进行管理,而且它们在物理上的分布位置也采用就近原则[4-6]。在云存储系统中,元数据很容易成为访问文件系统的性能瓶颈,为了避免这种情况,提高数据访问效率,云存储中大多采用了将文件数据与其元数据解耦的方式。分别存储在不同的节点上进行管理,这就把文件数据传输通道和元数据传输通道分离开来。
2.2 云存储中元数据管理特性
1.3.1 学生评价 发放调查问卷,问卷内容包括4项,每项分为5个等级,对应相应评分(见表1),由学习兴趣、自主学习能力、临床思维能力、理论知识的运用方面组成。
云存储系统中,元数据管理的重要性主要有以下两点:
第一,元数据是最重要并且最经常被访问的系统数据。客户端在读写云存储系统中的文件时,首先要查询是否有对该文件的读写权限,还要访问一些文件相关属性信息,而这些信息包含在元数据中,所以必须先访问元数据后,才能访问文件数据。如果不能正确的定位元数据,就无法保证文件数据的正常访问。所以系统中元数据的可靠性和正确性必须得到保证。
第二,元数据的访问性能与整个云存储系统的性能息息相关,在云存储系统中,元数据常常被频繁访问,而元数据本身往往非常小,当客户大量访问云存储中的小文件时,就会造成系统性能瓶颈。
2.3 云存储中元数据管理的目标
本文的研究目标是设计和实现两个适用于云存储中分布式元数据管理的策略,保证系统不但能够实现对海量文件元数据的存储和高并发的访问请求处理,而且可以保证每个用户的处理时间在用户可接受的范围内。总的来说,主要设计目标是提供大数据量、高扩展性、高访问效率、一定程度可靠性支持的分布式元数据管理服务。具体的实际目标包括:
(1)系统能够支持海量元数据的存储。
(2)系统有较好的元数据访问性能。
(3)元数据集群易于扩展,能较好的平衡系统性能和扩展带来的消耗。
现有的分布式文件系统在元数据的分布管理上均存在一些不足:首先是基于表的映射法,该方法需要在表的划分粒度和查找性能之间寻求一个平衡,其次是目录子树划分法,它有静态和动态两种机制,静态子树划分虽然能很好的保证目录本地性,但却不能保证负载均衡,也无法保证元数据能均匀的分布到 MDS 集群中。
本文定义的元数据格式如表1所示。
表1 元数据格式
根据元数据格式设计了基于伪随机序列的元数据分布算法:
(1)选择元数据的 PDID 生成一个固定的全局唯一哈希码;
(2)n,则需要获取 0-n 之间的随机序列。
(3)需要分布的元数据则沿着这个随机序列寻找它自己的分布位置。
(4)从性能方面考虑,对于(2)中获取随机数时,序列中的随机数可以一个一个进行获取,然后判定是否在线,而不必一次性全部获取。
元数据的定位方法是将映射表与伪随机序列分布法相结合,在元数据管理系统中需要部署元数据管理服务器,建立一个的映射表。
该策略主要有两个优势,首先它能在系统访问负载相对平均的时候,保证 MDS 集群的负载均衡,当修改目录属性信息时,也能保证 MDS 不需要对元数据进行迁移;其次,由于本策略根据每个文件的PDID来计算随机数,那么元数据分布的粒度被划分成目录级别,这样便可保证相同目录之下的文件元数据可以被分布在相同的 MDS 上,从而实现了目录的存储本地性。
元数据缓存的容量是有限的,当元数据缓存已满,如果需要继续装入某条元数据,则需要调出某个元数据缓存项,在定义了元数据缓存保留值的基础上,依据元数据缓存保留值调出阈值[9],设计如下基于保留值的元数据缓存替换策略,具体流程如下:
(1)在元数据调入缓存时,计算其保留值以判断是新创建的元数据还是从磁盘中读入的元数据。
(2)在云存储运行设定时间之后,对保留值进行更新,并以 保留值的大小对缓存中所有的缓存对象进行排序。
(3)当需要调入新的缓存而缓存的容量不足时,则找出缓存中保留值小于阈值并且从磁盘读入的元数据的缓存项,从中选择最小的一项替换出去,然后根据缓存写回策略将其写回到磁盘。
(4)若当缓存需要替换时,缓存中没有保留值小于阈值的缓存项,则找出缓存中所有从磁盘读入的元数据的缓存项,并从中选择保留值最小的一项替换出去,然后根据缓存写回策略将其写回到磁盘。
(5)若当需要缓存替换时,既没有保留值小于阈值也没有从磁盘读入的元数据的缓存项,则将缓存中保留值最小的一项替换出去,然后根据缓存写回策略将其写回到磁盘。
云网盘系统的总体功能即是围绕存储展开,提供对数据的上传下载删除重命名等基本功能。云存储中,数据本身与元数据分开放置,因此需要提供相应的元数据服务。同时,云存储应当考虑到安全问题,因此需要访问控制子系统来保障。另外,整个系统需要提供相应的运维系统,以监视系统运行状况并做相应的管理操作。系统总体结构如图1所示,软件的总体功能为:
(1)存储服务引擎:功能调度、负责对数据的存取操作,缓存元数据;
(2)元数据子系统:元数据存储,元数据读写等基本操作,元数据管理;
图1 系统总体结构图
(3)访问控制子系统:账户管理、账户认证、账户授权;
(4)运维:配置管理、系统监控、预警管理、拓扑结构、权限管理。
元数据管理系统在分布式文件系统中有着非常重要的作用,其采用的元数管理策略的好坏直接影响到整个文件系统的性能。本文在研究了众多分布式文件系统的基础上,提出了一种适用于云存储的分布式元数据管理系统。 通过研究现有的主流元数据分布算法,提出一种伪随机序列分布算法,该算法不仅能将元数据均匀地分布式到元数据存储集群中,达到一定负载均衡的目的,也能较好的适应系统的动态扩展,其计算性能也显著高于目前比较常用的一致性哈希算法。在元数据管理中引入了缓存技术,提出了一种适应云存储的元数据缓存替换策略,而且能适应不同类型的负载情况,满足云存储对各类应用的需求,从而提高了云存储中元数据的管理效率和适应能力。 最后融合上述研究设计了云网盘系统。
[1]王鹤群.云存储应用[J].记录媒体技术,2008, 11(5):60-64
[2]李冰.云计算环境下动态资源管理关键技术研究[D].北京:北京邮电大学,2012.
[3]吴伟.海量存储系统元数据管理的研究[D].武汉:华中科技大学5.
[4]K Shvachko, H Kuang, S Radia, et al. The hadoop distributed file system[C]. Mass Storage Systems and Technologies, 2010 IEEE 26th Symposium on. IEEE, Incline Village, 2010, 1-10.
[5]Y.Zhu, H.Jiang, J.Wang, et al. HBA: Distributed Metadata Management for Large Cluster-Based Storage Systems[J].IEEE Transaction on Parallel and Distributed Systems, 19(6), June 2008: 750-763.
[6]Giuseppe DeCandia, Deniz Hastorun, et al. Dynamo: Amazon's highly available key-valuestore[C]. Proceedings of the 21st ACM SIG0PS symposium on Operating systems principles. Stevenson, Washington, 2007, 205-220.
[7]Jin Xiong, Yiming Hu, Guojie Li,et al. Metadata Distribution and Consistency Techniques for Large-Scale Cluster File Systems[J]. IEEE Transactions on Parallel and Distributed Systems, 2011, 22(5):803-816.
[8]Yu Hua, Hong Jiang, Yifeng Zhu, et al. Semantic-Aware Metadata Organization Paradigm in Next-Generation File Systems[J]. IEEE Transactions on Parallel and Distributed Systems, 2012, 23(2):337-344.
[9]王超宇.缓存替换策略研究[D].哈尔滨:哈尔滨工程大学,2012.
On Evaluation Quality Model of Order-Oriented Information Training in Higher Vocational Colleges
MA Bo-yuan ZHEN Yi ZHANG Yi
(Shijizhuang Institute of Railway Technology Shijizhuang Hebei 050041 China)
With the rapid growth in the application of cloud storage systems, it can’t be set up without the support of dispersed file system. In this paper, a feasible cloud storage metadata management solution referred to the existing mainstream distributed file system is proposed. The new cache replacement policies are used to enhance the cache hit rate. Therefore, it effectively improves the efficiency of cloud storage metadata management. At last, the cloud network disk system is designed.
cloud storage metadata management metadata cache replacement
A
1673-1816(2016)04-0062-05
2016-03-12
马伯元(1978-),男,河北保定人,汉,硕士,副教授,研究方向计算机应用。
河北省教育厅自然科学项目(QN2015125);河北省教育厅重点科学项目(ZD2016057);河北省教育厅人文项目(SZ16105);科技厅项目(15210328);河北省社会科学基金项目(HB15JY016)