郑小燕
摘 要 分布式文件系统在海量数据存储领域已经有了广泛的应用,目前大多分布式系统使用的是文件数据及元数据解耦架构。其中元数据管理对于文件系统的性能有着直接的影响。本文对此主要探究分布式文件系统中元数据的管理策略,基于几种经典的管理策略,分析其优势和不足,并在此基础上提出了一种基于标签的管理策略。
【关键词】分布式文件系统 元数据 管理策略
在经济发展的今天,各个行业的数据规模也越来越大,各行各业也有更多的重要文件以及重要数据要保存。这对于分布式文件系统来说,是一个大的挑战。元数据管理作为系统中最为重要的一个部分,对于系统的整个性能的影响也是极大的。目前来讲,现有的元数据管理是受传统元数据分割技术限制的,还无法有效解决当前的问题。基于标签的元数据管理策略正是才这样的情况下提出,这种新的策略中,签是元数据的分割粒度,这种分割粒度对于元数据的处理有很大的影响,比如负载均衡、并发控制及系统可扩展性等等。正是因为这种基于标签的元数据管理策略有一定的优势和有效性,因此值得在分布式文件系统中推广应用。
1 分布式文件系统
分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。判断此系统是否优秀由三个因素决定。
1.1 存储方式
比如,在2000万个数据文件当中,能够在一个节点存储全部的数据文件,在其他的n个节点上的每一个节点能够2000/N万个数据文件作为备份,不管是哪一种存储方式,都是以保障数据的安全性和便捷获取性为主。
1.2 读取的速率
也就是用户读取数据文件时的响应速度,定位文件节点以及读取数据时间和节点数据传输等等。这些都直接影响了用户对系统的体验。
1.3 安全性
因为数据分散在系统中的各个节点,因此,要通过冗余、备份等方法来确保节点如果出现了故障,这种情况下也可以恢复数据,保障数据的安全。
2 元数据管理策略
无分割策略:用户请求元数据的时候,会将请求发送到有命名空间的MDS上,MDS根据文件路径的名称遍历目录的层次,然后验证文件的权限。在获得许可的情况下,MDS把请求的元数据返回用户。这种策略的优势在于:命名的空间同元数据都是保存在一个计算机上,因此有完全的存储局部性;缓存利用率和命中率高,能够减少了硬盘 I/O 次数;修改父目录的名称或者权限等属性时对包含的文件不会有影响。不足:无分割,粒度太粗;因为元数据的访问需要遍历目录的层次,因此,所花费的代价更高;不能增加服务器进行扩展。
静态哈希策略:这种策略有两种元数据,一个是目录元数据,一个是文件元数据。静态哈希策略主要是通过计算机中的文件名称、路径等标志中的hash值把元数据分布到不同MDS中去。这种策略的优势有:工作负载均衡;速度快;并发度高;网络负载花费低。不足:因为权限的认证要遍历目录层次,因此,花费的代价较高;迁移代价太大,不易扩展;不易维护元数据的一致性。
基于目录路径的元数据管理策略:除以上两种经典的策略外,还有其他的策略这里就不一一介绍。在这些策略基础上进行改善且加入了新的技术的策略这里介绍下这种基于目录路径的管理策略。这种管理策略中的目录路径的属性同目录对象是相分离的。因而,能避免因修改目录属性时对目录中的子目录或者文件产生的影响,另外,在系统中设立了单路的目录路径索引服务器。可以根据用户的请求文件路径来找对应的父目录属性,最终根据父目录定位目标MDS。这种管理策略有静态哈希策略的优势,但也难以摆脱部分不足,存在一定的局限性。
基于标签的新的管理策略:这种策略是基于经典以及一些改善策略基础上提出的策略。不同元数据分割粒度对于系统的性能的影响是不同的。比如,缓存利用率、并发度以及可扩展性等等。从以上几种经典管理策略以及经过改善的管理策略分析来看,将目录作为元数据分割粒度会出现系统性能问题。但,如果把分割粒度减少程文件的时候,能够解决部分因粗粒度导致的问题,不过也有挑战。因而,要提供系统的性能,就应该在目录粒度和文件粒度之间做好权衡,以介于这两者之间的粒度来处理。对此,可以通过对目录分割来使没一个目录子集包含部分文件,这些子集就称之为标签。分割粒度为标签的时候,因为每个标签只包含了目录中的部分文件,规模一般为数万个,标签的元数据以及包含的文件元数据就只要占几百个kb的空间。相比较子数分割粒度来讲,在缓存当中就可以存储更多的标签元数据。但是比较文件分割粒度来说,就可以降低元数据的前綴。这样,就可以在一定程度上就能够提高缓存的利用率和命中率,减少硬盘的I/O次数,最终提升系统的性能。另外,MDS机群如果需要动态均衡负载的时候,需要迁移标签元数据,因为元数据的规模小,因此,网络负载就不会太重;而且,分割目录为标签的时候,锁的粒度也会减小,系统的并发度就会得到提升。
3 结语
从以上提出几种元数据管理策略分析来看,不同的管理策略有优势也有不足,没有绝对的好坏。因此,在选择的时候要具体问题具体分析,完善不足,提升分布式文件系统的扩展性、高性能等特点。基于标签的新的管理策略只是相对于其他经典的管理策略来说有一定的优势,但选型时也要依据具体的情况来选择。
参考文献
[1]程付超,苗放,陈垦.自适应的分布式文件系统元数据管理模型[J].计算机工程与设计,2014,35(03):867-874.
[2]解晓伟.分布式文件系统元数据扩展管理研究与实现[D].北京邮电大学,2014.
[3]冯幼乐.分布式文件系统元数据管理技术研究与实现[D].中国科学技术大学,2010.
[4]肖培棕.分布式文件系统元数据负载均衡技术研究与实现[D].中国科学技术大学,2009.
作者单位
江西省质量技术监督信息中心 江西省南昌市 330029