Hadoop平台的分布式重删存储系统研究

2019-10-21 05:11荆东星
科技风 2019年20期
关键词:存储系统

荆东星

摘 要:在本篇文章当中,我们针对数据中心存在大量的数据冗余的问题进行了简单的探讨,并且对于备份数据造成的存储容量浪费现象,提出了一种基于Hadoop平台的分布式重复数据删除解决方案。

关键词:Hadoop;分布式重删;存储系统

一、我们对于重复数据删除技术进行研究和探讨分析

我们可以从图1当中了解到,对于删除重复数据技术来讲,它内在的主要思想是:可以将存入到内部的数据进行分割成块,接着对于这一类的数据进行判断是否进行存储。如果没有进行存储的话,那么便需要使用到存储块的指针来进行存储。因此在本篇文章当中,我们主要是对基于数据块的重复数据删除技术进行简单的探讨和分析。

二、相关工作探讨

对于分布式删除技术,主要是指分布式集群存储系统中的删除操作。在当前的分布式重删数据主要面对着效率,磁盘大小,可靠性以及扩展性等方面的问题,因此相关的工作人员就考虑到使用Hadoop平台来进行操作。对于Hadoop平台来讲,它有着高效率,低成本,高容错等优点,能够将自动并行化,负载均衡等多项复杂的操作变为简化,大大的减轻了程序员的工作内容。

三、基于Hadoop平台的分布式重删存储系统

在基于Hadoop平台的重删研究当中,我们需要使用到MapReduce的方式来进行重删并行化,但是重删的速度仍然需要有效的提高。虽然分布式重删可以在很大的程度上提升重删速度,但是在每一个节点当中仍然保留了一部分的指纹值,从而会在一定的程度上影响到数据的重删率。本文实现了一个基于Hadoop分布式平台的可扩展分布式删除集群,固定块用于离线和精确地存储备份数据,可以备份和使用某些大型文件。相应的也提高了重删的速度。我们主要是按照KB级的大小分块来进行数据块级的重删。系统体系如图2所示。

(一)并行化重删分析

为了能够很好的提高重删速度,我们对MapReduce这一个机制进行了大力的改进,并且减少了Reduce的流程,仅仅是通过Map函数并能够实现相应的一些功能和操作。大致的说来,对于系统当中存在的MAP函数,这一个函数主要是对数据进行读取和预处理操作的。而对于REDUCE函数来讲,它主要是进行负责合并MAP中间产生的数据。因此对于REDUCE函数来讲,它不能实现分组以及排序等操作。进行处理。并且能够在一定的程度上有效的避免Shuffle以及Sort这两个阶段的处理延时,因此在本篇文章当中忽略了Reduce这一个操作,我们只需要通过MAP函数便可以实现重删等操作,并且还可以提高重删的速度。

(二)可扩展性

在集群当中可扩展是内部的一个重点关键,因此,如何在扩展簇大小的同时有效地实现重复数据删除的性能和容量,这也是我们在设计集群时需要注意的问题,对于系统当中的地层来讲,它是基于HADOOP平台来进行操作的,其内部当中的索引表会保存在数据当中,那么当我们在进行删除操作以及查询操作的时候便有着很好的扩展性能。

当我们需要扩展集群的大小时,我们可以通过在元数据服务器节点的配置文件中注册来在线添加和删除存储节点,接着我们还需要操作系统来完成数据平衡操作,当系统在对数据进行处理的过程中,系统出现了负载的情况发生,我们能够加入MAPPER节点来让系统内部的处理性能有所提高,另外,对于增加重删存储节点还可以在一定的程度上扩展存储容量。

(三)重删操作之后如何进行快速恢复

为了快速恢复已删除 的文件,我们添加了元数据表来存储文件数据的信息。对于系统来讲,其内部的操作只需要对元数据表进行简单的维护和保存便可,我们在进行保存的过程中,可以发现在该表当中我们可以将文件保存为记录。对于数据表来讲内部有着两个方面,第一个方面,主要是要用对文件的绝对路径进行记录,另一个方面是用于对文件的数据信息进行记录,并且在记录的过程当中需要对文件的大小以及块偏移值信息进行有效的保存。我们可以从图3当中看出元数据表和索引表的关系。

当对于删除过后还需要进行恢复的文件来讲,那么我们便需要按照文件的路径来进行搜索,接着搜索到文件的原始数据信息便可。然后我们可以浏览存储在文件元数据中的块信息,这样我们就可以获得块指纹值。然后我们可以通过块指纹值找到索引表,这样我们就可以得到数据块的具体存储位置。经过几次后,我们可以获得原始文件了。

四、结语

总体的说来,我们为了能够更好的让系统的可用性变得十分稳定,应当在日后的操作当中,采用纠删编码技术来对需要进行备份的文件进行备份等相关操作。通过对存储的单一副本数据进行编码,从而有效的提高系统的可靠性。

参考文献:

[1]王奏鸣.分布式重复数据删除系统中路由方法的研究[D].重庆大学,2017.

[2]刘青,付印金,倪桂强,梅建民.基于Hadoop平台的分布式重删存儲系统[J].计算机应用,2016,36(02):330-335.

[3]王建辉,石宇良.支持文件重删的HDFS分布式备份系统研究[J].电子设计工程,2014,22(04):19-22.

猜你喜欢
存储系统
天河超算存储系统在美创佳绩
面向4K/8K的到来 存储该怎么办?
利用存储系统恢复服务器系统