多层次级别确保数据的高可靠性

2014-04-29 07:57王小妮
中国管理信息化 2014年15期
关键词:存储高可靠性多层次

王小妮

[摘 要] 当今社会数据的存储备份已经变得越来越重要。数据量的爆炸性增长、数据对支撑核心业务的重要性以及大数据的潜在商业价值都值得用户在保护数据方面持续地大力投入。针对数据的可靠性,分析了多层次级别确保数据可靠性的方法,并通过数据进行了可靠性分析。随着备份技术的发展、各类存储设备以及新型数据安全技术的进步,该领域正在走向一个新的高度。

[关键词] 数据;存储;备份;高可靠性;多层次

[中图分类号] C931;TP391.1 [文献标识码] A [文章编号] 1673 - 0194(2014)15- 0104- 03

1 引 言

我们生活在一个数据信息的时代,随着技术的发展、信息的海量增长以及相关法规的出台,数据备份并没有变得简单,相反却是越来越复杂了。2013年IDC数据显示,2010年全球数字信息总量将达到1.2 ZB(1ZB = 1021GB),2012年达到2.8ZB。IDC预计到2020年,全球数字信息总量将达到40ZB。全球数据的海量增长已经达到当前的存储极限。当前,全球数据存储每年以60%的速度递增。如此巨大的数据量,当然需要妥善保存,有些数据也许目前的价值并不很大,而谁又能保证将来某天它不能发挥巨大作用呢?备份是各项存储工作的基础,如果这个基础没有打好,那么其他各类高级的存储应用都无从谈起。随着更多备份软件厂商在中国业务的日益壮大,中国备份用户的选择也变得越来越多。加上数据盗窃、系统入侵以及一系列技术或业务上问题的涌现,用户面临的困惑越来越多。

2 数据备份概述

2.1 备份重要性

备份是存储领域最根本的基础。Gartner曾经将整个存储领域划分为数据管理与数据保护两部分,其中数据管理的部分涉及各类在线磁盘存储,而数据保护则包括备份与归档(存储介质以磁带为主),由于归档所占比例较低,因此一提到数据保护大家首先想到的就是备份。随着信息社会的不断发展,数据丢失的风险也在发生变化,IDC的统计数据表明,数据丢失的主要风险存在于如下几个方面:人为错误(38%)、硬件损坏(20%)、突然断电与电流波动(12%)和病毒攻击(10%),这几项之和占到了所有数据丢失风险的80%。这些数字让我们可以轻松反驳下面几个错误观点。

(1)服务器存储容量越来越大,没有必要进行备份了。服务器的主要功能是进行事务处理,数据存放得越多,数据丢失的风险越大。

(2)集群等于备份。同样,集群解决的仍然是事务处理的问题,另外,如果一台服务器受到病毒攻击,一般会遍及所有服务器。

(3)拷贝、复制等于备份。当数据从服务器中转移到专业的存储设备中后,为了提高可用性以及灾难恢复的及时性,一般会进行基于磁盘系统的拷贝复制,由于价格昂贵,一般只保存经常应用的数据,大规模的数据保护任务则很难承担。

(4)VTL(Virtual Tape Library,虚拟磁带库)可以取代传统磁带库。VTL仍然是基于磁盘的解决方案,上述的几项风险它都无法避免。此外,为了保持数据的真实性,某些重要的行业都规定,像重复数据删除这样的“电子合成”的数据都是不允许的。VTL在某些情况下发挥了很好的作用,但是显然无法取代传统的磁带库。

2.2 备份服务价值

在存储的各个细分领域,有的竞争力体现在产品本身,有的竞争力体现在解决方案的整体性,而有的竞争力则靠服务来体现。存储是涉及多方面技能的专业领域,因此用户在长期维护使用过程中需要及时、高效的服务保障[1]。因此,备份领域的服务,成为一个价值增加点,提供良好的备份服务,成为各厂家纷纷努力的一个方向。

总体上讲,备份领域的服务大体分为3类:设备级别服务、数据级别服务和高级数据服务。

(1)设备级别的服务是最基本的一项,所有的产品在销售时都会承诺几年的质保期。存储设备与其他IT设备一个重要的不同在于,用户宝贵的数据都要存放在上面,如果设备发生故障,用户不仅担心设备是否可以恢复,更担心数据是否会丢失,所以存储用户对于质量保证十分关注。

(2)数据级别服务在美国已经比较普遍,服务提供商拥有更稳固、更安全的磁带存放场所,定期从用户那里搜集磁带,当用户需要使用所备份的数据时,把磁带运送到用户指定地点。这种服务对于备份策略长时间保持固定的用户来说相当方便,不仅可以节约一部分开销,更是省去了维护磁带的诸多烦恼。

(3)采用高级备份服务,用户不需要拥有任何备份基础设施,只需通过互联网或专用网将数据传输给服务提供商。这是为了向中小型企业以及远程部门和企业分部带来更高的效率和成本效益,提供一周7天一天24小时全年无休的数据备份服务,以及专业技术支持团队的帮助。

3 存储备份软件功能

存储软件可以分为独立软件和捆绑软件(与存储硬件密不可分的存储应用软件),而独立软件有两大部分:一部分是备份软件,另一部分是和捆绑软件类似的管理软件。

3.1 存储信息搜索功能

当我们存储的信息越来越多的时候,对迅速查找到目标信息的需求就变得越来越迫切。当我们查找数据信息时,经常会用一些搜索工具来帮助我们。像Google、百度这样的搜索引擎已经可以在浩瀚的互联网中查找到大量相关信息。那么有没有一种工具帮助用户查找已经存储的数据信息?答案是肯定的,事实上,早在美国加强了法规遵从方面的约束之后,各类存储管理厂商就盯住了这个新的存储领域增长点——电子发现(e-discovery)。数据分类技术通常被认为是实现电子发现功能的基础。少数几家初创公司推出了分类非结构数据的软件,可以管理不同存储层的数据。一类分类方式是根据文件的元数据将数据分配到不同的存储层,这些元数据信息包括系统搜集的文件的年限、大小、所有人以及最后访问的日期等[2]。更复杂的数据分类工具通常是根据文件的内容来实现更智能的管理。下面是不同厂商增加的搜索功能:

(1)在备份与归档领域,对电子发现的需求似乎更大。尤其新的法规要求公司管理层必须在审理前以及上诉阶段就提交电子文档,否则将面临严重的惩罚。因此许多备份与归档软件都纷纷加强了在电子发现与法规遵从方面的功能,使律师和调查法规遵从的官员在不必具使用过多IT应用的情况下,就能够更容易地对电子文档进行搜索。

(2)增加的Outlook扩展程序(Add-In)功能,这将帮助用户通过Outlook界面进行搜索,其搜索的对象可以是保存在磁盘、磁带或其他存储介质上的邮件或附件。

(3)基于语言(language-based)的搜索技术,该技术类似于语音识别系统,可识别特定的,如人力资源、法律条文和类似法规遵从领域内的短语,进而来发现适合的邮件。

3.2 存储备份安全功能

是否做好了存储备份就能够确保数据安全呢?不一定,还有一些细节需要用户格外注意。现在与几年前相比,用户在确保数据安全方面的意识已经得到了长足的进步,因此才导致了目前存储市场的空前繁荣。然而,需要用户额外注意的是,在做好了基本的数据管理和数据保护工作之外,在确保数据安全方面还有一些细节经常被大家忽略。

我们首先从数据安全的3个基本要素谈起,即确保数据不丢失、不泄露以及不被篡改。为了确保数据的不丢失,用户做了许多备份的工作;为了确保数据不被篡改,用户采用光盘进行备份,随着技术的发展,磁带产品中增加了WORM(写一次,读多次)功能,也确保了数据在生命周期内的一致性。然而当我们谈论数据不被泄露的问题时,却很难立刻得到稳妥的答案。如果希望彻底清除硬盘中存放的数据,普通的删除、格式化等手段都无法达到目的,专业人士仍然可以将数据恢复回来,而只有在专业技术人员通过超过10次的特殊格式化后,才能够确保数据的彻底消失[3]。当然,采用磁带进行数据保护时也会遇到类似的问题,比如,过期作废的磁带经常会被用户随意处理,其中的数据很容易被恢复出来。加密是最近出现的确保数据不泄露的新方法,经过加密后的磁带,即使意外落入他人之手,在没有解密方案的情况下几乎无法得到任何数据[4]。

以下是目前市面上比较流行的其中几种加密方法:

3.2.1 嵌入式加密设备

嵌入式加密设备放在存储区域网(SAN)中,介于存储设备和请求加密数据的服务器之间。这种设备可以对通过上述这些设备、网络传送到存储设备的数据进行加密,可以保护静态数据,然后对返回到应用的数据进行解密。

嵌入式加密设备很容易安装成点对点解决方案,但扩展起来难度大,或者成本高。如果部署在端口数量多的企业环境,或者多个站点需要加以保护,就会出现问题。这种情况下,跨分布式存储环境安装成批硬件设备所需的成本会高得惊人。此外,每个设备必须单独或者分成小批进行配置及管理,这给管理增加了沉重负担。

3.2.2 数据库级加密

当数据存储在数据库里面时,数据库级加密就能实现对数据字段进行加密。这种部署机制又叫列级加密,因为它是在数据库表中的列这一级来进行加密的。对于敏感数据全部放在数据库中一列或者可能两列的公司而言,数据库级加密比较经济。不过,因为加密和解密一般由软件而不是硬件来执行,所以这个过程会导致整个系统的性能出现让人无法承受的下降。

3.2.3 文件级加密

文件级加密可以在主机上实现,也可以在网络附加存储(NAS)设备这一层以嵌入式实现。视具体实现而定,这种加密方法也会引起性能问题;在执行数据备份操作时,会带来某些局限性,对数据库进行备份时更是如此。特别是,文件级加密会导致密钥管理相当困难,从而添加了另外一层管理:需要根据文件级目录位置来识别相关密钥,并进行关联。如果使用某些类型的不使用文件级方法来备份数据的数据库备份应用软件,譬如Oracle RMAN,文件级加密还会带来难题。

3.2.4 设备级加密

设备级加密是一种新出现的方法,它涉及对存储设备(包括硬盘和磁带)上的静态数据进行加密。虽然设备级加密为用户和应用提供了很高的透明度,但提供的保护作用非常有限:数据在传输过程中没有经过加密。只有到达了存储设备,数据才进行加密,所以设备级加密只能防范有人窃取物理存储介质。另外,要是在异构环境使用这项技术,可能需要使用多个密钥管理应用软件,这就增加了密钥管理过程的复杂性,从而加大了数据恢复面临的风险。

3.3 RAID技术

RAID的采用为存储系统(或者服务器的内置存储)带来巨大利益,其中提高传输速率和提供容错功能是最大的优点。

(1)提高传输速率。RAID通过在多个硬盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput)。在RAID中,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。

(2)提供容错功能。普通磁盘驱动器无法提供容错功能,RAID容错是建立在每个磁盘驱动器的硬件容错功能之上,所以它提供更高的安全性。在很多RAID模式中都有较为完备的相互校验/恢复的措施,甚至是直接相互的镜像备份,从而大大提高了RAID系统的容错度,提高了系统的稳定冗余性。

多年来,RAID的定义有许多层,多数都只是昙花一现,转瞬即逝。其中最著名的定义包括:RAID 0、RAID 1、RAID 3、RAID 5、RAID 10。

4 多级别RAID可靠性分析

下面假设在采用RAID技术的硬盘数分别为2、6、12的情况下,并假设硬盘的利用率为100%,1年内使用的可靠性为95%,对RAID 0、RAID 5、RAID 10的可靠性分析如图1所示。

RAID 0采用条带方式,即以间隔分布的方式将数据分配到磁盘上,可提供更快的访问速度,但并不能为数据提供更好的保护。由图1可以看出,当硬盘数量增大时RAID 0的可靠性明显降低。所以RAID 0在性能满足的情况下,尽量采用较少的硬盘阵列。

RAID 5将数据和校验位都以间隔分布的方式存储在所有的磁盘上,从而取得更好的负荷平衡性能。该模式在提高数据读取速度的同时还可以有效地提高数据保护性能。根据图1,RAID 5在硬盘数量为2时和RAID 10的可靠性一样,但随着硬盘数量增大,其可靠性也开始下降。

RAID 10先做镜像(即写到某个磁盘的数据都会被复制到另一个磁盘中),再做条带,从而提供良好的容错能力。根据图1,RAID 10当硬盘数量为2时,可靠性为99.75%;当硬盘数量为6时,可靠性为99.25%;当硬盘数量为12时,可靠性为98.51%,故RAID 10的可靠性是最高的。

5 总 结

业界对高端存储始终没有一个明确的定义,但是把用户对存储产品的各种需求都提升为最高,则基本能够反映其产品特性:最高可用性、最高可靠性、最高性能以及最高端的存储应用功能等。可用性与可靠性应该成为高端磁盘阵列用户最关心的特性。高端存储系统承担的都是企业的关键应用,用户对数据的可靠性要求极高。冗余的端口以及冗余的数据传输路径可以消除单点故障,除了各种级别的RAID保护外,高端存储系统大都采用阵列内复制、快照等技术进行数据保护。此外,大多数的高端存储系统在使用中都采用双机热备的方式,两套系统实现实时镜像,更加保障了数据的安全性。

主要参考文献

[1]周开乐,丁帅,胡小建.面向海量数据应用的物联网信息服务系统研究综述[J].计算机应用研究, 2012(1).

[2]吴广君.海量结构化数据存储检索系统[J].计算机研究与发展,2012(z1).

[3]敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010(5).

[4]何明.物联网环境下云数据存储安全及隐私保护策略研究[J].计算机科学,2012(5).

猜你喜欢
存储高可靠性多层次
高可靠性火灾探测系统设计
基于VRRP和MSTP协议实现校园网高可靠性
市级气象园区网高可靠性与负载均衡设计
构建多层次外语实验教学体系的探索与实践
档案管理中电子文件的存储探究
条形码技术在涂装生产中的应用
多层次案例教学法在独立学院统计学教学中的实践
云计算与虚拟化
新能源材料与器件专业多层次实验教学模式的探索
箭上电源小子样高可靠性评估方法