于赛赛
【摘要】信息技术的高速发展推动人类社会全面进入数字时代,突出表现在信息总量和交换量的迅猛增长,不断出现新兴的应用领域。传输、处理和存储如此庞大的数据量使存储系统面临前所未有的机遇和挑战。本文在对当前的数据存储技术研究的基础上,介绍了基本存储设备和基本存储设施;讨论了存储技术存在的问题;分析了数据存储优化的途径。
【关键词】数据存储 存储设备 优化
由硬盘作为基本单元,通过各种总线、网络连接成不同层次和不同规模的存储系统,构成了我们目前的存储系统。由于存储成本的大幅下降,数据的收集不再存在固有的局限性,大量信息可以被廉价地捕获和记录。此外,数据也并不仅限于特定的用途,它可以为同一目的而被多次使用,也可用于其他目的,其价值从最基本的用途转变为未来的潜在用途。
一、数据存储技术概述
在计算机系统中存储系统具有层次性的结构,根据与处理器的距离可分为多个层次,每个层次的存储器在数据存取时间、数据传输带宽和容量上是不同的。如下图所示,第0层一般是指处理器的内部寄存器组、一级、二级和三级Cache;第1层是指主板上的随机存储器,习惯称为内存或主存储器。处理器可以通过指令直接访问随机存储器中的数据。一般而言,第2层以下统称为外部存储器。相对于内存储器,外存储器不能被处理器直接访问,必须通过I/O通道进行存取。但是外部存储器可以提供廉价的、大容量和非易失的数据存储能力。典型的外存储器就是硬盘(磁盘或固态硬盘)。目前流行的是以网络连接的方式挂载到本地计算机的存储方式,由于与硬件无关,它提供巨大的便捷性。
二、数据存储技术存在的问题
存储技术面临的主要问题可归纳为如下几个方面:
(1)大数据存储架构的挑战:磁盘读写性能差,与主存的速度差距正在逐渐增大,使得传统的主存一磁盘存储架构越来越无法适应大数据管理的要求。
(2)大数据管理算法的挑战:随着新型存储介质越来越多地被运用于大规模分布式存储中,大规模分布式数据库中传统的持久化策略、索引结构、查询执行、查询优化、恢复策略等均是基于磁盘存储设计的,新型存储介质具有完全不同于磁盘的物理特性,因此无法发挥新型存储的优势。
(3)大数据管理的能耗挑战:能耗在现有大型数据管理系统(通常是数据中心)中的费用比例逐年升高(目前大约占总能耗的16%左右),给企业带来了沉重的经济负担。
三、数据存储优化方法
数据存储系统的性能改善一般从三个方面入手:一是设备固有物理性能的提升,例如在预算允许的情况下使用固态硬盘;二是系统结构的设计和优化,包括系统逻辑结构和数据流动通路;三是针对特定应用程序,对I/O负载进行优化,提高特定存储模式下的存储性能。
一些常用提高存储系统性能的原则是:分析数据定义格式和数据访问规律,针对经常性行为进行系统设计优化;通过并发性访问提高系统吞吐量;使用缓冲和预取技术优化存储系统读取性能;使用冗余、校验的方式提高系统的可靠性。下面列举几种常用的优化方法:
(1)针对设备存取特征进行优化。根据存儲介质的物理特征,优化数据访问过程是提高单一设备性能的有效方法。例如一种在磁盘的磁道边界内定位,进行数据访问的技术,用来减小跨磁道的访问延迟。通过该方法可以将中等大小的数据(100-500KB)的访问性能提高50%。此外,对于磁盘驱动器,还可以根据外道的访问速率高于内道的特点,把热点数据组织到外道上,在一定程度上减小这些数据的响应延迟。
(2)数据布局的优化。对于一个特定系统,不同数据块的访问热度是不相同。如果能够根据数据的访问情况,并结合各个部件的存取特征,在各存储层次合理管理、组织数据就会有更好的整体性能。
在存储层次的纵方向上,将热点数据存放在靠近处理器的设备中。而在存储层次的横方向上,将热点数据存放在具有较高性能的设备中。合理的数据布局使得数据更接近处理设备从而提高系统的整体性能。
(3)I/O并发和负载平衡。I/O平衡是指把I/O请求均匀分布在多个存储设备中,从而避免由于某一存储设备负载过重而影响系统的整体性能的情况。在固态硬盘中,存储空间由多个闪存芯片组成,控制器尽量均匆地把数据分配到所有的闪存芯片上,通过闪存芯片的并发传输来提高系统的整体吞吐率。同时,考虑到闪存有限的擦除次数,尽量分散负载还能起到损耗平衡的作用。此外,RAIDO也是一种很好的I/O并发和平衡的实例。
(4)数据缓存和预取。在存储系统中,利用数据在空间的局域性和时间的局域性设计缓存机制,是一种常用的提高计算机系统性能的有效方法。利用不同存储设备在性能和容量之间的差异,使用上层高速存储设备作为下层低速存储设备的缓存媒介,达到提升系统性能的目的。同时,在存储系统的每一层也都大量使用了缓存技术。
(5)合并小数据的访问。访问无论大小,往往都需要对请求本身进行处理,对于磁盘存储系统而言,处理大I/O比处理小I/O能更好的发挥其吞吐率。这种思想在普文件系统调度中使用,如常用的电梯调度算法,调度程序把多个分离的合并成一个大的顺序。
事实上,还有其他很多方法可以提高存储系统的性能,而且这些方法往往是交叉在一起使用。
四、结语
随着闪存、PCM、SCM等新型存储介质的出现,未来数据存储体系中将以多介质混合存储为主流,这与目前RAM、磁盘、磁带共存的现象类似。在大数据应用中,将数据集中存储是不可行的,因为巨大的数据量将导致性能低下。因此,必须建立一种新的层次化的多介质存储体系,根据数据的不同特性以及不同存储介质的特性合理地分配数据存储位置,从而实现海量存储、高性能以及低能耗的设计目标。endprint