自动分层存储技术的应用与分析

2014-07-28 18:36毛乐琦
电脑知识与技术 2014年17期

毛乐琦

摘要:自动分层存储技术是根据数据访问频率的高低和重要性,将数据划分为冷、热数据,并动态地把不同数据存储于不同性能的存储设备中,以此降低成本和简化存储管理,提高系统性能。对该技术进行比较和分析,对未来的发展进行论述。

关键词:自动分层存储;访问频率;数据迁移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)17-3976-02

Application and Analysis of Automatic Hierarchical Storage Technology

MAO Le-qi

(Leshan Vocational and Technical College, Leshan 614000,China)

Abstract: Automatic hierarchical storage technology is based on the height and the importance of data access frequency, the data is divided into cold, heat and dynamic data, the different data stored in a storage device in different properties, in order to reduce the cost and simplify the storage management, improve the performance of the system. The technique of comparison and analysis, discusses the future development of.

Key words: automatic hierarchical storage; access frequency; data migration

在如今信息化的大时代背景下,数据已然成为竞争优势的基础,然而随着数据的急剧增长,存储管理的难度增加,传统的数据存储与管理已力不从心。我们需要依靠自动分层存储技术,把存储器中的数据按其价值和意义,自动的存储到不同的存储器中。

1 自动分层存储技术的基本思想

自动分层存储技术是一种将不同的存储设备进行分级管理,形成多个存储级别;通过预先定义的数据迁移策略或者数据的生命周期,自动地在不同的存储器中进行数据迁移、复制、管理;为不同的数据提供不同的存储硬件和软件技术,把活动状态高的数据存储到高性能的存储器上,而低活动状态的数据则被保存到低性能的存储器上的技术。

自动分层存储在于两个目标:

1) 降低成本 迁移访问频率低的数据到低性能大容量的低端存储介质中,保留重要数据在高性能小容量的高速存储介质中,可节约高速存储介质,降低存储器成本。

2) 简化存储管理,提高系统性能 设制优化的数据迁移策略,使极少使用的大部分数据转移到低端存储器,减少在线的数据量,降低对系统资源的占用,以此提高系统性能。

2 自动分层存储的介质

分层存储按其存储介质的不同一般可分为在线存储、近线存储和离线存储三种方式。

在线存储采用存取速度快,性能好的高速存储介质,如固态闪存磁盘、光纤通道磁盘等。此类存储介质适于存储访问频率高及重要的程序、文件,价格也较高昂。近线存储多使用SAIA磁盘阵列、DVD-RAM光盘塔和光盘库等低端存储系统。此类存储介质的存取速度和价格介于高速磁盘与磁带之间,主要存储不重要或访问量小的需长期保存的数据。离线存储(也称备份级存储),通常采用磁带或磁带库等海量存储介质,此类存储介质的存取速度低,价格便宜,适用于存储无价值但需长期保留的历史数据、备份数据等。

3 自动分层存储的技术比较

自动分层存储技术最重要的两个标准是“精细度”与“运算周期”。“精细度”是指系统执行存取行为、收集分析与数据迁移操作的磁盘单位。它决定了执行重新配置时所需迁移的数据量,及能达到的存储配置最优化效果。但“精细度”并非越精细越好,因为这将会增加追踪统计操作给控制器带来的负担。“运算周期”是指系统执行一次存取行为统计分析与数据迁移操作的周期,它反映出磁盘存取行为的时间变化。运算周期越短,则系统能更快的依照最新的磁盘存取特性,重新配置数据在不同磁盘层集中的分布。但运算周期太密集,也会带来副作用,使统计分析与数据迁移操作占用过多I/O资源。下表是各厂商自动分层存储技术的功能参数。

Dell Compellent的Data Progression 技术,精细度为512KB-4MB,是当前最精细的(预设为2MB),可达到更好的磁盘配置最优化效果。不过只提供24小时的运算周期设定,给与用户的弹性较低,若用户磁盘存取状态变化快,24小时的周期将会跟不上变化。

4 自动分层存储的技术分析

4.1 数据一致性

自动分层存储是在不同存储设备上对数据进行迁移,热数据会提升迁移,而冷数据则降级迁移。提升迁移是把慢速存储介质中的数据迁移到高速存储介质,降级迁移则是把数据从高速存储介质迁移到慢速。这两种迁移的目的不同,特征也不同。降级迁移过程中,不会有I/O请求发生。但升级迁移主要发生在I/0最密集的时候。目前保证数据一致性主要采用读写锁方法,以数据块为调度粒度来减小对前台I/0性能的影响。迁移进程和写操作进程通过为数据块申请读写锁的形式保证迁移时的数据一致性。

4.2 数据的迁移策略的设计

数据信息分级策略,是依据信息的生命周期,根据数据的访问频率,重要程度,等多个指标对数据进行价值分级。数据分级后会在合适的时间迁移到不同级别的存储设备中,以达到最佳的存储状态。因此科学的进行数据分级很重要,要充分挖掘数据的静态特征和动态特征,使数据达到最好的分级效果。数据迁移的最佳策略应是各类最优策略的组合,需要因需制宜地选择合适的迁移算法,如在归档及容灾备份系统中可把时间点作为迁移策略;在虚拟化存储系统中可把访问频度作为迁移策略。

5 自动分层存储技术的发展

5.1 自动分层存储技术与存储虚拟化

在不同层中对存储层进行虚拟化的技术有很多,如RAID磁盘,存储区域,LUN分区,LUN遮罩及影射,数据库对象。非瘦型设备及磁盘群组可作为自动分层存储技术的操作对象,数据在不同层间的移动是基于卷一级,与虚拟资源配置结合将能达到在同一磁盘阵列内跨越不同的瘦型设备池,实现逻辑子卷及一个瘦型设备级的移动。自动分层存储技术与虚拟资源配置结合, 可通过访问负荷来确定适合的磁盘技术,更加适应负荷的变化,减少需要移动的数据,非中断的调整存储群组的服务质量。

5.2 自动分层存储技术与云技术

大部分云存储系统是“松散集群的”,数据并没有和紧密配对的集群一样被分布到节点中。当一个文件被频繁访问时,每次只能从一个节点被读取。如果添加了自动分层系统,系统将把访问频繁的文件迁移到性能好的高速存储区中,当文件被再次访问时,就能直接从存储速度快的区域中提取。依据信息的生命周期,当文件的价值降低、访问减少时,文件将自动的迁移出高速存储区中,以此实现存储的自主管理和自主调节。这两种技术的结合在保持了成本的同时可提供更高的性能。

参考文献:

[1] 舒继武.网络存储专栏分级存储与管理[J].中国教育网络,2007,(7).

[2] 史高峰.FlashCache位运算替换算法的设计与实现[D].上海交通大学,2011.

[3] 杨洁冰.自动分层存储技术及其应用[D].北京邮电大学,2011.

[4] 董伟,李郑刚.自动分层存储技术在现代存储中的应用分析与前景展望[J].2011(5).endprint

摘要:自动分层存储技术是根据数据访问频率的高低和重要性,将数据划分为冷、热数据,并动态地把不同数据存储于不同性能的存储设备中,以此降低成本和简化存储管理,提高系统性能。对该技术进行比较和分析,对未来的发展进行论述。

关键词:自动分层存储;访问频率;数据迁移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)17-3976-02

Application and Analysis of Automatic Hierarchical Storage Technology

MAO Le-qi

(Leshan Vocational and Technical College, Leshan 614000,China)

Abstract: Automatic hierarchical storage technology is based on the height and the importance of data access frequency, the data is divided into cold, heat and dynamic data, the different data stored in a storage device in different properties, in order to reduce the cost and simplify the storage management, improve the performance of the system. The technique of comparison and analysis, discusses the future development of.

Key words: automatic hierarchical storage; access frequency; data migration

在如今信息化的大时代背景下,数据已然成为竞争优势的基础,然而随着数据的急剧增长,存储管理的难度增加,传统的数据存储与管理已力不从心。我们需要依靠自动分层存储技术,把存储器中的数据按其价值和意义,自动的存储到不同的存储器中。

1 自动分层存储技术的基本思想

自动分层存储技术是一种将不同的存储设备进行分级管理,形成多个存储级别;通过预先定义的数据迁移策略或者数据的生命周期,自动地在不同的存储器中进行数据迁移、复制、管理;为不同的数据提供不同的存储硬件和软件技术,把活动状态高的数据存储到高性能的存储器上,而低活动状态的数据则被保存到低性能的存储器上的技术。

自动分层存储在于两个目标:

1) 降低成本 迁移访问频率低的数据到低性能大容量的低端存储介质中,保留重要数据在高性能小容量的高速存储介质中,可节约高速存储介质,降低存储器成本。

2) 简化存储管理,提高系统性能 设制优化的数据迁移策略,使极少使用的大部分数据转移到低端存储器,减少在线的数据量,降低对系统资源的占用,以此提高系统性能。

2 自动分层存储的介质

分层存储按其存储介质的不同一般可分为在线存储、近线存储和离线存储三种方式。

在线存储采用存取速度快,性能好的高速存储介质,如固态闪存磁盘、光纤通道磁盘等。此类存储介质适于存储访问频率高及重要的程序、文件,价格也较高昂。近线存储多使用SAIA磁盘阵列、DVD-RAM光盘塔和光盘库等低端存储系统。此类存储介质的存取速度和价格介于高速磁盘与磁带之间,主要存储不重要或访问量小的需长期保存的数据。离线存储(也称备份级存储),通常采用磁带或磁带库等海量存储介质,此类存储介质的存取速度低,价格便宜,适用于存储无价值但需长期保留的历史数据、备份数据等。

3 自动分层存储的技术比较

自动分层存储技术最重要的两个标准是“精细度”与“运算周期”。“精细度”是指系统执行存取行为、收集分析与数据迁移操作的磁盘单位。它决定了执行重新配置时所需迁移的数据量,及能达到的存储配置最优化效果。但“精细度”并非越精细越好,因为这将会增加追踪统计操作给控制器带来的负担。“运算周期”是指系统执行一次存取行为统计分析与数据迁移操作的周期,它反映出磁盘存取行为的时间变化。运算周期越短,则系统能更快的依照最新的磁盘存取特性,重新配置数据在不同磁盘层集中的分布。但运算周期太密集,也会带来副作用,使统计分析与数据迁移操作占用过多I/O资源。下表是各厂商自动分层存储技术的功能参数。

Dell Compellent的Data Progression 技术,精细度为512KB-4MB,是当前最精细的(预设为2MB),可达到更好的磁盘配置最优化效果。不过只提供24小时的运算周期设定,给与用户的弹性较低,若用户磁盘存取状态变化快,24小时的周期将会跟不上变化。

4 自动分层存储的技术分析

4.1 数据一致性

自动分层存储是在不同存储设备上对数据进行迁移,热数据会提升迁移,而冷数据则降级迁移。提升迁移是把慢速存储介质中的数据迁移到高速存储介质,降级迁移则是把数据从高速存储介质迁移到慢速。这两种迁移的目的不同,特征也不同。降级迁移过程中,不会有I/O请求发生。但升级迁移主要发生在I/0最密集的时候。目前保证数据一致性主要采用读写锁方法,以数据块为调度粒度来减小对前台I/0性能的影响。迁移进程和写操作进程通过为数据块申请读写锁的形式保证迁移时的数据一致性。

4.2 数据的迁移策略的设计

数据信息分级策略,是依据信息的生命周期,根据数据的访问频率,重要程度,等多个指标对数据进行价值分级。数据分级后会在合适的时间迁移到不同级别的存储设备中,以达到最佳的存储状态。因此科学的进行数据分级很重要,要充分挖掘数据的静态特征和动态特征,使数据达到最好的分级效果。数据迁移的最佳策略应是各类最优策略的组合,需要因需制宜地选择合适的迁移算法,如在归档及容灾备份系统中可把时间点作为迁移策略;在虚拟化存储系统中可把访问频度作为迁移策略。

5 自动分层存储技术的发展

5.1 自动分层存储技术与存储虚拟化

在不同层中对存储层进行虚拟化的技术有很多,如RAID磁盘,存储区域,LUN分区,LUN遮罩及影射,数据库对象。非瘦型设备及磁盘群组可作为自动分层存储技术的操作对象,数据在不同层间的移动是基于卷一级,与虚拟资源配置结合将能达到在同一磁盘阵列内跨越不同的瘦型设备池,实现逻辑子卷及一个瘦型设备级的移动。自动分层存储技术与虚拟资源配置结合, 可通过访问负荷来确定适合的磁盘技术,更加适应负荷的变化,减少需要移动的数据,非中断的调整存储群组的服务质量。

5.2 自动分层存储技术与云技术

大部分云存储系统是“松散集群的”,数据并没有和紧密配对的集群一样被分布到节点中。当一个文件被频繁访问时,每次只能从一个节点被读取。如果添加了自动分层系统,系统将把访问频繁的文件迁移到性能好的高速存储区中,当文件被再次访问时,就能直接从存储速度快的区域中提取。依据信息的生命周期,当文件的价值降低、访问减少时,文件将自动的迁移出高速存储区中,以此实现存储的自主管理和自主调节。这两种技术的结合在保持了成本的同时可提供更高的性能。

参考文献:

[1] 舒继武.网络存储专栏分级存储与管理[J].中国教育网络,2007,(7).

[2] 史高峰.FlashCache位运算替换算法的设计与实现[D].上海交通大学,2011.

[3] 杨洁冰.自动分层存储技术及其应用[D].北京邮电大学,2011.

[4] 董伟,李郑刚.自动分层存储技术在现代存储中的应用分析与前景展望[J].2011(5).endprint

摘要:自动分层存储技术是根据数据访问频率的高低和重要性,将数据划分为冷、热数据,并动态地把不同数据存储于不同性能的存储设备中,以此降低成本和简化存储管理,提高系统性能。对该技术进行比较和分析,对未来的发展进行论述。

关键词:自动分层存储;访问频率;数据迁移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)17-3976-02

Application and Analysis of Automatic Hierarchical Storage Technology

MAO Le-qi

(Leshan Vocational and Technical College, Leshan 614000,China)

Abstract: Automatic hierarchical storage technology is based on the height and the importance of data access frequency, the data is divided into cold, heat and dynamic data, the different data stored in a storage device in different properties, in order to reduce the cost and simplify the storage management, improve the performance of the system. The technique of comparison and analysis, discusses the future development of.

Key words: automatic hierarchical storage; access frequency; data migration

在如今信息化的大时代背景下,数据已然成为竞争优势的基础,然而随着数据的急剧增长,存储管理的难度增加,传统的数据存储与管理已力不从心。我们需要依靠自动分层存储技术,把存储器中的数据按其价值和意义,自动的存储到不同的存储器中。

1 自动分层存储技术的基本思想

自动分层存储技术是一种将不同的存储设备进行分级管理,形成多个存储级别;通过预先定义的数据迁移策略或者数据的生命周期,自动地在不同的存储器中进行数据迁移、复制、管理;为不同的数据提供不同的存储硬件和软件技术,把活动状态高的数据存储到高性能的存储器上,而低活动状态的数据则被保存到低性能的存储器上的技术。

自动分层存储在于两个目标:

1) 降低成本 迁移访问频率低的数据到低性能大容量的低端存储介质中,保留重要数据在高性能小容量的高速存储介质中,可节约高速存储介质,降低存储器成本。

2) 简化存储管理,提高系统性能 设制优化的数据迁移策略,使极少使用的大部分数据转移到低端存储器,减少在线的数据量,降低对系统资源的占用,以此提高系统性能。

2 自动分层存储的介质

分层存储按其存储介质的不同一般可分为在线存储、近线存储和离线存储三种方式。

在线存储采用存取速度快,性能好的高速存储介质,如固态闪存磁盘、光纤通道磁盘等。此类存储介质适于存储访问频率高及重要的程序、文件,价格也较高昂。近线存储多使用SAIA磁盘阵列、DVD-RAM光盘塔和光盘库等低端存储系统。此类存储介质的存取速度和价格介于高速磁盘与磁带之间,主要存储不重要或访问量小的需长期保存的数据。离线存储(也称备份级存储),通常采用磁带或磁带库等海量存储介质,此类存储介质的存取速度低,价格便宜,适用于存储无价值但需长期保留的历史数据、备份数据等。

3 自动分层存储的技术比较

自动分层存储技术最重要的两个标准是“精细度”与“运算周期”。“精细度”是指系统执行存取行为、收集分析与数据迁移操作的磁盘单位。它决定了执行重新配置时所需迁移的数据量,及能达到的存储配置最优化效果。但“精细度”并非越精细越好,因为这将会增加追踪统计操作给控制器带来的负担。“运算周期”是指系统执行一次存取行为统计分析与数据迁移操作的周期,它反映出磁盘存取行为的时间变化。运算周期越短,则系统能更快的依照最新的磁盘存取特性,重新配置数据在不同磁盘层集中的分布。但运算周期太密集,也会带来副作用,使统计分析与数据迁移操作占用过多I/O资源。下表是各厂商自动分层存储技术的功能参数。

Dell Compellent的Data Progression 技术,精细度为512KB-4MB,是当前最精细的(预设为2MB),可达到更好的磁盘配置最优化效果。不过只提供24小时的运算周期设定,给与用户的弹性较低,若用户磁盘存取状态变化快,24小时的周期将会跟不上变化。

4 自动分层存储的技术分析

4.1 数据一致性

自动分层存储是在不同存储设备上对数据进行迁移,热数据会提升迁移,而冷数据则降级迁移。提升迁移是把慢速存储介质中的数据迁移到高速存储介质,降级迁移则是把数据从高速存储介质迁移到慢速。这两种迁移的目的不同,特征也不同。降级迁移过程中,不会有I/O请求发生。但升级迁移主要发生在I/0最密集的时候。目前保证数据一致性主要采用读写锁方法,以数据块为调度粒度来减小对前台I/0性能的影响。迁移进程和写操作进程通过为数据块申请读写锁的形式保证迁移时的数据一致性。

4.2 数据的迁移策略的设计

数据信息分级策略,是依据信息的生命周期,根据数据的访问频率,重要程度,等多个指标对数据进行价值分级。数据分级后会在合适的时间迁移到不同级别的存储设备中,以达到最佳的存储状态。因此科学的进行数据分级很重要,要充分挖掘数据的静态特征和动态特征,使数据达到最好的分级效果。数据迁移的最佳策略应是各类最优策略的组合,需要因需制宜地选择合适的迁移算法,如在归档及容灾备份系统中可把时间点作为迁移策略;在虚拟化存储系统中可把访问频度作为迁移策略。

5 自动分层存储技术的发展

5.1 自动分层存储技术与存储虚拟化

在不同层中对存储层进行虚拟化的技术有很多,如RAID磁盘,存储区域,LUN分区,LUN遮罩及影射,数据库对象。非瘦型设备及磁盘群组可作为自动分层存储技术的操作对象,数据在不同层间的移动是基于卷一级,与虚拟资源配置结合将能达到在同一磁盘阵列内跨越不同的瘦型设备池,实现逻辑子卷及一个瘦型设备级的移动。自动分层存储技术与虚拟资源配置结合, 可通过访问负荷来确定适合的磁盘技术,更加适应负荷的变化,减少需要移动的数据,非中断的调整存储群组的服务质量。

5.2 自动分层存储技术与云技术

大部分云存储系统是“松散集群的”,数据并没有和紧密配对的集群一样被分布到节点中。当一个文件被频繁访问时,每次只能从一个节点被读取。如果添加了自动分层系统,系统将把访问频繁的文件迁移到性能好的高速存储区中,当文件被再次访问时,就能直接从存储速度快的区域中提取。依据信息的生命周期,当文件的价值降低、访问减少时,文件将自动的迁移出高速存储区中,以此实现存储的自主管理和自主调节。这两种技术的结合在保持了成本的同时可提供更高的性能。

参考文献:

[1] 舒继武.网络存储专栏分级存储与管理[J].中国教育网络,2007,(7).

[2] 史高峰.FlashCache位运算替换算法的设计与实现[D].上海交通大学,2011.

[3] 杨洁冰.自动分层存储技术及其应用[D].北京邮电大学,2011.

[4] 董伟,李郑刚.自动分层存储技术在现代存储中的应用分析与前景展望[J].2011(5).endprint