数据再“冷” 存储依旧不容忽视

2017-03-24 05:40
中国信息化周报 2017年3期
关键词:数据量海量分级

近年来,移动互联网、物联网、云计算的快速发展催生并积累了大量的用户、业务数据。市场调研机构IDC预计,未来全球数据总量年增长率将维持在50%左右,到2020年全球数据总量将达到40ZB。据统计,这些海量数据中只有10%—15%的数据是被经常访问的,而绝大部分都会在产生之后逐渐变冷。这些“冷数据”的访问率虽然很低,但用户还是希望保留这些数据;对于企业而言还有很多数据需要进行备份和存档。

对于冷数据的技术存储,首先是数据的分级,主要是指从海量的数据中根据文件的访问频率、价值等因素,进行冷热数据的分类,甚至分出更细的数据类型,如“温数据”、“冰数据”等。目前常见的数据分级方法主要有两类,一类是业务数据的分类,即基于具体的业务类型,结合长期以来的运营经验,进行运营级的数据分类;另一类是基于数据存取特性的分类,即借助存储软件系统自动进行数据的冷热分级。通过存储软件系统对数据进行冷热监控,统计分析一个时间周期内的IO冷热程度,并按照设定的分类策略自动进行数据的分类,并将冷数据从前端业务存储系统迁移到冷数据存储系统。存储密度的提升,几乎所有的存储部件厂商都在努力通过提升单盘的存储容量来应对数据的快速增长。在磁、光存储密度快速提升的同时,电存储也表现出色,32TB的SSD盘已经问世,且预计未来还有更大的增长空间。数据的压缩去重,提高有效数据的存储比例。为了提升数据存储的可靠性,通常会对数据进行多副本存储,但多副本的方式会带来存储数据量的倍增。为了进一步提升存储效率,在一些读写性能要求较低的场景下,可以选择只保存校验数据。

运营能力的提升方面,海量数据的存储需要更智能化的运维系统,包括对数据的定期巡检、数据的精细化分类、自动化的数据迁移、故障预测及定位、设备的休眠等机房节能措施。此外存储的架构设计也是当前的研究热点,包括设备的分级、存储介质的选型、数据存储格式、数据检索以及对外服务接口等。

另外,数据访问延迟、整体读取速率以及数据持久性等,也是海量冷数据存储的关键技术。这些关键技术相互制约影响,尤其是在运营能力提升方面,涉及的因素众多,对冷数据存储的选型提出了新的挑战。国内外大型互联网企业已根据自身的业务特点,结合多年的运营经验和业务预测,进行存储架构的整体设计,并基于其在冷存储方面的经验和技术积累,对外提供了相关的冷数据存储服务。以亚马逊网络服务推出的“AWS冰川”数据存储服务为例,用户可以采用它来存储无限量的数据,并建立存储库列表进行管理,包括各种档案的生命周期管理和访问策略。此外还有谷歌公司提供的“近线云存储”服务,以及微软公司提供的“CoolBlob”存储产品,都是具有一定代表性的海量冷数据存储服务,而它们都有一个共同的特点就是“无限量”。对于数据量较小且在快速增长的企业而言,可以选择使用一部分的云存储服务,同时也逐步探索建设自己的数据存储中心。海量冷数据存储的关键还在于运营,在于存储策略和业务需求的匹配度,因此还需积极参与各种社区、联盟组织的活动,借助產业发展的力量,更多地借鉴先行者的经验,了解行业的技术发展情况,及时更新制定适合自身需求的存储架构和技术路线。

猜你喜欢
数据量海量分级
一种傅里叶域海量数据高速谱聚类方法
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
分级诊疗路难行?
分级诊疗的“分”与“整”
一个图形所蕴含的“海量”巧题
分级诊疗的强、引、合