浪潮信息
HDFS(Hadoop Distributed File System)作为通用的分布式文件系统,可为用户提供具有高可扩展性、低成本、高可靠性的海量数据存储,并广泛应用于大数据存储和分析方向。
近年来,伴随着5G、物联网、人工智能等领域的快速发展,数据量规模不断增大,同时随着大数据应用的多样化发展,对数据的利用也更加成熟与深入,更大的数据量以及更加灵活的数据处理场景对HDFS的数据存储与数据读写吞吐提出了更高的要求。为应对这些挑战,浪潮着力研发面向分布式文件系统的智能存储管理技术Smart Storage Management(简称SSM)。通过多项新技术及特性解决存储场景中的各类挑战,助力大数据产品提供更加高效、智能的存储解决方案。
存储技术所面临的挑战
基于异构存储介质的数据存储管理
从硬件平台来看,HDFS的设计初衷是基于通用的廉价硬件提供可靠、高吞吐的数据存储及访问。但随着硬件的迅速发展,传统的磁盘性能和存储容量都已达到瓶颈,固态硬盘、非易失性内存和SMR磁盘等受到广泛关注。
目前,HDFS已有的功能虽然可以兼容多类型的异构介质,实现对异构存储介质的访问和使用,但没有很好的机制让其智能感知不同设备的I/O特性,并根据数据的访问特征动态改变存储方式,在异构的环境下最大程度发挥各类硬件的性能优势。
大规模存储的容量压力
为实现系统的可靠性,传统HDFS通过副本策略来保障数据的安全,通常默认为三副本,但存储利用率仅为1/3。如果使用纠删码来替换副本策略确实可以提供与副本相同的容错能力,并使用较少的存储空间,但在典型的纠删码中若要求存储额外开销不超过50%,则相应的纠删码将占用更多的计算资源,所以当系统面临存储压力时,用户通常希望将不常使用的数据使用纠删码存储,降低存储压力。
但是,目前的HDFS技术仅支持基于目录的副本到纠删码转换,转换后业务访问文件的路径将发生改变,导致无法形成便捷的自动化运行模式。
应用负载的自适应存储挑战
从上层应用来看,一方面在大数据Hadoop生态系统不断发展的过程中,HDFS因其自身的稳定可靠、简单易用、扩展性高等优点使越来越多上层应用和系统将其作为统一的底层存储,其上存储的数据类型和支持的分析负载也越来越多元化。
此外,在企业中不同部门和用户经常基于同一份全量数据进行查询分析,带来同一份数据服务多样的查询负载。在这种应用场景下,基于人工制定策略的存储优化就难以生效,势必需要提供基于应用负载的自适应优化技术来应对。
智能存储管理技术
SSM(智能存储管理技术)被定义为面向HDFS的智能管理架构,主要提供针对新型存储设备、高速网络、新计算的存储优化与数据优化解决方案,实现端到端的数据管理服务,聚焦点可以概括为“两核心、三场景、四技术、五特性”。
两大核心
SSM的核心是基于数据热度的智能化管理来实现自动化面向存储的全生命周期优化。在数据热度方面,典型的应用场景中通常80%的计算工作负载用于处理20%的数据,在动态变化环境中针对局部数据进行优化尤其困难。面对该问题,SSM通过收集文件系统操作数据与状态信息,利用多项指标分析数据访问模式,从文件级别定义数据热度,针对热度信息统筹规划相应地优化数据管理方式。
在智能决策方面,SSM建立了基于规则的智能决策体系,围绕现有的大数据存储模式智能地构建了实用的解决方案。未来,SSM将利用历史数据和指标学习功能,使系统具有预测数据访问模式与持久学习能力,实现稳定可持续的智能化管理。
三種场景
SSM适用于数据存储模式丰富的应用场景,可以提供更加灵活的存储模式选择;在数据优化上则提供了小文件合井、数据灾备、数据压缩等新功能,适用于对数据优化有需求的应用场景;智能化管理是面向大规模集群的数据管命周期的自动化管理。
四项技术
SSM主要通过四项技术实现智能的存储管理。
第一,通过分布式集群自治技术,解决管理服务的高可用问题,以实现存储管理集群的去中心化。
第二,利用分布式事件驱动技术,实现面向高并发场景的轻量级计算服务与监督机制,提升管理操作执行效率与容错性。
第三,基于规则的智能存储管理技术,解决存储数据量大、数据增量高、数据类型混杂难以管理的问题,实现数据生命周期的智能化管理。第四,凭借数据热度感知技术,解决存储资源利用不均、资源浪费问题,实现数据冷热分层。
五种特性
面向用户场景,SSM体现在五类典型的特性增强。
第一,异构存储增强。结合智能规则管理与数据热度感知,充分发挥异构存储访问效率。
第二,纠删码增强。针对文件级的副本与纠删码、纠删码间快速转换,效率提升30%;访问路径不变。
第三,小文件合并增强。自动感知小文件,减缓NameNode压力,读性能提升一倍。
第四,自动化数据灾备。全自动跨域数据增量备份。
第五,透明化自动压缩。自选压缩模式,无感知压缩。