魏学锋
摘要:油田生产数据量巨大,而大数据在生产网络中反复流转给整个系统的稳定与性能带来了极大的压力。为解决这一问题,本文提出了基于访问热点预测的油田大数据负载均衡算法,该算法基于就近访问原则,通过测算大数据块在存储网络中的访问热点,将其部署在对应的服务器上,从而避免其反复在生产网络中生灭与流转。实地测试表明:该算法具有良好的存储负载均衡效能,能够节约大量的流量与存储开支,具有一定的实用价值。
关键词:大数据系统;负载均衡;访问热点;预测
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2020)12-0014-02
油田生产中的工况数据量巨大,因而相关企业与单位均采用了分布式大数据存储系统;此类系统可以将海量数据分散存储于多台服务器,并实现统一的管理与访问,其透明的服务模式受到了一致的好评。但实际应用中发现,目前的大数据存储系统在存储负载均衡方面还有所欠缺,集中表现在数据经常被部署在距离访问节点较远的存储服务器中,访问时需要通过多跳接力才能完成数据的获取,占用了过多的网络流量与多个节点的存储空间。针对这一问题,国内外研究人员提出了多种解决思路与方案,例如:李彦等人在大数据城市交通调度系统中提出了就近存储的解决思路。许道强等人基于异构分布式存储环境,提出了一种面向标签化管理的大数据调度算法,取得了一定的成效。李玮瑶基于存储资源感知理论,提出了一种大数据处理任务调度算法,并对它进行了仿真测试,证明了其有效性。董春涛等人针对Hadoop YARN大数据系统中的实际问题,研究了分布式存储一计算优化模式及其存储资源调度算法,证明了就近存储的可行性。刘鑫研究了一种分布式数据库环境的海量数据服务器间迁移算法,证明通过访问记录等方式能够有效地平衡数据存储,并降低NAS系统中的流量。刘汪根等人设计了一种云环境中的分布式大数据感知与存储资源调度算法,并在实际应用中验证了其有效性。钟健等人基于物联网环境研究了大数据的分级分段调度与流转算法;翁利国等人基于Spark数据处理平台研究了动态的存储资源分配与调度算法,并在通用Hadoop系统中对其进行了验证。而上述成果在大港油田的实际应用中暴露出访问热点预测精度差、存储与流量负载均衡效果不佳等问题,因此本研究提出了一种基于访问热点预测的油田大数据负载均衡算法,并取得了一定的应用效果。
1算法结构与基本流程
新算法的基本结构与流程如图1所示;其中的主要步骤如下:
Step1:各生产单位在自身的服务器上生成大数据块,提取其中的数据块特征,以报文形式将其发送给自身距离最近的存储服务器。
Step2:各存储服务器采集自身存儲容量等资源信息,并分发给其他存储服务器;接收数据块特征报文,进行匹配计算,发送数据接收回持报文或转发给其他存储服务器。
Step3:各存储服务器接到其他服务器的资源信息,将存储在本地,刷新大数据存储资源视图,基于自身情况和该视图进行访问热点预测。
Step4:接收完大数据块后,各存储服务器将刷新大数据存储资源视图,并发布更新报文给其他服务器。
2核心算法描述
首先,本研究生产单位发来的大数据块形成了待存储队列:X,而其特征队列是y,二者之间关系可以表述为:
从上表1中的测试结果可以看出:新型算法的大数据负载均衡性能指标均胜过现有算法,表明其综合性能良好;特别是:在服务器峰值存储负荷与峰谷存储负荷之差方面,新算法远低于既有算法,说明其外存(硬盘)负载均衡效果很好,将大数据块较为均匀的配置在各台服务器中,避免了存储瓶颈问题的发生。该算法在访问热点预测过程中并未占用过多的系统资源,因而CPU占用率等资源消耗指标也与现有算法相差不多,而平均服务器内存占用量则远低于现有算法,体现了很高的性价比。综上所述,上述测试结果表明:新型算法能够在现有软/硬件环境中,节省大数据存储配置带来的迁移与流转资源消耗,因而能够用于大数据分布式存储系统的升级与增效,适用性与实用性较高。
4结论
本研究针对油田大数据带来的巨大信息管理压力,提出了基于访问热点预测的油田大数据负载均衡算法。该算法具有良好的负载均衡效能,能够节约大量的流量与存储开支;在未来,将对该算法的大规模与超大规模油田数据集群应用展开深入研究。