基于群体智能算法的大数据迁移策略研究

2019-07-16 12:28马琳娟
关键词:鱼群量子数据中心

曾 毅,马琳娟,鱼 明

(1.广西大学行健文理学院 理工学部 计算机与信息工程系, 南宁 530005; 2.北京理工大学 计算机学院, 北京 100081; 3.石河子大学 经济与管理学院, 新疆 石河子 832000)

伴随着互联网技术的快速发展,全球信息互通和共享已经逐步成为现实。社会大众在日常工作和生活中,通过各种联网设备进行办公和娱乐,大大提高了工作的效率和生活的便利性。然而,随着互联网用户数量的快速增加,网络信息量急剧增长,意味着当前已经进入了大数据信息化时代。当用户访问服务器时,对于以往的服务器运行体系来说,用户必须保持与数据中心服务器的连接并发送访问资源的请求(占用资源)[1]。这种运作模式已经无法应对现阶段复杂的场景需求,造成了服务器上计算资源的大量浪费。在上述背景下,云计算模式[2-3]应运而生。作为一种新兴的商业计算模式,由Google提出的云计算在IT行业内引起了第三次变革浪潮。

不同于传统的数据中心,云数据中心的规模和自动化程度更高,导致云数据中心的管理和维护需要解决更加复杂的问题[4]。如何有效地管理和维护云数据中心成为目前相关研究领域的热点[5]。其中,大数据迁移是云服务器新老系统更替、配置修改和升级软件的基础。如果数据中心中某些节点出现负载异常,就需要执行动态迁移策略将数据流量迁移到其他服务器设备上,以分布式处理方式完成负载均衡,这直接影响着云计算服务的效率。可以看出,一个先进的动态数据迁移策略对于云计算服务来说十分重要[6]。

本文提出了一种基于群体智能算法的大数据迁移策略,解决了大数据迁移过程中的负载平衡和带宽瓶颈问题。在基于云计算架构的大数据迁移技术基础上,采用人工鱼群优化算法来解决m个服务器之间n个数据迁移的最优解问题。此外,把量子比特引入到人工鱼群算法中,以避免陷入局部最优并提高收敛速度。仿真结果表明,相比现有的迁移策略,本文算法更好地提升了云计算服务器的资源利用率,在一定程度上缓解了云数据中心的负载均衡和带宽拥挤问题。

1 相关研究分析

大数据迁移直接影响着云计算服务的效率,是近年研究的热点。黄冬梅等[7]针对混合云存储架构中的数据迁移问题,提出了基于海洋生命周期的混合云存储中大数据迁移算法。在该迁移算法中,将海洋数据的敏感度、数据访问频率、数据大小、数据时间长度等因素作为迁移因子,兼顾考虑了数据存储容量和数据访问过程中的动态变化,能够有效降低数据管理成本,同时保证数据的访问速度。张晋芳等[8]分别针对云计算环境下大数据动态策略中的全局时间消耗、网络访问次数和全局负载均衡3个参数进行求解,在Cloudsim仿真平台中取得了良好的全局负载均衡效果。

群体智能优化算法是指无智能的或具有简单智能的个体通过协作发挥出群体智能优势的优化算法,可在没有集中控制且不提供全局模型的条件下为复杂分布式问题求解提供基础[9-11]。由于具有并行性和分布式优势,群体智能优化算法逐步成为各种复杂工程最优求解问题的一个重要研究方向。其中,人工鱼群算法是一种基于模拟鱼群行为的群体智能算法[12],主要利用鱼的三大基本行为(觅食、聚群和追尾行为),采用自上而下的寻优模式,从构造个体的底层行为开始,通过鱼群中各个体的局部寻优达到全局最优值在群体中凸显出来的目的。因此,本文将人工鱼群算法应用于多个服务器之间的负载寻求问题,通过设定合理目标函数进行全局搜索。此外,为了减少搜索时间,获得更好的全局寻优能力,本文把量子比特引入到人工鱼群算法中来完成最优求解。

2 基于云计算架构的大数据迁移问题分析

2.1 问题表述

人工鱼群算法模拟了自然界中鱼群往往能自行或尾随其他鱼找到营养物质丰富区域的行为,根据人工鱼群的特点,构造人工鱼模拟鱼群的觅食、聚群和追尾行为,从而实现寻优的目的。人工鱼群具有收敛速度快、模型简单的优点,但存在优化精度不足的缺点。

通常情况下,云计算的体系结构如图1所示。该架构中的大数据迁移涉及云平台的负载均衡问题和带宽利用率问题。作为本文研究的目标,数据迁移是一种将离线存储与在线存储融合的技术,其过程大致可以分为抽取、转换、装载3个步骤。基于云计算架构的大数据迁移问题能看作为m个服务器之间n个数据迁移的最优解问题。设Sum为n个待迁移数据大小的总和,T为数据需要的传输时间,两者的计算方式分别为:

(1)

(2)

其中:Mij表示第i个服务器中的第j个待迁移数据。设η为该服务器的带宽占用率,则

(3)

其中:a表示当前服务器上的数据变动参数,a∈[0,π]。

2.2 基于人工鱼群的服务器数据迁移

(4)

(5)

图1 云计算的体系结构

云计算架构中基于人工鱼群算法的大数据迁移原理如图2所示,其中标准人工鱼群算法的流程如图3所示[13]。

图2 基于人工鱼群算法的大数据迁移原理

图3 标准人工鱼群算法的流程

3 改进人工鱼群算法

为避免人工鱼群算法陷入局部极值点或者产生徘徊从而降低收敛速度,本文引入量子比特对标准人工鱼群算法进行改进。

采用量子比特[14]与人工鱼群相结合的方式对其进行改进。设种群大小为n,其信息素用量子位P=(p1,p2,…,pn)表示。基于人工鱼群三大基本行为的算法流程如下:

(6)

其中:Rand 表示一个取值范围为(0,1)的随机数;step 表示步长;dij表示人工鱼的当前邻域。

2) 聚群行为。设人工鱼群中人工鱼的dij内感知到的伙伴数目为nf且中心位置状态为Pc。若Yc/nf<δYi,则说明该伙伴中心处具有丰富的食物且附近拥挤程度较低,那么朝着该伙伴中心位置方向移动一步;反之,跳转到上一步觅食行为。其数学表达式为:

(7)

其中,δ表示拥挤度因子。

3) 追尾行为。设人工鱼在当前的dij内感知到食物浓度最大状态是Pmax,若Ymax/nf<δYj,说明Pmax状态存在较大的食物浓度且其附近拥挤程度较低,则朝Pmax的方向移动一步;反之,跳转到觅食行为。其数学表达式为:

(8)

4) 随机行为。设人工鱼此刻的状态是Pi,在感知范围Visual 内随机挑选另外一个状态Pj并朝着此方向前进一步。

通过公告板保存最优人工鱼群个体的状态。对于所有人工鱼个体来说,在其寻优过程中每次执行结束都会将自身状态和公告板上的状态进行对比,若其状态比公告板状态更好,则替换公告板的状态。对于要解决的大数据服务节点迁移寻优问题,按照式(4)对量子人工鱼群当前的状态进行评估,挑选并执行一个使种群接下来状态为最优的行为。人工鱼群中个体的量子行为更新方式为[14]:

(9)

4 实验及结果分析

4.1 实验环境

本文采用开源的虚拟化服务的云计算仿真平台Cloud Sim,对基于量子人工鱼群算法大数据迁移进行了验证分析。实验硬件环境:Windows 7 操作系统,Intel(R) Core(TM) i5 CPU,4GB RAM,500G硬盘。实验软件环境: Eclipse8.5,Cloud Sim3.0.3。量子人工鱼群算法的参数设置如表1所示。

表1 实验参数设置

4.2 算法性能验证

为进一步验证量子人工鱼群算法的性能,选择文献[15]中的实例,将蚁群算法[16]、标准人工鱼群算法[15]和量子人工鱼群算法进行对比,结果如表2所示。不同算法在已知最优解为295时的收敛速度如图4所示。

表2 数值结果对比

图4 不同算法的收敛速度对比

4.3 数据迁移结果分析

在实验环境下根据带宽占用率(%),将本文的量子人工鱼群与随机迁移策略、最优迁移策略[17]进行对比,对比结果如表3所示。可以看出,随着带宽的不断提高,3种策略的服务能力会相应提高,即带宽占用率会越来越低。从表3可以看出,在相同带宽条件下,相比随机策略和最优策略,基于量子人工鱼群算法的迁移策略因为占用的带宽更少,具有更好的带宽利用率,从而可以让云计算数据中心提供更多的服务。

设置10周的测试时间,在负载均衡方面对待迁移数据的目标位置选择策略进行验证分析,期间每2周采集1次数据。10周内3种算法的负载均衡的对比结果如图5所示。可以看出,随着测试时间的增加,3种迁移策略的负载均衡度均不断降低。但是,在相同时间点时基于量子人工鱼群算法的迁移策略具有最好的负载均衡效果,有效增加了云计算服务器集群中数据节点的资源利用率。

表3 带宽占用率的对比结果

图5 负载均衡的比较

综上所述,基于量子人工鱼群算法的云数据迁移策略是一种具有较好带宽利用率和负载均衡效果的方法。

5 结束语

本文提出了一种基于群体智能算法的大数据迁移策略,有效解决了大数据迁移过程中的负载平衡和带宽瓶颈问题。在基于云计算架构的大数据迁移技术基础上,采用人工鱼群优化算法来解决m个服务器之间n个数据迁移的最优解问题。此外,把量子比特引入人工鱼群算法中,从而避免陷入局部最优并实现了快速收敛速度。仿真结果表明,相比现有的迁移策略,提出算法更好地提升了云计算服务器的资源利用率,在一定程度上缓解了云数据中心的负载均衡和带宽拥挤问题。

本文将量子比特机制引入人工鱼群算法中,在大数据的迁移问题中,过大的数据量将带来大的计算负担。未来将重点关注提高人工鱼群收敛速度的研究,计划通过分布式计算提高寻优速度,从而提高算法的实用性。

猜你喜欢
鱼群量子数据中心
酒泉云计算大数据中心
《量子电子学报》征稿简则
《量子电子学报》征稿简则
浅析数据中心空调节能发展趋势
决定未来的量子计算
关于建立“格萨尔文献数据中心”的初步构想
新量子通信线路保障网络安全
人工鱼群算法在雷达探测器射频端电路设计中的应用
鱼群漩涡
朱梦琪??《鱼群》