基于离散PSO算法的医疗云存储部署策略

2016-03-07 20:54伍贵富陈光喜刘宇鹏
无线互联科技 2015年4期
关键词:负载均衡云存储

伍贵富 陈光喜 刘宇鹏

摘要:医疗云服务在实施的过程中,人们更加关注数据的安全、以及系统的负载均衡等问题。而解决这些问题的关键技术之一就是医疗云存储部署规划的优化策略。文章通过系统建模,将医疗云存储所涉及的相关技术抽象为多目标优化问题后,通过离散PSO算法进行求解。并引入新的粒子位置更新算法,以提高标准离散PSO算法的收敛速度,通过重优化机制来更新粒子状态,防止算法陷入局部最优而早熟,最终得到适合于求解医疗云存储部署优化问题的IDPSO算法。仿真实验表明该算法有效。

关键词:离散PSO;云存储;负载均衡

1引言

随着国际医学信息标准化、电子化进程的快速发展,使得区域医疗信息化平台逐渐成为各地区医院的基本设施,HIS、DACS等应用系统也逐渐成为医院信息技术的核心。由于这些应用系统中的数据越来越多,比如:一个标准的病理图则可能接近5GB,使得系统数据价值越来越大。显然这些重要数据丢失的风险或系统停机造成的损失是用户难以承受的。因此如何有效保障并构建最有效率的医院信息系统体系,成为各医院信息中心主管人员所关注的重中之重。

目前云存储系统由多个部分组成,可收集、存储及处理底层数据,并在此基础之上提供其它服务功能。由于现有的网络存储技术无法很好地满足医疗云存储服务的核心需求,因此一种基于对象的存储(OBS)方法,被提出并引入到云存储解决方案中。而OBS方法在实现的过程中,既要考虑系统存储负载的均衡性,又要考虑优化动态环境中的部署效率问题。因此,许多基于启发式群集智能算法(如粒子群算法或遗传算法等)的解决方案被引入到该问题中。但这些方案,在求解的效率以及解空间的质量上,还存在着一定的局限性。因此文章提出基于对象存储的医疗云存储系统模型,并在此基础之上,利用改进的离散粒子群(IDPSO)优化算法,对医疗数据的部署方案进行优化求解。

2医疗云存储系统模型定义

医疗云存储系统实现的主要目标是将需要保存的文件,按合理的副本数量,分配到云平台的各数据存储节点中去,从而既满足用户对数据安全的要求,又能使云服务系统中任务得以快速执行以及系统的负载达到相对均衡。在不失一般性的情况在文章做如下假设:1)由于医疗云系统中对文件的操作几乎都是顺序读,因此文章主要针对这种文件操作进行讨论。2)作为医疗云服务平台,我们所面对的大部分数据,如电子病历、CT图像等文件都具有“一次写入多次读取”的特性,因此文章的存储策略没有考虑数据一致性机制。因此文章所讨论的医疗云存储部署问题就转化为一个多目标优化问题,即将n个文件部署到m个数据存储节点上并使系统中相关性能达到优化的目的。

在云存储优化的过程中,我们主要考虑如下几个方面的性能参数。(1)平均延迟:最小化系统延迟对于任何云存储平台来说都是非常重要的,因此文章主要考虑文件读操作的延迟。由于每个文件可能有多个副本,将文件fn的平均延迟Dn表示如下:

其中R(i)表示文件i的请求数。当系统中存储节点的负载与Vavg的差值接近0时,系统负载接近均衡。

3基于IDPSO的云存储策略的设计

针对离散空间的多目标优化问题,提出了基于二进制编码的离散PSO算法。而这种标准的离散PSO算法应用到云存储策略中,首先需要解决的问题是如何建立起解空间与粒子之间的映射,因此,文章将通过引入整数编码的矩阵来对应解空间,矩阵的每项为(fn,z,Dm),其中f1.1表示文件f1的一个副本,Dm表示存储节点的编号。

3.1适应度函数的设计

考虑到云存储部署建模中的多重优化目标,文章采用较快捷的衡量方法,即引入权重因子,构造适应度评价函数,实现多目标优化。结合公式(1)-(3)文章将适应值函数转化为如下形式:

3.2粒子速度和位置的更新方法

离散PSO算法的实质是粒子根据与个体极值和全局极值之间的距离信息,来调整自身运动的方向和速度,并以此改变下一步的迭代位置。文章借鉴文献中速度和位置的计算公式,并引入遗传算法中的交叉操作的思想,设计了对粒子种群的基本操作方式:1)粒子交换操作:对粒子位置变换的操作定义为ch(a11,a22),表示粒子a11与a22发生位置交换,而多个粒子交换操作所组成的序列被称为交换序列,即CH=(ch1,ch2∧chm)。2)基本交换序列集:由于矩阵A变换到矩阵A′的过程中存在着许多种不同的交换顺序,因此文章将变换次数最少的交换序列的集合称为基本交换序列集。

根据上述基本变换规则,文章对PSO算法中粒子的速度公式进行如下改进:

由于标准离散PSO算法较容易早熟,因此文章采用了一种重优化更新机制,来防止算法陷入局部最优,即算法在执行过程中,如果改变粒子速度的基本交换序列的元素个数少于阈值μ,而解集的优化条件尚未满足时,解空间将进行重新优化操作。

4性能评估

文章的模拟实验在CloudSim环境中进行的,主要模拟了在新的存储策略影响下,对医疗云存储的服务延迟、费用成本和负载均衡3个性能指标的改善程度,并与遗传算法(GA)进行对比。

在用改进离散PSO算法搜索存储调度的最优可行解时,文章设定种群规模为50个粒子,最大迭代次数为300次,其它参数将根据文献进行设置。在实验过程中将重复进行10次独立实验并取平均值作为最后的评价数据。

如图1所示,文件总数来表示系统的负载,一般而言文件数量越多,表示系统的负载越重。IDPSO算法相比于HDFS和GA能减少系统的平均服务时间。IDPSO算法在不同的文件总数的情况下都能获得较好的结果。

如图2所示,基本的HDFS文件系统中各节点的负载情况存在一定差异,而通过算法优化后的系统负载情况将趋于稳定,并逐渐趋于某个稳定水平。从图中我们还可以发现,由于系统中其它因素的影响,各节点的负载值不可能完全相等,但已趋于平衡,因此说明系统的负载已得到优化。

5结语

医疗云服务在实施的过程中,人们会更关注数据的安全、以及系统的负载均衡等特性。文章针对这一问题,提出了云存储的部署优化算法,通过调整数据文件在存储节点的分布,来提高系统的负载均衡行,使得整个医疗云服务的性能和利用率得到提升。文章将云存储部署抽象为多目标优化问题后,针对标准离散PSO算法的一些不足,引入新的粒子位置更新算法,以提高算法的收敛速度;并通过重优化机制,来防止算法陷入局部最后,最终得到适合于求解医疗云存储部署优化问题的IDPSO算法。在CloudSim上进行的仿真实验表明该方法有效。

猜你喜欢
负载均衡云存储
异构环境下改进的LATE调度算法
浅析龙岩烟草业务数据与监控数据中的云存储与大数据