田冠博
(邳州市人民医院, 邳州 221300)
电子文件迁移由于巨大状态空间,计算复杂性高,对服务器、磁盘、CPU等资源的要求高,需要借助兼容性强的模型来调节动态负载平衡,减少迁移代价,提高执行率。云计算下电子文件迁移,综合文件、资源方面的因素,平衡存储单元负载,保证计算性能的重复发挥[1]。
负载平衡调整电子文件访问的负载差异,访问频率、大小敏感的迁徙模型,采用占用量概念对云端资源的负载压力进行描述,其受以下因素影响:
(1) 访问次数与占用量值成正比;
(2) 并发数,特别是平均并发数的增加,迁移文件的占用量值随之增加;
(3) 电子文件越大,迁移占用量值越高。
(1) 在第i次访问前,云端存储文件fk未被访问,则e(fk,i)=0
(2) 在第i次访问时,云端存储文件fk占用量为式(1)。
(1)
其中,i—代表第i次访问前,属于极限值;λk代表云端系统第i次访问时,文件fk的并发访问数;λ表示云端系统第i次访问时,平均并发数;lk表示迁移文件fk的长度。
(3) 云端系统在in、im时间内,为对文件fk访问,那么e(fk,in)=e(fk,im)∂im-in;
(4) 云端系统在发生第im访问时,对文件fk访问,且上一次访问时间为in,说明如式(2)。
(2)
云端存储单元依据文件大小,或者分块方式占用不同存储空间,但由于云端存储单元异构,各单元存储空间、访问带宽不同,占用量高低不能全面反映云端资源负载。为了准确、清楚描述文件迁移,引入相对占用量概念[3]。
假设e(nk,i)表示相对占用量,那么i时刻云端资源存储单元nk的相对占用量如式(3)。
(3)
其中,χj=∑φ是云端存储单元nk上存储的电子文件和,或者文件块的占有量和;Lj是j存储单元拥有的存储空间;L是云端平均存储空间;Sj是j存储单元的云传输带宽。
电子文件超过阈值,就会激发迁移操作。但,阈值设定存在不足,对文件访问请求的倾斜性大。迁移触发函数激发后,后续文件访问请求增加,云端存储资源快速占用,存储单元负载增加,云计算性能骤降。REM函数基于概率计算,适用于云端存储系统,依据条件限制电子文件访问。设置最大、最低负载,即Lmax、Lmin,依据两者关系,衡量云端存储单元的负载情况,如式(4)。
(4)
其中,p迁代表电子文件迁移概率,S下为云端存储单元的下行带宽,S存为云端第i个存储单元的负载情况。
迁移对象要基于文件访问请求,结合云端资源情况,实现负载平衡,否则将加重云端设备负载。文件迁移需要兼顾几方面:
(1) 以数据块为单元迁移。数据块划分有效避免大文件、大数据迁移耗时长问题,节约带宽资源,突破云端存储单元性能限制,对固定大小数据块进行迁移[4]。
(2) 迁移文件选择与用户请求结合,假设正在被访问,且占用量高的文件fk,用ξi表示,那么文件占用量密度为式(5)
ξi=ei/li
(5)
其中,文件i的长度为li,第i的文件具有的占用量为ei。
假设定义云端存储单元为迁移单元,接受迁出数据块的存储单元为接受单元,在接受单元的云端下行带宽许可情况下,则有:
(1) 所有访问数据块bi的用户请求为d合,则∪d合,d合⊂bi被发送到接收云端。
(2) 充分利用闲置带宽,读入bi的尾部数据bi-∪d合发送至接受单元;
(3) 出现新访问文件fk的请求d新,或者未访问数据块bi的用户,已经完成一个数据块的访问,则用户请求将转到bj,以此类推,相继访问其他数据块,实现文件迁移的用户请求复合。
(4) 迁移过程中,无论是否出现新用户访问,或者用户请求超过bj,都要对数据块bj迁移,原则为闲置带宽分配固定带宽S固,保证文件顺利迁移。
其中,v是云端为用户请求访问fk分配带宽,li为云端数据的单位长度。现有带宽不能满足实际需求,迁移单元附近用户请求撤销,释放带宽满足迁徙需求。
(5) 文件迁移拥有充足带宽,则要保持带宽到迁移工作完成,或者新的数据块用户访问文件。
复合用户范围可以对云端资源负载进行优化,并行用户请求,又提高闲置带宽利用率,减少文件迁移对资源的占用量。
在消除存储单元负载闲置的情况下,文件迁移给云端存储带来附加荷载,形成新的资源瓶颈,陷入“迭代”循环,导致云端资源占用量持续增加。为避免上述问题,要求目的存储单元i具有低占用量Q低,并实现在接收数据块bj后的相对占用量最小,如式(6)。
(6)
输入:云端存储单元数为m,迁移文件数量为n;
云端系统:D={D1,D2…,D3},Dj=(Lj,Sj,Qj);其中,Qj为第j个存储单元具有的相对占用量,
存储文件:F={F1,F2…,F3},Fi=(li,Qi);
访问文件:fk为第k次访问时所访问文件;
输出:云端负载平衡的所有操作;
步骤1:依据存储单元(Dj,Sj),判断第j个存储单元是否达到阈值,并触发文件迁移操作;
步骤2:所有已触发云端文件迁移的操作Dj,迁移访问占有量密度最高的数据块文件;
步骤3:选择占有量适合的接受单元,进行文件迁移操作。
通过仿真实验验证基于云计算环境的电子文件迁移模型的时间优化下过,访问请求为合成负载方式。以传统磁盘冷却法为比较对象,验证试验效果。
表1 初始值设置
访问量对模型分析非常重要,但不能全面反映访问有效率,所以采用x/y分布方式产生访问序列,实现x%请求访问y%文件[6]。假设文件ID为1-50,对于任意x/y参数请求,可以依据公式3,计算每个文件的访问概率。本文通过改变文献ID实现负载动态分析,以每100次访问为周期ζ,对i文件访问,则其动态负载为i=(i+ζ)/50%。
连续对云端存储进行10组模拟试验,每组试验符合3.1节的测试环境,随机生成存储单元和文件,按照3.2节的负载计算,生成文件访问序列。对比传统磁盘冷却算法和无负载情况下的云端电子文件迁移,按照1 s、3 s、6 s、9 s的时间间隔的100次云端文件访问请求,计算出平均处理时间和吞吐量。相对于冷却算法的相对负载说,无平衡策略以初始云端存储单元的5个文件为依托,云端存储单元在任何条件下均不进行负载平衡。平均请求处理时间=请求运行总时间/访问请求总数,比值越大云端处理能力越弱。平均吞吐量=单位时间内处理访问次数/处理时间,比值越大云端占用量越低。不同时间间隔下的平均处理时间、平均等待时间的比值,如图1所示。
图1 不同模型下文件迁移处理时间
在不同负载情况下,云计算下的电子迁移模型优于传统磁盘冷却模型效果,不会增加云端负载量,节省资源占用量。
本文提出体现文件访问对云计算负载的文件迁移模型,给出适合云端存储结构的迁移触发函数,复合用户访问的迁移文件选择、迁移过程实现。最后,构建符合上述要求模型,并进行模拟仿真实验。相对于磁盘冷却模型来说,云计算环境下负载平衡文件迁移模型,在处理时间、吞吐量、资源占用量方面更优,提高云端系统的相应性能。然而,在云计算处理速度、云端资源优化方面研究尚存在不足,有待于进一步研究和分析。