翁子寒
摘 要: 目前,计算数据中心设计动态数据聚集算法,通过仿真实验进行验证分析,表明动态数据聚集算法能够保障计算数据中心的服务质量,提高计算机设备稳定性,提升计算机数据中心的服务质量,并且还可以在不同时段动态分配数据使用,实现有效的聚集数据分配模式,从而确保系统计算存储节点可以轮流运转,提升计算机数据中心区域温控设备的精度,充分利用计算数据中心资源,满足用户的实际服务需求,降低计算数据中心系统动态数据分配能耗。
关键词: 计算数据中心; 动态数据; 聚集算法; 仿真实验
中图分类号: TN919.2?34 文献标识码: A 文章编号: 1004?373X(2015)17?0142?02
Research on aggregation algorithm of dynamic data in computing data center
WENG Zihan
(Shanghai Children′s Medical Center, Shanghai 200127, China)
Abstract: The aggregation algorithm of dynamic data was designed according to current computing data center, which was verified and analyzed by simulation experiments. The simulation results show that this algorithm can ensure service quality of compu?ting data center, enhance the stability of computer equipment and improve service quality of computer data center. Data usage can be allocated dynamically at different time period to achieve effective allocation pattern of aggregate data, which can ensure that the storage nodes of system computation operate in turns, and improve the accuracy of temperature control equipments in the area of computer data center. This algorithm can make full use of the resources in computing data center to satisfy the actual service demands for users, and reduce the allocation energy consumption of dynamic data in computing data center system.
Keywords: computing data center; dynamic data; aggregation algorithm; simulation experiment
本研究针对当前计算数据中心的动态数据分配及数据分配方法中存在的问题,其局限性、公式复杂、算法运行效率低等弊端,提出动态数据聚集算法,并结合计算数据中心实际情况进行改进,仿真研究动态数据聚集算法在计算数据中心的应用效果。
1 浅析动态数据聚集算法
动态数据聚集算法中,聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。聚类的定义是:给定一个由许多数据元素组成的集合,将其分为不同的组(类、簇),使得组内的元素尽可能相似,不同组之间的元素尽可能不同[1]。在动态数据聚集算法中,其数据流具有以下特点:数据实时到达,数据到达次序独立,不受系统控制;数据量巨大,不能预知其大小;单次扫描,数据一经处理,除非特意保存,否则不能再次被处理。由于计算机数据中心数据流的特点,要求数据压缩表达,并且可以迅速、增量地处理新到达的数据,要求该算法可以快速、清晰地识别离群点。
2 计算数据中心应用动态数据聚集算法实现
对动态聚类算法中的数据流,在每一个时刻,动态聚类算法的在线部分连续地读入一个新的记录,将多维的数据放置到对应多维空间中的离散密度网格。在第一个gap时间内产生了初始簇[2],然后,算法周期性地移除松散的网格以及调整簇,由于不可能保留原始数据,D?Stream将多维数据空间分为许多密度网格,然后由这些网格形成簇,如图1所示。
文本中,假设输入的数据有[d]维,在计算机数据中心空间中定义数据:
[S=S1×S2×…×Sd]
在动态数据聚集中,可以将[d]维的空间[S]划分成密度网格。假设对于每一维,它的空间是[Si,][i=1,2,…,d]被分为[pi]个部分。
[Si=Si,1∪Si,2∪…∪Si,pi]
这样数据空间[S]被分成了[N=i=1d=pi]个密度网格。每个密度网格[g]是由[S1, j1×S2, j2×…×Sd,jd,][ji=1,]2,…,[pi]组成,将它表示为:
[g=(j1, j2,…, jd)]
一个数据记录[X=(x1,x2,…,xd)]可以映射到下面一个密度网格[g(x):]
[g(x)=(j1, j2,…, jd) where Xi∈Si,ji]
根据网格密度变动,更新网格密度,当一个新的计算机中心数据到网格,接收数据记录,设一个网格[g]在时刻[tn]接收到一个新的数据记录,假设[g]接收到最后的数据记录是在时刻[tl(tn>tl),]那么[g]的密度可以按下面的方式更新:
[D(g,tn)=λtn-tlD(g,tl)+1]
计算数据中心动态数据聚集算法的实现中,其最基本的计算思想是,在聚集数据的最中心对象,对[n]个对象给予[k]个划分区域;并且此代表对象也可以被称为中心点,而其他的对象为非代表对象,反复使用非代表对象替换代表对象,从而动态地找出数据中心更好的中心点,改进数据中心聚类质量。自定义一个函数:
function [result,c,s,index,label]=kpam(data,k);
[N,n]=size(data);
index=randperm(N);
v=data(index(1:k),:);
for t=1:100
if k==1
for j=1:N
label(j)=1;
end
else
for i=1:k
label(index(i))=i;
end
for j=k+1:N
for i=1:k
dist(:,i)=sqrt(sum((data(index(j),:)?v(i,:)).^2));
end
[m,l]=min(dist');
label(index(j))=l;
end
end
for i=1:k
c(i,:)=v(i,:);
end
一个非中心点代替一个中心点的总代价s
s((h?k),:,i)=sum(cjih(:,:),1);
end
end
if min(min(s))==0
for i=1:k
for h=k+1:N
if s((h?k),:,i)==min(min(s))
s((h?k),:,i)=1;
end
end
end
end
3 计算数据中心动态数据聚集算法仿真研究
3.1 仿真试验环境搭建
对于计算数据中心动态数据聚集算法,针对动态数据聚集算法实施仿真试验,在一台带有1.7 GHz CPU和256 MB内存的PC上进行,用VC++ 6.0以及一个Matlab图形接口实现动态聚类算法仿真。研究其算法性能及结果准确性,数据中心将10个节点存放于一个机架上,环境参数见表1。
在动态数据聚集算法仿真试验中,可以设置:[Cm=]3.0,[Cl=0.8,][λ=0.998,][β=0.3,]使用两个测试集。第一个就是测试数据集,也是一个真实的数据集合KDD CUP?99,它包含由MIT林肯实验室收集的网络入侵数据流。也使用人工数据集测试动态聚类算法的伸缩性。这个人工数据集包含的数据数量从35 000~85 000不等,簇的数目被设定为4,维度的数目范围[3]从2~40。在动态数据聚集算法仿真试验中,将数据集的所有属性规格化为[0,1]。每个维度被均匀地分为多个数据段,每个段的长度为len。
3.2 仿真结果评估
将评估计算数据中心的动态聚类质量与效率与传统计算数据中心的算法进行比较,本文算法能提高算法时间、空间效率,对于计算中心高速的数据流不损失聚类质量,有独特的优势,准确地识别实时数据流,并实施演化行为。计算数据中心动态聚类算法与传统数据分配算法相比,数据准确性得到提升,为98.2%,常规数据分配准确率为83.6%,有明显优势(P<0.05)。计算数据中心动态聚类算法的应用,可以提升计算数据中心系统的稳定性。
4 总 结
基于计算机数据中心数据分配中,在数据中心网络技术基础上,由于数据节点可以自由移动,这样会降低数据分配进度,从而降低系统性能,导致计算机数据中心网络维护开销过高。故此,针对计算机数据中心数据分配,应该改进传统静态数据流数据方法,实现动态数据聚集,减少信息冗余,提升数据计算效率及安全性。
参考文献
[1] 李文华,罗霄,张乐.飞控计算机数据模拟器的设计与实现[J].现代电子技术,2014,37(11):104?106.
[2] 徐小龙,杨庚,李玲娟,等.面向绿色云计算数据中心的动态数据聚集算法[J].系统工程与电子技术,2012,34(9):1923?1929.
[3] 郭建波.动态数据聚集算法探究:以绿色云计算数据中心为研究方向[J].中国信息化,2013(4):108?109.
[4] 翁祖泉,张琪.基于物联网海量数据处理的数据库技术分析与研究[J].物联网技术,2014,4(6):88?90.
[5] 李海涛.云计算用户数据传输与存储安全研究[J].现代电子技术,2013,36(20):24?26.
[6] 杨波.基于云计算的作战数据存储系统研究[J].现代电子技术,2013,36(19):12?14.