程 宁,李 超
(1.湖北轻工职业技术学院信息工程学院,湖北 武汉 430070;2.湖北大学信息化建设与管理处,湖北 武汉 430062)
无线传感网络[1]随着IT(Information Technology)技术和通讯科技的不断发展,其结构复杂度逐渐提升,规模不断扩大,网络中的大数据随之增加。无线传感网络中的大数据具异质性、多样性和复杂性等特点。 大数据的价值较高,在科学研究、经济和社会等领域中发挥着重要作用。 大数据聚类是分析大数据的基础内容与关键点[2],在数据挖掘领域中,大数据聚类成为国内外研究的重要课题,可以为人们认识和了解事物提供依据,在此背景下研究无线传感网络大数据聚类优化方法具有重要的现实意义。
文献[3]方法将大数据输入卷积神经网络中,获得数据粗特征,通过孔洞卷积训练数据粗特征,得到数据的精细特征,并将其输入胶囊网络中完成大数据聚类。 该方法的聚类结果Jaccard 系数较低,数据聚类效果不佳。 文献[4]方法在支持k离群度概念的基础上获取网络大数据的非边界点集和边界点集,分别采用SMOTE 算法和基于距离的欠采样算法对上述点集展开聚类处理,实现大数据分类,但是该方法的平均熵较高,聚类精度低。 文献[5]方法在基于移动机器学习的分布式方案中高效运行k均值聚类,处理网络上的大数据聚类,通过神经处理器的k均值聚类技术,构建了大数据聚类方法,但是该方法的聚类效果较差。
为了解决上述方法中存在的问题,提出基于粒子群算法的无线传感网络大数据聚类优化方法。 该方法主要引入了粒子群算法,并且结合了主成分分析和信息熵等方法,进一步优化了大数据聚类效果,实现无线传感网络大数据高效聚类。
无线传感网络中的大数据维度较高,增加了聚类的难度,为此,须预处理无线传感网络大数据,即降维处理数据。 该降维处理过程为基于粒子群算法的无线传感网络大数据聚类优化方法,在主成分分析方法中引入信息熵概念[6-7],对无线传感网络大数据展开降维处理。
无线传感网络中数据源传输的数据存在m种取值X={s1,s2,…,sm},每种取值的概率用a1,a2,…,am表示,同时存在。 信息熵J描述的是数据不确定性-logai的平均值,其表达式如下:
信息熵越小,表明数据中存在的信息量越小,相反,信息熵越大,表明数据中存在的信息量越多,因此在数据降维过程中,应该保留信息熵大的数据。
主成分分析处理数据的过程如下:
①在无线传感网络中,对m条样本数据展开n次观测,根据观测值xij建立观测矩阵X:
②通过下式计算数据的均值¯xj和标准差sj:
③建立数据的相关阵E:
式中:eij表示相关阵中存在的元素。
④通过下述过程分解矩阵E:
A.设μ1≥μ2≥…≥μm≥0 表示矩阵E的特征值,通过下述公式计算特征值的贡献率Vj:
B.选取Vj>80%的特征值作为无线传感网络大数据的主成分,用r1,r2,…,rm表示特征值的特征向量。
C.选取r1,r2,…,rm中的前a个特征向量建立无线传感网络的主成分载荷阵Im×a=(r1,r2,…,ra);
⑤获得无线传感网络数据的主成分。
结合信息熵和主成分分析法[8-9]对无线传感网络展开降维处理,具体过程如下:
①设定信息熵阈值ε,将数据的J与ε对比,筛选数据特征,计算属性ri对应的信息熵J(ri),当J(ri)>ri,在集合S中存入ri;
③计算数据之间的协方差矩阵Cov;
④获取Cov 对应的特征向量和特征值;
⑤选取无线传感网络数据前l个特征值较大的特征向量,以此建立数据的特征向量矩阵Bn×l;
⑥获得无线传感网络的降维结果U:
至此通过式(8)输出降维结果,完成大数据降维处理,为引入粒子群算法,构建无线传感网络大数据聚类奠定基础。
在大数据降维处理后,基于粒子群算法的无线传感网络大数据聚类优化算法采用粒子群优化算法优化直觉模糊核聚类算法[10-11]的聚类中心,利用优化后的算法完成无线传感网络大数据的聚类优化。
设X={x1,x2,…,xn}表示粒子种群,由m维空间中存在的n个粒子组成,在粒子群算法中,设xid(t)表示当前时刻种群对应的位置,vid(t)表示当前时刻种群对应的速度,设置惯性因子ξ,通过式(9)更新种群中存在的第i个粒子在优化过程中的位置xi={xi1,xi2,…,xin}和速度vi={vi1,vi2,…,vin}:
工程项目作为一个临时的组织体系而独立存在,为了实现企业的项目规划目标,只有提升物资采购的管理水平,才能全面有效地保证工程项目建造的物资资源的精准供给。规范物资的采购机制,应用计算机、网络技术及电商平台等手段,缩短物资采购周期,降低采购成本;将工程建造过程与物资供应过程无缝对接,尽可能地减少库存、消除二次搬运,避免停工待料的情况发生,避免物资延误生产的事件发生,进而达到精准物资供应管理。
式中:t表示种群的迭代次数;c1、c2表示加速常数;xid(t+1)、vid(t+1)表示经过上式更新后,粒子获得的新位置和新速度;r1、r2为随机数,于[0,1]区间内取值。
粒子群优化算法的收敛速度和全局搜索能力较强[12-13],基于粒子群算法的无线传感网络大数据聚类优化方法利用这一特点,优化直觉模糊核聚类算法,提高基于粒子群算法的无线传感网络大数据聚类优化方法的聚类效率。
用X={x1,x2,…,xn}表示数据样本空间,数据聚类中心用粒子表示,构成的集合V={v1,v2,…,vn},设置粒子群优化算法的适应度函数g(xi):
式中:Kkm(Ikν,Ikη,A)表示直觉模糊核,Ikν表示隶属矩阵,Ikη表示非隶属矩阵,A表示输出最优解时的聚类结果。
无线传感网络大数据聚类优化的具体过程如下:
①初始化参数,具体包括速度最大值vmax、终止阈值φ、惯性因子ξ、最大迭代次数Ymax、常数c1、c2、种群规模z;
②对粒子群展开初始化处理,选取算法的初始种群V1,V2,…,Vz,数据的聚类中心构成的集合{v1,v2,…,vv}可用粒子Vi表示;
③划分无线传感网络大数据的非隶属矩阵Ikη和隶属矩阵Ikν,设FGK(xj,ai)表示数据聚类中心ai与数据xj之间存在的直觉模糊欧氏距离[14-16]。 当FGK(xj,ai)的值不为零时,存在下式:
式中:ν(b)ij、η(b)ij分别表示高斯核和模糊核。
令FGK(xj,ai)的值为零,存在下式:
④在式(10)的基础上计算粒子的g(xi)。
⑤设Aid(t)表示粒子在寻优过程中获得的最优值,对Aid(t)、g(xi)展开判断:当最优值Aid(t)优于g(xi)时,将Aid(t)作为粒子在种群中的新位置;设Vgd(t)表示粒子群在寻优过程中获得的最优值时的速度,对Vgd(t)、g(xi)展开判断:当Vgd(t)优于g(xi)时,将Vgd(t)作为粒子群的新速度。
⑥对粒子在种群中的速度和位置展开更新,利用更新后的粒子构成算法的下一代种群。
⑦在迭代更新次数为t=t+1 时,判断算法是否符合终止条件,如果满足,输出算法此时的最优解,获得无线传感网络大数据聚类结果A;如果不符合终止条件,则返回步骤③中;
⑧重新划分无线传感网络大数据的非隶属矩阵Ikη和隶属矩阵Ikν;
⑨设置参数aνij、aηij、aπi,利用上述参数更新无线传感网络大数据的聚类结果A:
式中:K(·,·)表示高斯核函数,aνij为具有a个特征的数据高斯核聚类速度,xνj为粒子种群x到j点的聚类速度,aνj为具有a个特征的数据聚类到j点聚类速度,aνi为具有a个特征的数据聚类到i点的速度,aηij为具有a个特征的数据高斯聚类成功概率,xηj为粒子种群x到j点的聚类成功概率,aηj为具有a个特征的数据聚类到j点的概率,aηi为具有a个特征的数据聚类到i点的概率,aπj为具有a个特征的数据高斯核聚类距离。。
⑩设置粒子群算法的终止阈值φ,当迭代更新次数为t=t+1 时,如果‖A(t+1)-A(t)‖≥φ,返回步骤⑧中,如果‖A(t+1)-A(t)‖<φ,输出无线传感网络大数据的聚类优化结果A。
至此完成无线传感网络大数据聚类优化方法设计,通过结合信息熵和主成分分析法实现对无线传感网络展开降维处理,最终引入粒子群算法,实现大数据聚类。
为了有效分析设计方法的性能,仿真分析过程以Wine Quality Dataset 数据集为研究对象,该数据集具备大量的数据,符合研究的无线传感网络大数据的特点,具体的数据设置如表1 所示。
表1 数据设置
上述的数据均采用数据集中的白葡萄酒样品,其样本数量为4 898 个,数据集预测平均值基准性能的均方根误差(Root Mean Square Error,RMSE)为0.148 的质量分数。
在仿真分析过程中,随机选择上述数据集中的1 000 个数据(包含12 类数据),并且随机分布,其数据分布如图1 所示。
图1 数据分布图
在完成仿真分析对象的选择后,配置仿真设备,在仿真分析的过程中,主要涉及计算机主机和部分软件,具体如表2 所示。
表2 仿真设备
按照上述配置设置仿真环境。
在验证设计方法性能前,需要设置仿真参数,为仿真分析做准备,具体仿真参数设置如表3 所示。
表3 仿真参数设置
在仿真开始前,按照上述参数值设置仿真参数。
为了有效分析基于粒子群算法的无线传感网络大数据聚类优化算法的性能,需要选择具体的性能指标,通过性能指标验证方法,考虑全面性和有效性,该仿真分析以数据聚类效果、Jaccard 系数、数据平均熵和时间复杂度为性能指标,其中Jaccard 系数可以用于数据聚类精度的评价,Jaccard 系数Ja的计算公式如下:
式中:ci表示数据聚类结果;函数Nu(·,·)的主要目的是获取符合条件的数据对数量;函数sa(·,·)的主要作用是判断数据的类别。
数据平均熵性能指标的计算如下:
数据熵J(ci)的表达式如下:
式中:Ah表示在类别ci中数据h所占的比例。 为了有效反映方法的性能,取数据熵的平均值,公式为:
时间复杂度性能指标的计算公式为:
式中:R表示数据属性的总和,Y表示属性数,p表示迭代次数,k表示聚类数,s表示Y个属性的取值种数的平均值。
四个性能指标中,Jaccard 系数的数值越大,则表明聚类方法的性能越好,而数据平均熵和时间复杂度的数值越低,则表明聚类方法的聚类效果越好,而数据聚类效果通过直观地展示数据聚类情况,直接分析聚类效果,数据越聚堆,并且聚集的类别数量与实际数据一致,则表明方法的聚类效果越好。
仿真分析采用对比分析的形式,对比方法分别为基于粒子群算法的无线传感网络大数据聚类优化方法、文献[3]中的胶囊网络数据聚类方法和文献[5]中的k均值聚类方法。
3.5.1 数据聚类效果
应用三种方法聚类数据,将随机分布的数据进行聚类,验证不同方法的数据聚类效果,其结果如图2所示。
图2 不同方法的数据聚类效果
根据图2 所示的数据聚类效果可知,所提出的基于粒子群算法的无线传感网络大数据聚类优化方法有效聚类了样本数据,聚类的数据类别与实际样本数据一致,均为12 类,并且数据经过本文方法聚类后,聚类效果较好,没有数据未被聚类;而胶囊网络数据聚类方法的聚类效果较差,该方法虽然将数据聚类了12 类,但是同类别的数据相对分散,聚类效果弱于本文方法;k均值聚类方法仅聚类了10 类数据,样本数据中的2 类数据未被聚类,表明该方法将其中的2 类数据误聚类成其他类型数据,由此可知,本文方法的数据聚类效果最好。
3.5.2 Jaccard 系数分析
为了验证基于粒子群算法的无线传感网络大数据聚类优化方法的整体有效性,需要对其展开分析。首先采用Jaccard 系数对基于粒子群算法的无线传感网络大数据聚类优化方法、胶囊网络数据聚类方法和k均值聚类方法的聚类效果展开评价,其结果如图3 所示。
图3 不同方法的Jaccard 系数
结合图3 中的数据可知,Jaccard 系数与数据量之间呈线性关系,随着数据量的增加,三种方法的Jaccard 系数不断减小,Jaccard 系数越低,数据聚类精度越低,但是本文方法在数据量达到1 000 个时,Jaccard 系数仍在0.70 以上,而胶囊网络数据聚类方法和k均值聚类方法的Jaccard 系数仅为0.41 和0.38,三种方法相比,本文方法的Jaccard 系数高出另两种方法0.29 和0.32,因此,本文方法的Jaccard系数最高,表明所提方法的数据精度高,具备了一定的可行性。
3.5.3 数据平均熵分析
为了进一步验证上述方法的聚类精度,引入熵方法对数据聚类效果展开分析,分别分析本文方法、胶囊网络数据聚类方法和k均值聚类方法的数据平均熵,其结果如图4 所示。
图4 不同方法的数据平均熵
数据平均熵越大,数据聚类精度越低,相反平均熵越小,数据聚类精度越高。 分析图4 中的数据可知,平均熵与Jaccard 系数相反,随着数据量的增多而增大,本文方法在数据量达到1 000个时,其数据平均熵达到了0.36,而胶囊网络数据聚类方法和k均值聚类方法的数据平均熵分别达到了0.63 和0.64,数值均超过了0.60,三种方法相比,本文方法的数据平均熵降低了0.27 和0.28,该结果表明本文方法的数据平均熵最低,验证了本文方法的聚类性能更佳。
3.5.4 时间复杂度
在上述仿真分析中,通过Jaccard 系数和平均熵分析了三种方法的聚类精度,在此基础上分析方法在聚类过程中的时间复杂度,三种方法的时间复杂度如图5 所示。
图5 不同方法的时间复杂度
分析图5 中的数据可知,在无线传感网络大数据聚类过程中,本文方法、胶囊网络数据聚类方法和k均值聚类方法的时间复杂度随着数据量的增大逐渐增大,表明数据量的增加,会增加三种方法聚类所需的时间,通过对比发现,本文方法的时间复杂度增加幅度最低,在数据量达到1 000 个时,时间复杂度仅为26.3%,而胶囊网络数据聚类方法和k均值聚类方法的时间复杂度均达到了50.0%左右,其中胶囊网络数据聚类方法的时间复杂度达到了51.9%,三种方法相比,本文方法的时间复杂度降低了23.0%以上,因此,本文方法具有较低的时间复杂度,具备了更高的应用价值。
针对目前聚类方法面对无线传感网络中大量数据表现出的聚类精度低和时间复杂度高等问题。 提出基于粒子群算法的无线传感网络大数据聚类优化方法,该方法首先对高维的无线传感网络大数据展开降维处理,其次结合粒子群算法和直觉模糊核聚类算法,实现数据的聚类处理。 同时通过仿真分析验证了该方法可在短时间内精准地完成无线传感网络大数据的聚类,聚类的数据类别与实际样本数据一致,均为12 类,并且聚类效果较好,其Jaccard 系数达到了0.70 以上,数据平均熵仅为0.36,时间复杂度仅为26.3%,验证了该方法的可行性和有效性,其具备更高的应用价值。