杨倩倩,王 龙
(晋中信息学院大数据学院,山西 太谷 030800)
大数据技术的发展与进步提高了数据处理的效率[1],增加了人们在日常生活和工作中的认知盈余,开拓了眼界,拓宽了视野。 但随着大数据网络时代信息的不断发展[2],数据积攒越来越多,造成可使用数据被海量冗余数据覆盖,长此以往将会导致诸多不良影响,因此需智能采集移动数据,以提高数据采集效果。
史兵丽等[3]设计了基于ZigBee 无线网络的应变数据采集系统,并结合调制协调器和FPGA 阵列完成数据采集。 Karthikeyan A 等[4]指出由于信号覆盖的环形范围导致三维无线传感器网络数据重复,为此,制定了三维分散分组(3D-SG)方案,根据该方案实现了数据采集与评估。 陈琪等[5]将所有节点均匀划分成簇,然后在簇内采用节点分级的思想进行数据的多跳传输,最后使用移动采集器沿着最短路径访问簇头节点完成数据采集。 上述三种方法虽然都实现了数据采集,但是由于移动节点具有较高的随机性,因此在采集过程中无法对其进行较为准确的对比,导致数据采集效果有待进一步提升。
在上述分析的基础上,本文在利用已有的LEACH 分簇算法完成移动数据节点分类采集的基础上,利用最小生成树方法分配移动数据采集时隙,以降低无线传感网中的节点能量消耗,提升移动数据采集效果。
首先,将未完成聚类[7]的节点数据对象的数目设为N,且所有未完成聚类对象的属性采用G+P维来表示,结合变化不定的数据信息,构建如下信息数据集U:
由于量纲的不同,WSN 中节点数据信息具有一定的随机性,因此无法对其进行较为准确的对比。要使不同量纲的数据对象能够相互比较,就必须采用正规的无量纲化预处理方法,具体为先使用无量纲化法对节点数据进行处理,再将处理结果投影到[0,1]区间内,计算方法如下式:
式中:xit代表在处理前的某维属性,而x′it则代表处理后的某维属性,min 代表这一维属性数据中的最小值极限,max 代表这一维属性数据中的最大值极限。
式中:Ht代表在所有维的属性中节点数据的熵值。如果xit相对于预先指定的t的值完全相等,则有
1.2.1 计算势值
当WSN 是由双重属性数据对象组成时,任意一个WSN 中节点xi对于节点xj处所产生的势值可表示为:
1.2.2 查找空势心
一般空间位势中心位于同一类簇的中心,类簇的空间中心是该类节点数据对数据空间中某一概念的附属中心,也是该概念特征的节点数据聚集中心。此外,在无线传感网络数据场中,空间势心是一种用物体来表示的客观实体节点数据,即由传感器节点在物理空间的位置属性和感知属性构成。
采用LEACH 分簇算法将整个无线传感器网络节点划分为K个聚类范围,作为聚类核心的LEACH分簇算法实现了移动Sink 数据采集方案[9]的空间分布均衡。
以确定的无线传感网络节点的物理位置质心坐标为基础,依据质心点之间的最小欧氏距离原理和剩余能量不低于平均能量原则,确定各个聚类中移动数据采集点。
势能函数[10]是指在整个力场中,势能依赖于位置和距离的函数。 在一个由双重属性数据对象组成的WSN中,决定在节点数据空间U中进行聚类,划分为K个类{Π1,Π2,…,Πk},此簇内所有对象的势能相加之和与该簇内对象总数量之间的比值就是划分簇的平均位值¯φ(K),以上述确定的空势心为基础,将¯φ(K)表示为:
式中:NumK代表进行K个聚类划分后该簇内对象总数量,Φ(xi)代表任意一个WSN 在xi处的位值和其他WSN 节点在xi处产生的位值的乘积。
WSN 数据场中的等势线被认为是空间势心所环绕。 即在叠加过程中点数较大的节点数据形成的势心是一种接近目标数值的节点数据,而节点的数据在叠加时比叠加之前较小数值的节点数据起到了更大的作用。 因此根据上述计算结果绘制等势线,为无线传感网络数据采集奠定了良好基础。
使用LEACH 分簇算法[11]划分无线传感网络区间后,网络中所有传感器节点的聚集节点即为聚类中的数据采集点,因此本文选取二维Dubins 曲线[12]实现所有采集点的连线。
其中,RSL 型Dubins 曲线主要包括三段,即:
式中:φ0代表聚类区间的切线内夹角,φ1代表聚类区间的切线外夹角,d代表各个聚类区间之间的距离,sinφ0代表聚类区间的切线内夹角的正弦值,cosφ0代表聚类区间的切线内夹角的余弦值,sinφ1代表聚类区间的切线外夹角的正弦值,cosφ1代表聚类区间的切线外夹角的余弦值,arctan 代表反正切函数,mod 代表求余函数,|L|、|S|和|R|分别表示RSL 的三段曲线长度,相加可获得完整的Dubins曲线的长度,即:∮LRS=|L|+|S|+|R|。
在分簇数据的基础上采用Sink 数据对节点再进行细分,其细分后节点构成了Dubins 曲线,从而有序快速地采集数据。
综合上述分析,本文移动数据采集流程如图1所示。
图1 无线传感网移动数据采集流程图
至此完成无线传感网络移动数据采集。
为了进一步优化无线传感网数据效果,本文利用节点剩余能量作为边权重,再利用克鲁斯卡尔(Kruskal)算法构建最小生成树[13-14]。
假设无线传感网数据连通网N=(V,E),将N中的边按权值从小到大的顺序排列:
①初始状态为只有n个顶点而无边的非连通图T=(V,{}),图中每个顶点自成一个连通分量。
②在节点能量E中选择权值最小的边,若该边依附的顶点落在T中不同的连通分量上(即不形成回路),则将此边将入到T中,否则舍去此边而选择下一条权值最小的边。
③重复步骤②,直到T中所有的顶点都在同一连通分量上为止。 由此得到最小生成树示意图,如图2 所示。
图2 最小生成树示意图
图2 中数字为节点剩余能量。 如节点2 的剩余能量为30。 依据节点剩余能量计算边权重,每条边权重等于边的两端节点剩余能量之和。 如由节点5和节点2 构成的边,其边权重为20 与30 的和,即50。
先利用Kruskal 算法构成生成树,然后给树中的每个节点分配时隙,分配过程的伪代码如下:
①把原图中所有边按权值排序
②初始化最小生成树为空,以及初始化连通分量
③for(intn=∅;n<N;n++)
④if(E[n]∉T=(V,{ }){
⑤把边E[n]加入最小生成树
⑥合并E[n]所在的连通分量
⑦}
至此完成无线传感网移动数据采集效果提升。
为了验证无线传感网移动数据采集效果提升方法的整体有效性。 分别用本文方法、文献[3]方法和文献[4]方法进行如下测试。
使用MATLAB 软件建立仿真平台。 考虑200个无线传感网络节点随机分布于500 m×500 m 区域。 每个节点的通信半径为50 m。 200 个节点内只有部分节点在每轮产生数据包,即产生数据包的概率从0~1 变化。 具体参数设置如表1 所示。每当移动节点移动到终点并返回起点时,称其完成一“轮”移动。 根据移动节点的通信范围,可以将全部区域划分为直接通信区域和多跳通信区域。
表1 仿真参数设置
图3 中,L1 和L2 两条曲线之间的区域即为直接通信区域,该区域内的节点距离轨道较近,因而能够向移动节点直接传送数据。 而无线传感网中的其他节点需要采用多跳中继方式将数据传送给区域内节点。
图3 应用场景示例图
3.2.1 质心坐标查找准确性测试
根据上述参数设定,考虑到不同方法适用场景不同,因此利用式(3)计算信息熵权重,并以0.85 作为固定值,设置移动节点坐标为(118,89),测试三种方法查找节点的物理位置质心坐标的准确性。 其测试结果如图4 所示。
图4 不同方法质心坐标查找准确性对比
由图4 可知,采用所提方法、文献[3]方法和文献[4]方法的质心坐标查找准确性相差均较小,所提方法和文献[3]方法最高差值均为0.10%,文献[4]方法最高差值为0.16%。 整体来看,所提方法整体质心坐标查找准确性曲线波动幅度较小,表明所提方法的质心坐标查找误差是三种方法中最低的。 这是因为所提方法结合了信息熵权重,使用势能函数对节点数据对象进行分簇,提高了方法的质心坐标查找准确性。
3.2.2 能耗测试
假设本文所研究的无线传感网中节点的初始能量设置为30 J,结合Kruskal 最小生成树算法流程,构建能耗模型如下:
由图5 可知,在相同的有效测试次数下,所提方法的能耗量均在0.06 ~0.07 的最佳区间内,且随着测试次数的增多,数据采集的能耗量也在随之下降。虽然文献[3]方法的数据采集能耗量和文献[4]方法的数据采集能耗量也在随之下降,但能耗区间与所提方法的最佳能耗区间相比过高,这是因为所提方法利用Kruskal 算法构成最小生成树,然后给树中的每个节点分配时隙,促使每个节点得到的实时能耗量最低,较低的能耗量进一步增强了采集的稳定性,这充分验证了所提方法的有效性。
图5 不同方法数据采集能耗量对比
3.2.3 延时率测试
对比三种方法在发送采集移动数据时产生的延时率,延时率等于数据帧长度和发送速率的比值,延时率越低,数据采集后的传输效果越好。 对比结果如表2 所示。
表2 不同方法数据采集的延时率
由表2 可知,在多次有效测试后,所提方法的延时率均在20%以下,而文献[3]方法和文献[4]方法的延时率都在25%以上,这是因为所提方法首先对无线传感网络数据进行聚类处理,将需要采集的数据提前聚类,提高了采集效率,降低了延时率。 通过上述对比,验证了所提方法的有效性。
近年来,由于可循环有效数据资料的流失对日常生活造成了许多不便,因此需要对聚类移动数据进行智能采集。 目前无线传感网数据采集方法的采集效果有待进一步提升,所以提出无线传感网移动数据采集效果提升方法。 利用无线传感网络构成势值等势线,采用LEACH 算法聚类,然后将聚类后的节点数据构成Dubins 曲线完成数据采集,最后通过构建最小生成树分配数据收集时隙。 由仿真结果可知,所提方法解决了数据采集误差大、数据采集效率低、数据采集所用能耗大、数据采集的延时率高的问题,为将来数据智能化采集奠定了基础。