时 磊
(浙江工商大学 信息与电子工程学院, 杭州 310018)
物联网技术的迅速发展为人们提供了诸多便利,其借助无线传感器网络(WSN)来搭建智慧教室、智慧工厂等智能系统[1-2].然而为了提高数据采集的准确度和检测质量,并避免外界环境对数据造成干扰,WSN需要部署大量传感器节点,导致节点冗余、数据重叠并缩短网络生命周期.
针对该问题,根据不同的应用场景的方法被提出.如潘琢金等[3]提出使用E-CPDA算法,通过减小动态簇的能耗来降低节点总能耗;崔艳玲等[4]根据交通流量特征提出了Megrez算法对车辆检测WSN中的数据进行了压缩;邹洪森等[5]提出了贪婪融合算法,根据具体应用需求设计相应的过滤机制和查询匹配规则来实现WSN数据的融合;Li等[6]则根据WSN的体系结构、QoS参数和链路流量限制来分析WSN数据融合方法.目前随着层次性传感器网络的广泛应用,Falorsl等[7]提出了LEACH算法;Zhuang等[8]提出了HEED算法对节点数据进行分簇融合,从而解决WSN发生动态变化时系统存在较大时延的问题;Wu等[9]则提出了一种高效的节点数据聚类算法,来解决基于集群的无线传感器网络的数据融合问题.
此外,由于无线传感器网络与智能计算中的神经网络具有一致的计算和感知能力,各种基于神经网络的WSN数据融合机制被提出来用以解决具有限制条件和外界环境变化的节点信息处理问题.Yang等[10]提出使用三层BP神经网络对采集的数据进行压缩,从而降低数据的冗余度;Gong等[11]则结合分簇协议和神经网络的特点,提出先根据数据的特征进行分类,然后将同类数据发送给同一个节点来降低数据通信量的方法.Balavoine等[12]则使用神经网络来提取数据的特征,并将特征值发送给传感器节点来提升数据的采集率.然而当数据量增加、BP神经网络层数增加时,网络容易陷入局部最优解,无法实现数据的压缩优化[13].
针对上述问题,本文提出使用深度自编码网络对实验室WSN数据进行压缩编码与分类.将同类别数据的深度特征发送给相同的数据汇聚节点实现大量无线传感器数据的压缩,从而减小数据规模.同时,本文提出使用贝叶斯估计算法对压缩后的数据特征进行融合,来减小数据的冗余度.仿真测试与实验结果表明,所提出的算法能够明显减少数据量,提升网络的生命周期.
实验室WSN通常由随机分布在整个实验室的传感器节点构成,节点在采集到传感器数据后经过单跳或者多跳的方式进行数据转发.本文采用层次路由协议构建WSN,该协议使用分簇的概念将节点分层并形成簇结构.在每个簇中,由簇首节点将簇内其他节点的信息进行汇总和压缩,并最终发送至Sink节点传输给数据存储服务器.由于在实验室环境下单个节点采集的数据短时间内不会发生突变,且在一定区域内的传感器节点采集的数据具有相似性,故本文设计的WSN模型如图1所示.在该模型中,传感器节点被划分为K={k1,k2,…,kn}个聚类集合,其中n为集合个数,且每个聚类集合包含一个融合节点负责数据融合以及与Sink节点的通信.
图1 WSN分层模型
为了记录传感器节点内包含的信息,本文使用Json类型的非关系型数据格式记录每个节点的ID、状态、坐标、剩余电量和采集的信息.
本文基于深度自编码网络对上述WSN分层模型采集的数据进行融合,算法整体流程如图2所示.该算法主要流程如下:
图2 基于深度自编码网络的数据融合算法流程
1) 对传感器采集数据进行预处理操作;
2) 使用K-means算法根据传感器的位置对所有节点进行聚类划分,生成n个聚类集合;
3) 使用深度自编码网络提取n个传感器节点聚类集合信息的特征;
4) 使用Softmax模型对采集的信息特征进行分类;
5) 根据分类结果来设置传感器节点分簇,并将电量最高的节点作为簇首节点;
6) 使用贝叶斯估计对每个簇内的元素进行数据融合,并将融合后的数据发送给Sink节点.
基于深度自编码的WSN数据融合算法的目标是对相似的数据进行压缩融合,然而当两节点的间距大于无线通信能耗模型阈值d0时,对两节点采集的数据进行融合前需要进行多跳通信,从而导致节点能量的过渡消耗.为了节省节点的能耗,文中使用K-means算法根据传感器的位置对所有节点进行聚类划分,其最大聚类中心数m为
(1)
式中,h与w分别为实验室的长和宽.
基于K-means的节点聚类过程为:
1) 从N个节点随机选取n个节点作为初始聚类中心,并将其他节点划分到距离最近的聚类中心所属类别中;
2) 将所有聚类中心的平均坐标作为新的聚类中心,并遍历剩余的节点将其加入到新的类中;
3) 重复执行上述步骤,直至聚类中心不再更新.
本文使用深度栈式自编码网络对传感器节点采集的信息进行特征提取,然后将最终一个隐藏层的激活值作为Softmax分类器的输入,并对数据进行分类.基于深度自编码网络的特征提取与分类模型如图3所示.
图3中,xi为神经元节点,h为隐含节点,‘+1’是激活值恒为1的偏置项,则在自编码网络中有
图3 基于深度自编码网络的特征提取与分类模型
(2)
式中:a为自编码网络的激活值;W为神经元权重;b为偏置;f为激活函数,则第l+1层编码的特征为
(3)
式中,W(l,1)、b(l,1)为第l个神经元对应的W(1)、b(1)参数.
因此,可以得到基于深度自编码网络的特征提取与分类模型的具体训练步骤如下:
1) 初始化网络参数,假设自编码神经网络的隐含层数目为ml,输入样本量为x={x1,x2,…,xm};
2) 使用输入样本计算自编码网络第1层的权重W(1,1)、b(1,1)和激活值a(1),并将激活值作为自编码网络第2层的输入,并计算权重W(2,1)、b(2,1)和激活值a(2);
3) 重复步骤2)直至计算完自编码网络所有层的权重和激活值;
4) 将第mi层计算得到的激活值作为Softmax分类器的输入,对输入样本向量进行分类;
5) 执行完成上述步骤后,使用有标签的样本向量进行反向传播,对所有层的参数进行微调.
经过上述训练步骤后,即可得到自编码网络与Softmax分类器的参数.
为了节省传感器数据转发所消耗的能量,本文对分簇中的数据进行融合.对于传感器节点聚类集合,文中为每个节点设置相应的分簇,并从中选择剩余能量最高的节点作为数据融合节点对压缩后的数据进行融合.
考虑到每个分簇节点具有相同的数据类型,文中数据融合方法通过置信距离筛选出可靠的数据.置信距离即实际数值与测量数据间的紧密程度,通过减小置信距离可以保证采集的数据更接近于实际值.对于两传感器节点si与sj,其置信距离为
(4)
(5)
其中,p(GF)为效益函数,作为概率密度函数的权重来保证在特征融合的前提下能获取更有效的数据.
(6)
式(6)可等效为两个独立同分布函数相乘的结果,对h个测量数据进行融合可以得到
(7)
本文使用UC Berkeley开发的面向网络技术开源离散时间模拟器NS2分析所提出的数据融合算法的性能.文中搭建的仿真环境为在100 m×100 m的空间内布置由100~300个传感器组成的无线传感器网络.本文设置各传感器节点的初始能量为2 J,传输数据包的长度为200 bit.同时,文中使用TensorFlow框架实现深度自编码网络.本文设置输入自编码网络的输入神经元数量为100,隐含神经元为20,输出神经元为10.
本文首先分析传感器聚类数与网络生命周期的关系.当布置100个传感器节点时,传感器网络生命周期随着聚类数的变化情况如图4所示.从图4可以看出,当聚类数量小于6时,网络的生命周期随着聚类数的增加而增长.表明此时类别数较少,每个类所需处理的传感器节点数量较大,且经过传感器节点间的距离较长,信息传递需要消耗较多的能量,从而加速传感器电量的消耗.当聚类数大于6时,WSN的生命周期随着聚类数的增加而减小.这是由于聚类数过多,导致相同区域内具有相似数据的节点融合效率没有达到最大值,且对信息的处理不够充分.同时数据经簇头传输给Sink节点的多跳次数也较多,使得传感器的工作量变大,因此,本文后续设置WSN的聚类数为6.
图4 传感器网络生命周期随聚类数的变化情况
本文采用均值方差的形式计算数据融合的精度,具体计算表达式为
(8)
本文通过在100 m×100 m的仿真测试区域布置100、200和300个传感器节点来验证所提出算法在不同数目节点下网络的生命周期结果,如图6所示.从图6可以看出,随着节点数目的增加,网络的生命周期在逐渐变大,同时在节点数目较少时不同算法间的差异较小.而当节点数目明显增加时,文中算法的WSN生命周期增加较大,表明所提出的方法能够明显增加无线传感器网络的生命周期.
本文提出了一种基于深度自编码网络的实验室WSN数据压缩编码方法.该方法将同类别数据的深度特征发送给相同的数据汇聚节点,实现了大量无线传感器数据的压缩,从而有效减小数据规模.采用贝叶斯估计算法对压缩后的特征进行融合,以减小数据的冗余度.仿真测试与实验结果分析表明,所提出的算法能够显著减少数据量,提升网络的生命周期.同时相比以往算法的数据融合精度有较为明显的提高,且增加了无线传感器网络的生命周期.