刘逸飞
(交通运输部上海打捞局,上海 200090)
数据采集技术一般是在通信网络中部署传感器节点,通过对传感器节点采集到的数据进行汇总,从而获得该区域内的数据分布情况,该技术目前已经被应用到不同领域中。例如,文献[1]通过人机融合算法对工业物联网进行节点部署,并提出了一种高效的数据采集系统。文献[2]以PLC 通信设备作为数据采集工具,对数据采集的整体流程进行了讨论与分析。而在舰船通信过程中,通信数据的采集质量对后续的舰船调度决策起到重要作用,因此文中结合聚类算法,通过引入平滑函数对冗余数据进行处理,从而优化数据采集效果,在此基础上对最优数据采集路径进行规划,从而得到质量更高的数据采集结果,为舰船航行提供可靠的数据支持[3]。
在舰船通信网络正常运行过程中,不完整节点通常有两种类型,分别为静态通信节点以及动态通信节点[4]。由于通信节点的不完整性,在进行数据采集时通常需要对模糊聚类中心进行选定,在此基础上提取通信数据,并对其进行模糊化处理。对此,文中首先定义节点传输数据的概率,在此基础上结合聚类阈值,选定不完整节点数据的模糊聚类簇中心,具体实现流程如下。
设舰船通信网络节点到网络区域中心的距离为D,通过界定通信数据传输的最大范围以及最小范围,可以计算节点向动态网关节点传输数据的概率c,具体概率表达式如下所示:
其中,R和r分别代表通信网络不完整节点通信覆盖范围的最大值以及最小值[5]。
在通信覆盖范围的限制下,通信网络采集的总次数为T,由此可以规定静态节点和动态节点的采集次数,具体表达式如下所示:
其中,Tm代表静态节点的采集次数,Ts代表动态节点的采集次数。
在此基础上,文中设定了节点聚类阈值,若舰船网络通信节点随机生成的数值低于聚类阈值,则说明该节点无法作为模糊聚类中心;同理,若通信节点随机生成的数值高于聚类阈值,则说明该节点的聚类表现良好,因此可以将该节点作为通信区域内的模糊聚类中心[6]。聚类阈值T(xi)的设定主要与循环次数以及中心节点与总节点之间的比值相关,具体计算公式如下所示:
其中,P代表模糊聚类中心在总通信节点数量中的占比,G代表单次循环条件下通信节点数量与总循环条件下通信节点数量的比值,xi代表通信节点随机生成的数值。
计算出聚类阈值后,观察聚类阈值的表达式可以看出,文中选定的聚类阈值波动范围为0~1。因此在对不完整节点进行数据生成时,也需要将随机生成的数值控制在0~1 范围内,从而保证聚类阈值对比的有效性[7]。
通过上述步骤即可完成舰船通信网络不完整节点数据模糊聚类中心的选定,结合通信节点的覆盖范围,规定数据采集次数,在此基础上设定聚类阈值,选定模糊聚类中心,为后续的数据模糊采集提供帮助[8]。
在选定舰船通信网络节点数据的模糊聚类中心后,求解不完整节点数据的边缘频率分布情况,从而实现对数据特征向量的提取[9]。在采集舰船通信网络不完整节点数据时,会受到来自舰船电气设备的脉冲干扰ewer,因此文中引入滤波器ewep过滤数据,对通信数据边缘频率的均方差σa进行处理,从而得到的通信数据边缘频率分布表达式:
其中,ξ代表平滑函数,Saˉ代表通信网络不完整节点数据的局部特征均值,ai代表不完整节点数据的边缘向量,Ea代表通信数据边缘频率分布密度。冗余数据在舰船通信网络中的概率分布密度主要与误差函数esg以及通信数据特征的样本参数相关[10]。
设通信数据特征的样本类型以及样本数量分别为λa和A,由此可以计算冗余数据的频率分布密度Eb,具体计算公式为:
其中,ω代表相邻通信节点之间的数据分配权重,da代表相邻不完整节点之间的数据特征距离,-da代表特征距离均值。
采用平滑参数对舰船通信网络数据中的冗余数据进行处理,这会导致不完整节点数据的特征向量中也会存在一定的平滑特征,对此引入局部幅度平滑性kwer表征该特征,由此构建出不完整节点数据的特征向量fi表达式,如下所示:
其中,τ代表特征向量所存在的局部矢量空间,bw代表去除冗余数据后的不完整节点数据,bi代表冗余数据在通信网络拓扑结构中的分布特征向量[11]。
通过上述步骤即可完成不完整节点数据的特征向量提取,通过引入滤波器,对数据采集过程中可能会产生的脉冲干扰进行处理,并剔除冗余数据的特征向量,从而得到不完整节点的数据特征向量[12]。
针对上述求解出的模糊聚类中心以及数据特征向量,分析舰船通信网络节点的分布情况,对数据采集路径进行规划及数据模糊化处理,从而实现数据模糊采集[13]。对此,文中以常规的舰船通信网络节点分布情况作为研究对象,计算采集数据的比特序列开销,从而规划出最短采集路径。常规的舰船通信网络节点分布情况如图1 所示。
图1 舰船通信网络节点分布情况
通过对上述舰船通信网络节点的分布情况可以看出,数据模糊采集路径的目标在于实现数据的快速采集[14]。因此,以聚类中心作为扫描半径,扫描节点分布情况,并构建目标采集函数,由此即可实现对最优采集路径的选取,具体目标函数表达式如下所示:
其中,N代表传感器总数量,Pi代表通信网络节点i在进行数据采集过程中的完整存活概率,Dr代表数据模糊聚类中心的扫描半径。
提取到的不完整节点数据特征向量为fi,计算数据采集过程中的比特序列开销C[15],则可规划最小路径,开销计算公式为:
其中,esum代表不完整节点数据采集总耗能,ebest代表能量调度函数的最优解。
根据目标函数对数据采集路径最优值进行求解,如果计算得到的路径规划值低于比特序列开销,则说明目标函数求解出的路径规划值为最优采集路径;反之则需要对算法进行不断迭代,直到求解出的路径规划值满足比特序列开销的限制要求[16],从而输出最优采集路径。在完成数据路径的规划后,文中对舰船通信网络数据进行模糊化处理,具体如下:
其中,F″代表不完整节点的数据模糊化值,γfi代表去模糊化参数。
通过上述步骤即可完成舰船通信网络不完整节点数据的模糊采集路径规划,通过构建目标函数,求解路径规划结果。将数据采集比特序列开销值作为衡量阈值,判断最优路径规划值,最后对数据进行模糊化处理[17-19]。结合数据模糊采集路径规划与数据特征向量提取以及数据聚类中心选定等相关内容,完成不完整节点数据模糊采集算法设计。
为验证提出的节点数据模糊采集算法在实际采集效果方面的有效性,实验选取了两种常规的节点数据模糊采集算法作为对比对象,分别为基于神经网络的节点数据模糊采集算法,以及基于串行通信的节点数据模糊采集算法。构建实验平台,采用三种数据采集方法对舰船通信网络数据进行模糊采集,对比不同采集方法的实际效果。
选取的实验对象为某舰船通信系统中的网络数据处理架构,对该数据处理架构下的通信数据进行分析,从中提取出不完整节点数据作为此次实验的提取对象,并对实验数据集进行聚类处理。文中所选取的舰船通信系统网络数据处理架构主要包括三个部分,分别为业务展示层、数据存储层以及并行处理层,具体架构如图2 所示。
图2 舰船通信系统网络处理架构
从通信网络处理架构中随机抽取若干条通信数据作为基础数据集,为了便于实验测试,文中按照数据大小将基础数据集分为了10 个不同的子数据集,具体数据集划分结果如表1 所示。
表1 实验数据集划分结果
针对上述实验数据集的划分结果,为了提高数据采集的真实性,文中分别从每个数据集中添加了不同数量的冗余数据,用于模拟数据采集过程中产生的脉冲干扰,并对实验数据集进行聚类分析,由此得到的聚类结果如图3 所示。采用三种方法对舰船通信网络数据进行采集时,需要剔除掉冗余数据,从而得到模糊聚类采集结果。因此此次实验可以测试不同方法对于冗余数据的处理性能,从而比较出不同方法的实际数据采集效果。
图3 数据聚类分析结果
实验采用Matlab 软件搭建出仿真实验平台,采用三种数据采集方法对实验数据集中的数据进行模拟采集,待数据采集完成后,对采集结果进行分析,并记录下不同采集方法下的数据融合度。
对比实验选取的对比指标为不同数据采集方法对于冗余数据的过滤性能,具体衡量指标为采集结果中的数据冗余度,该值越低,代表方法对于冗余数据的过滤性能越好。为了提高实验结果的对比性,实验通过改变数据集隶属度,从而调节数据集中的冗余数据分布情况,具体实验结果如图4、5 所示。
图4 聚类隶属度为0.4时的数据冗余度
图5 聚类隶属度为0.8时的数据冗余度
通过图4、5 实验结果可以看出,随着数据聚类隶属度的提高,不同采集方法下得到的数据冗余度也随之增大。通过数值上的对比可以明显看出,两种常规的数据模糊采集算法所得到的数据采集结果中,数据冗余度较高,且波动情况较大。而文中提出的数据模糊采集算法能够有效对冗余数据进行过滤处理,得到的数据采集结果中,数据冗余度较低,由此可以证明文中方法的数据采集效果更好。
文中针对常规的不完整节点数据采集方法在冗余数据方面提取效果不佳的问题,通过结合聚类算法,提出了一种新型的数据模糊采集方法。在今后的研究工作中,还需针对不同的数据类型进行具体分析,从而优化模糊采集效果。