魏 欢
(1.南昌航空大学,江西 南昌 330063;2.安徽工业经济职业技术学院,安徽 合肥 230051)
现阶段社会已经进入了以网络化为特征的信息化时代,所有网络的运转都会产生不同的数据流,尤其在复杂网络中,产生的混合属性数据流不仅具有较大的规模,还存在丰富的信息量,在丰富的信息量中隐藏着大量具有潜在价值的数据信息.在复杂网络中高效率地检测出混合属性数据流的密度已经成为当下亟需解决的重要问题[1].如今世界各国都将数据流检测工作提升为国家重点的战略目标,随后我国也提出了大数据战略,这也标志着中国即将进入大数据时代,而混合属性数据流检测方法作为大数据时代下发现有用信息的关键,为复杂网络的发展提供了更好的服务.
复杂网络混合属性数据流密度检测作为数据挖掘的重点研究话题,很早就开始受到学术界的广泛关注.数据流密度检测的早期发展中,主要以识别复杂网络的潜在威胁为目的[2].随着计算机领域对复杂网络混合属性数据流密度检测的需求越来越大,数据流在密度检测方面也面临着越来越多的问题,主要是复杂网络混合属性数据流的异常点与常规点之间的界定模糊,常规密度检测方法通常都是建立在模糊计算的基础上,得到的密度检测结果比较清晰,但是随着复杂网络中的数据流日趋复杂化,使数据流的产生变得具有随机性[3],常规的密度检测方法已经不能满足密度检测能力的要求.
基于以上分析,本文从混合属性数据流的采集、密度检测模型建立、数据流密度检测的实际出发,提出了一种复杂网络混合属性数据流密度检测方法,提高了数据流密度检测的能力.
在检测复杂网络混合属性数据流之前,需要采集正常的复杂网络混合属性数据流样本,才能提高密度检测的能力.复杂网络混合属性数据流的采集是通过数据采样算法,来对复杂网络内部的混合属性数据流进行识别和剔除,将正常的混合属性数据流传输给检测节点,在检测节点的显示窗口内部形成正常的混合属性数据流样本[4].复杂网络混合属性数据流的采集步骤如下:
图1 复杂网络混合属性数据流的采集流程图
复杂网络混合属性数据流的采集流程如图1所示.
对于复杂的网络环境来讲,密度检测节点采集到的正常混合属性数据流通常都是处于一个固定的检测区域内的,对于超出固定区域的异常混合属性数据流,可以通过在识别传感器上设置容忍度来直接识别混合属性数据流[6],本文的数据流采集方法通过设置容忍度的方式来将异常的混合属性数据流剔除,从而减少混合属性数据流采集过程中的计算复杂度.
通过设定初始混合属性数据流,来计算不同时刻数据流的距离,采用判断矩阵的方式将异常混合属性数据流剔除,基于复杂网络混合属性数据流的采集流程,完成复杂网络混合属性数据流的采集.
在复杂网络环境中,混合属性数据流都是散落分布的,给密度检测带来一定难度,通过复杂网络混合属性数据流密度检测模型的建立,可以提高密度检测的能力.根据数据流采集定律,在复杂网络中,混合属性数据流密度检测过程中,控制混合属性数据流密度的方程为[7]
(1)
式(1)中,ρ表示混合属性数据流的密度,u表示数据流传输的位移矢量,σ表示混合属性数据流的传输量,Fv表示复杂网络载荷向量.
在连续的复杂网络中,根据数据流的采集定律可以得出下式
如果说企业是一艘大船,那么企业领导人就是掌舵人,他决定了前进的方向。而用户则是推动企业前行的水,没有用户支持的企业,大船只能搁浅。30年来,郑州先科之所以能够由小变大、由弱变强,离不开掌舵人的带领,更离不开用户的不离不弃。
(2)
式(2)中,Tij表示表示混合属性数据流传输的二阶向量,fi表示施加给混合属性数据流的频率,ρ表示混合属性数据流的密度,ui表示混合属性数据流传输的位移向量,xj表示密度检测的坐标向量.
经过上述的分析,可以确定混合属性数据流密度的检测应力与应变之间的关系为
σ-σ0=C(ε-ε0)
(3)
混合属性数据流在复杂网络中传输的位移关系式为
s=s0+C(ε+ε0+εinel)
(4)
式(4)中,s0表示混合属性数据流传输的初始位移,C表示密度矩阵,ε0表示混合属性数据流密度检测的初始应变,εinel表示复杂网络节点的应力.
根据混合属性数据流的胡克定律可知,混合属性数据流密度的检测应力与应变是成正比的[8],表达式为
Tij=cijklSkl
(5)
式(5)中,cijkl表示密度检测矩阵,Skl表示混合属性数据流密度检测的应变向量,Skl可以表示为
(6)
如果复杂网络中混合属性数据流的密度是匀称的,且cijkl和数据流的密度都是常数,那么复杂网络混合属性数据流密度检测模型可以表示为
(7)
以上基于混合属性数据流的采集,得到了混合属性数据流密度的控制方程,确定了混合属性数据流密度的检测应力与应变之间的关系,利用混合属性数据流在复杂网络中传输的位移关系式,完成了复杂网络混合属性数据流密度检测模型的构建,最后通过混合属性数据流密度检测算法设计,来实现复杂网络混合属性数据流的密度检测.
将采集到的混合属性数据流导入到上述建立的密度检测模型中,经过密度检测模型计算后的混合属性数据流仍然存在分散的现象,再利用混合属性数据流密度检测算法,来提高密度检测的能力.假设dk(x)表示数据流x到k点的距离,lk(x)表示位于x到k点的距离内的混合属性数据流集合[9].则数据流x到y之间的距离可以定义为dist(x,y),那么数据流x到y之间的距离为
Rk(x,y)=max{dist(x,y),dk(y)}
(8)
式(8)中,dist()表示两个数据流之间的距离,根据混合属性数据流的可达距离Rk(x,y),可以得到混合属性数据流x的平均可达距离ARk(x),定义为混合属性数据流x与复杂网络集合中所有数据流的可达距离平均值为
ARk(x)=meany∈lkRk(x,y)
(9)
式(9)中,mean表示数据流可达距离求平均值函数,在复杂网络中,通常将数据流可达距离的平均值定义为可达密度,因此复杂网络的局部混合属性数据流密度可以根据可达密度进行计算[10],计算公式为
(10)
综上所述,通过设定初始混合属性数据流,来计算不同时刻数据流的距离,采用判断矩阵的方式将异常混合属性数据流剔除,基于复杂网络混合属性数据流的采集流程,完成复杂网络混合属性数据流的采集;基于混合属性数据流的采集,得到了混合属性数据流密度的控制方程,确定了混合属性数据流密度的检测应力与应变之间的关系,利用混合属性数据流在复杂网络中传输的位移关系式,完成了复杂网络混合属性数据流密度检测模型的构建,最后通过混合属性数据流密度检测算法设计,实现了复杂网络混合属性数据流的密度检测.
为了验证本文设计的复杂网络混合属性数据流密度检测方法对混合属性数据流密度检测的能力强,利用基于模糊计算的数据流密度检测方法作为实验对比对象,进行复杂网络混合属性数据流密度检测能力对比实验.
在复杂网络混合属性数据流密度检测中,参与实验的参数有混合属性数据流的采样数、采样频率及迭代次数等,实验参数的选择直接影响实验的最终结果,基于模糊计算的数据流密度检测方法存在检测时间长的弊端,实验过程中,利用1.2中的密度检测模型,求出实验参数的最优解,实验的具体操作步骤如下:
Step1:将复杂网络中的混合属性数据流分割成数据流测试集合、数据流验证集合和数据流训练集合.采用1.1中的混合属性数据流采集流程,构造了混合属性数据流的采集集合.将混合属性数据流的采集频率作为密度检测的适应度函数,并将实验参数初始化;
Step2:执行1.3中设计的密度检测算法,进入到密度检测实验的参数求解过程.将混合属性数据流的分布密度代入到密度检测模型中;
Step3:对求得的混合属性数据流进行密度计算,并将复杂网络外部的数据流分布情况记录;
图2 混合属性数据流的密度检测时间对比结果
Step4:采用交叉验证的方式求得混合属性数据流的密度,取交叉验证过程中最小平均误差,并训练混合属性数据流密度检测模型,最后进行复杂网络混合属性数据流的密度检测;
Step5:记录实验数据并统计实验结果.
本文将提出的密度检测方法与基于模糊计算的数据流密度检测方法进行了对比实验,实验在相同的检测次数下,统计了混合属性数据流的密度检测时间.实验结果如图2所示.
从实验结果中可以看出,采用基于模糊计算的数据流密度检测方法获取的混合属性数据流密度检测时间,随着密度检测次数的增加而越来越长,数据流检测次数低于10次的检测时间在0.3 s以内,随后越来越长,直到检测次数达到50次时,混合属性数据流密度检测时间已经达到了0.95 s,数据流密度的检测能力较差;而采用提出的混合属性数据流密度检测方法获取的混合属性数据流密度检测时间基本上都控制在0.35 s以内,检测次数低于20次的检测时间都低于0.1 s,混合属性数据流密度检测能力非常强.
本文提出了复杂网络混合属性数据流密度检测方法研究.通过设定初始混合属性数据流,来计算不同时刻数据流的距离,基于复杂网络混合属性数据流的采集流程,完成复杂网络混合属性数据流的采集;利用混合属性数据流密度的控制方程,确定了混合属性数据流密度的检测应力与应变之间的关系,结合混合属性数据流在复杂网络中传输的位移关系式,完成了复杂网络混合属性数据流密度检测模型的构建;最后通过混合属性数据流密度检测算法设计,实现了复杂网络混合属性数据流的密度检测.对比实验结果显示,提出的密度检测方法具有较强的数据流密度检测能力.