海量数据环境下可破坏性数据定位算法研究

2018-01-04 11:35杨青
计算机时代 2018年11期
关键词:数据定位

杨青

摘 要: 传统定位算法定位准确性通常较低,因此提出一种新的海量数据环境下可破坏性数据定位算法。在不同信道NAV任务的优先排队模型状态空间中,针对局部性交叉项信息量,在计算吞吐量下,建立信道数据传输模型。构造可破坏性数据信号模型,将相空间重构与非线性时间序列分析法结合在一起,对可破坏性数据产生的原因进行分析,完成可破坏性数据特征提取。把数据符号属性值映射为数字值,完成对所有数字特征的归一化处理。对原始可破坏性数据特征进行改进,通过Fisher线性分析法在改进后特征空间中对可破坏性数据特征进行分类,实现可破坏性数据识别。节点识别到可破坏性数据后,通过邻居节点数据完成投票决策,通过节点与邻居节点位置实现可破坏性数据的定位。实验结果表明,所提算法定位准确性高。

关键词: 海量数据; 可破坏性; 数据; 定位

中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2018)11-05-05

Abstract: The accuracy of traditional localization algorithm is usually low. Therefore, a new localization algorithm for destructive data in mass data environment is proposed. In the state space of the priority queuing model of different channel NAV tasks, the channel data transmission model is established for the amount of local cross item information in the case of computing throughput. The destructiveness data signal model is constructed, and the phase space reconstruction and nonlinear time series analysis are combined to analyze the causes of the destructiveness data, and the feature extraction of the destructiveness data is completed. The data symbol attribute value is mapped to digital value, and the original destructiveness data feature is improved by the normalization processing of all digital features. The destructiveness data feature is classified by Fisher linear analysis method in the improved feature space and the destructiveness data is recognized. When a node identifies the destructiveness data, the voting decision is completed through the neighbor node data and the locating of the destructiveness data is realized through the node and the neighbor node position. Experimental results show that the proposed algorithm has high location accuracy.

Key words: massive data; destructiveness; data; location

0 引言

现阶段,我国互联网技术迅猛发展,网络变成经济建设及发展过程中的重要组成部分。实物数据化运算技术出现后,大数据时代随之到来[1-2]。海量数据环境下,存在大量可破坏性数据,对网络安全带来很大隐患,需研究一种有效的可破坏性数据定位算法,为提高网络安全性提供技术支持[3-4]。

张继红等提出当前常见的可破坏性数据定位算法主要包括粒子群算法、分层拓扑算法和神经网络算法等[5]。粒子群算法利用定义可破坏性数据查询执行代价,依据粒子全局寻优完成对可破坏性数据的定位,算法實现过程简单,然而将查询执行代价作为目标函数有很大的定位误差;分层拓扑算法按照构造的可破坏性数据库分层拓扑模型完成对海量数据环境下信息状态的计算,实现可破坏性数据定位。该算法效率相对较高,然而在快速定位的过程中对可破坏性数据定位性能有限,具有定位准确性低的弊端;神经网络算法利用构造神经网络拓扑模型实现对破坏性数据的定位,尽管适应能力强,却具有计算过程复杂,计算速度慢的弊端。针对上述算法的弊端,提出一种新的海量数据环境下可破坏性数据定位算法。

1 海量数据环境下可破坏性数据定位算法

1.1 海量数据环境下网络信道数据传输模型

为了对海量数据环境下可破坏性数据进行定位,首先建立网络数据传输模型。通常情况下,网络承载着差异协议与信道,同时利用云存储完成资源调度[6]。网络信道模型包括轮流协议、随机访问协议以及信道分割三种类型[7-8]。在对网络信道数据协议进行设计的过程中,通过SeerSim分析法[9]建立网络数据传输信道,在不同信道NAV任务的优先排队模型状态空间可描述如下:

在网络信息交换过程中,海量数据在传输调度时产生可破坏性数据,当前局部性交叉项信息量可描述如下:

针对某通用接收节点,在n=N的情况下,CPU需完成数据包处理;在n=1,…,N-1的情况下,求解获取信息量状态概率后,假设第k个节点的通信区间中存在n个邻居节点,则网络平均吞吐量λ可通过下式求出:

依据上述分析,在不同信道NAV任务的优先排队模型状态空间中,针对局部性交叉项信息量,在计算吞吐量情况下,建立信道数据传输模型,用图1进行描述。

在图1所示模型中完成数据通信和调度,对可破坏性数据进行定位。

1.2 可破坏数据信息流模型建立

在上节建立的信道数据传输模型的基础上,对可破坏性数据进行定位的过程中,首先需建立可破坏性数据信号模型,依据信号检测技术完成对信号的检测。在干扰环境下,为了实现对破坏性数据信号离散数据的解析华处理,建立信息网络破坏性数据信号解析模型,即:

1.3 可破坏性数据特征提取

对海量数据环境下可破坏性数据信息流模型进行分析,对可破坏性数据特征进行提取,为可破坏性数据定位提高依据。

将相空间重构与非线性时间序列分析法[11]结合在一起,对可破坏性数据产生的原因进行分析,特征提取公式如下:

综上,在对海量数据环境下可破坏性数据进行定位的过程中,首先建立可破坏性数据信息流模型,同时在构建模型的基础上分析可破坏性数据的组成形式,并且提取可破坏性数据的特征,为实现可破坏性数据定位奠定基础。

1.4 可破坏性数据分类识别

完成可破坏性数据定位前,需完成对可破坏性数据特征的预处理,把数据符号属性值映射为数字值,然后完成对所有数字特征的归一化处理[12],将其映射至[0,1]范围内,归一化处理可通过下式实现:

可破坏性数据核特征判断方法根据Fisher线性分析法实现[13],该方法的目的为使类间离散度最大化,类内离散度最小化,然后依据运算目标对原始向量的最优映射方向进行搜寻,保证各类间距离达到最大,从而完成对可破坏性数据的分类,实现可破坏性数据的识别。然而海量数据环境中的数据存在随机性与多样性的特性,使得得到的判别结果存在误差。为了得到准确的结果,首先利用非线性映射函数Γ把原始特征空间映射至新的特征空间U,然后通过Fisher线性分析法在改进后的特征空间中实现对数据的分类。详细过程如下:

通过非线性函数Γ把可破坏性数据输入样本e∈Wq映射至高维线性空间U中[14],也就是,则改进后的特征空间U中目标函数可通过下式求出:

通过上述分析可完成对原始可破坏性数据特征的改进,然后通过Fisher线性分析法在改进后特征空间中对可破坏性数据特征进行分类,从而实现可破坏性数据识别。

1.5 可破坏性数据定位

完成对可破坏性数据的分类识别后,对其进行定位。通常情况下,海量数据环境下存在大量的节点,节点采集数据通常存在空间关联性,也就是物理位置相隔较近的节点感知数据改变情况相似[15]。所以,当节点识别到可破坏性数据后,可通过邻居节点数据完成投票决策,通过节点与邻居节点位置实现可破坏性数据的定位。

节点附近环境有很大的不同,本节并非通过节点的时序关联性对邻居节点进行确定,而是把待定位节点与不同节点滑动窗口中信号强度作为含可破坏数据的待定位节点的属性,通过节点间属性相关性完成选择。

通过皮尔森相关系数对mi与mj的属性相关系数进行计算,如果sim(i,j)超过阈值,则认为节点mi与mj空间相关:

2 实验和结果分析

2.1 实验环境和评价指标设计

本节通过Matlab软件实现对海量数据环境下可破坏数据定位方法的仿真。选用的真实实验数据为某院校校园系统,该系统采样频率是每隔5min采样1次。

為了评价本文可破坏性数据定位方法的性能,将定位准确性和ROC曲线作为评价指标进行评价。

可破坏性数据定位准确性EACC可通过下式求出:

其中,M用于描述原始数据中实际含可破坏性数据节点个数,N用于描述定位的实际含可破坏性数据节点个数。

ROC是一种有效的评价定位算法的指标,AUC作为ROC的定量统计能够有效地描述定位性能的好坏,通常认为AUC值越高,定位性能越佳。AUC计算公式如下:

其中,n0与n1依次用于描述正常样本个数和可破坏性样本个数;S0用于描述第i个正常样本的排序位置。

2.2 仿真数据定位

本节将文献[7]算法和文献[8]算法作为对比进行测试,对海量数据环境下可破坏性数据定位性能进行测试。采用的综合数据库是同时含有局部密度与低密度模式的数据集,共有1230个数据节点,将其分割成5个类别,依次是曲线状与4个高斯分布类簇。曲线状分布数据节点个数是500。

4个高斯类簇所含数据节点个数依次是200个、300个、100个、100个,随机形成30个可破坏性数据节点添加至数据库中。针对综合数据集,分别采用本文算法、文献[7]算法和文献[8]算法对其中的破坏性数据进行定位,在邻居节点数量为100个时,三种算法定位比较结果用图2进行描述。

图2中,三角形代表各算法定位结果,方块代表实际定位结果。分析图2可知,文献[7]算法和文献[8]算法不仅定位误差大,而且还存在无法识别可破坏数据的情况,而本文算法可保持高精度可破坏性数据定位性能,验证了本文算法的有效性。

针对文献[7]算法,在邻居节点数较高的情况下,二者倾向于定位全局可破坏性数据节点,然而忽略了局部可破坏性数据节点,导致定位准确性降低。针对文献[8]算法,针对图2(d)左下角类簇中的数据节点,因为和其间隔最小的类簇约含100个数据节点,在邻居节点逐渐升高的情况下,其邻近节点倾向于考虑密度较小的曲线形数据集,所以该算法无法有效识别高密度类簇附近的可破坏性数据节点,导致可破坏性数据识别及定位精度低。

除此之外,图3描述了邻居节点数量逐渐升高时,三种算法定位评价指标改变过程。发现在邻居节点数量较小的情况下,三种算法均有很高的定位性能,但是随着邻居节点数量的逐渐增加,文献[7]算法和文献[8]算法定位性能显著降低,而本文算法仍可保证高检测性能,验证了本文算法的优越性。

2.3 真实数据测试结果

本节同时把本文算法应用于两种真实数据集Iris与Wine中,Iris数据集含1800个实例,各示例含4维属性,将全部实例分割成3类,类标签依次是A、B、C。Wine数据集含1300个实例,各实例含10维属性,全部实例被分割成D、E、F三类。针对上述数据集,依次随机选择2个类簇当成正常数据点,从余下的一类中选择8个数据点当成可破坏性数据。

研究的2种数据集都是高维数据集,为了在二维坐标系中对可破坏性数据定位结果进行可视化处理,通过非负矩阵分解法完成对数据的降维操作,以获取可体现原始数据特征的二维属性,再以二维属性为基础建立二维可视化坐标系。

图4描述的是本文算法对可破坏性数据的定位结果,其中上三角代表定位的可破坏性数据,其他数据点代表正常数据。由图4可知,本文算法可准确定位2个数据集中的可破坏性数据。

在采用本文算法、文献[7]算法和文献[8]算法对真实数据集中的可破坏性数据进行定位后,得到的定位评价结果用表1进行描述。

分析表1可知,在邻居节点数增加后,文献[7]算法和文献[8]算法定位性能出现了很大的改变,而本文算法定位性能很稳定,而且有很高的定位准确性与AUC。

3 结论

提出一种新的海量数据环境下可破坏性数据定位算法,由于其数据量大,数据特征分布广泛的特点,只能以数据节点初始坐标进行定位,产生过多的测距约束性。传统的定位算法由于受到这种约束条件的干扰,导致算法陷入局部最优,产生定位精度低和抗干扰性差的问题。提出基于数据融合算法的海量数据环境下的高效数据定位方法。依据海量数据系统中数据节点间需要符合的测距约束性条件组建软约束集中模型,在代价函数中引入惩罚项,融合于负梯度算法获取数据节点初步定位的估计值,再利用Fisher线性分析法进行数据识别,最终完成了对海量数据环境下数据的高效定位。仿真证明,数据融合算法的海量数据环境下的高效数据定位方法具有定位精度高,抗干扰性能好的特点。

参考文献(References):

[1] 刘建芳,王刘涛,马飞.海量数据环境下高效数据定位算法研究与仿真[J].计算机仿真,2016.33(3):376-379

[2] 周小平,刘祥磊.基于组合定位海量数据处理的铁路机车安全距离预警[J].中国安全生产科学技术,2015.11(10):103-109

[3] 何天荣.基于模糊数学的海量数据特征定位研究[J].內蒙古师大学报(自然汉文版),2017.46(2):178-181

[4] 唐晓红,闫明,林国亮.海量定位数据存储技术与警务应用研究[J].广东公安科技,2014.22(1):17-22

[5] 张继红,陈小全.海量交通安全数据的元数据管理研究[J].计算机研究与发展,2011.48(s1):74-77

[6] 周小平,刘祥磊.海量铁路机车GIS定位数据分布式处理技术[J].中国科技论文,2015.10(7):812-816

[7] 毕林,赵辉,贾明涛.面向数据库特征的基于LMDB与线性八叉树海量块段模型存储技术(英文)[J].Transactions of Nonferrous Metals Society of China,2016.26(9):2462-2468

[8] 毛衡,胡宁,陈蔚等.实时广告竞拍平台中的海量数据分析和竞价预测[J].应用数学与计算数学学报, 2016.30(1):1-15

[9] 蹇旭.云计算环境下的海量数据特定特征挖掘技术[J].现代电子技术,2017.40(13):178-180

[10] 王晓英.海量冗余数据干扰下数据库中数据优化检索方法[J].华侨大学学报(自然版),2016.37(6):758-761

[11] 李雪梅,邢俊峰,刘大伟等.基于HBase的海量GIS数据分布式处理实践[J].大数据,2016.2(3):73-82

[12] 张启明,周自强,谷山强等.海量雷电监测数据云计算应用技术[J].电力系统自动化,2012.36(24):58-63

[13] 胡永利,朴星霖,孙艳丰等.多源异构感知数据融合方法及其在目标定位跟踪中的应用[J].中国科学:信息科学,2013.43(10):1288-1306

[14] 李林阳,吕志平,陈正生等.海量连续运行参考站网数据云存储模型[J].导航定位学报,2014.2(3):64-70

[15] 黄潮.云计算环境下的海量光纤通信故障数据挖掘算法研究[J].激光杂志,2017.38(1):96-100

猜你喜欢
数据定位
定位的奥秘
《导航定位与授时》征稿简则
Smartrail4.0定位和控制
找准定位 砥砺前行
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
数据化艺术的生成探究
浅谈计量自动化系统实现预购电管理应用
基于RFID的室内无线定位识别系统
青年择业要有准确定位