基于大数据的高效分布式离群点检测算法

2019-03-25 08:01刘建
电脑知识与技术 2019年3期
关键词:分布式大数据算法

刘建

摘要: 根据大数据的特征即数据量大、维数高,本文提出了基于大数据的高效分布式离群点检测算法。该种算法就是在数据处理的初级阶段,根据计算距离的方法将数据进行精确的计算,并在计算的过程中建立查询检测模型,通过模型将数据进行二次检测;进入离群点检测的阶段,通过大数据模型对其结果进行批量的过滤。最后,就在基于距离的数据与局部数据集验证相结合的方式去检验大数据的实效性与精确度。实验结果表明,与现有算法相对比,基于距离的算法在一定程度上大大提高了计算的精确率。

关键词:大数据;分布式;离群点检测;算法;

中图分类号:G642      文献标识码:A      文章编号:1009-3044(2019)03-0014-02

离群点检测主要就是为了挖掘数据,使得相关的工作更加有效,通常采用这种检测方法会发现相关的特异行为数据,这就会提高相关的工作效率,减少不必要的探寻数据的时间。根据对离群点的具体定义表述为离群点就是对应相应的观察点,如果离群点与其他观测点的偏离较大,那就有理由怀疑是不是由于机制上的不同而产生的[1]。若是这些偏离的数据与不满足的数据统一起来可以取一个名称也就是离群点,离群点也可以称为孤立点或者异常点。离群点挖掘也就是离群点检测,这也是为什么要进行数据挖掘的原因,一般来说数据挖掘是一个非常常见的概念,最近几年使用的也非常广泛,但是传统的方法检测出来的数据总是会产生这样或者那样的问题,就使得相关人员对这种检测方式产生了质疑的态度,但是这种算法又是必不可少,所以,就需要我们对其进行探索,看是否能寻找到更加有效的方式方法。社会上近些年也出现了很多种不同的算法,大众对其的真實效果褒贬不一。社会基本上给出了一个一般性的意义就是离群点以及离群点的挖掘方法。基于大数据的高效分布式离群点检测算法,挖掘点的比例相对来说会比较低。基于大数据的高效分布式离群点检测算法的挖掘方法,虽然能够解决一些问题,但是参数的敏感度等方面的东西却有一些局限性。由于基于大数据的高效分布式离群点检测算法在具体操作中时间的复杂度低以及聚类精度高,这样就能将不同类型数据聚集在一起,最终目的就是挖掘簇[2]。

1高效分布式离群点检测算法设计

1.1 基于距离的离群点计算

一般地,给定一个具有d维属性的数据集P,数据集内的数据点个数为|P|,对于P内任一数据点p,p包括d个可度量的属性值,记作p=<p[0],P[1],…,p[d-1](为方便描述,后文中认为数据点的各维属性值均不小于0)[3],那么点p1、p2之间的距离为

[distp1,p2=i∈0,d-1p2i-p1i2]                 (1)

定义1设为Q邻域,任意实数Q≥0,数据对象为P1的邻域可以表示为Q(P2-P1 ),则定义为:

Q(P1,P2)={P<I}                            (2)

定义2  Q(P1,P2)离群点。设定一个正整数i,如果数据点q的r邻域基数小于k,则q是Q(P1,P2)离群点。

基于距离的离群点计算,根据以上的公式的具体论述可以计算出相对来说比较精准的数据结果,在一定程度上可以提高工作的效率,减少重复验证结果的过程。本文采用真实数据进行具体的运算,以此来检测新的算法与传统算法相比是否更加真实有效,能够在一定程度上保障检验效果的合理性,增强其对民众的说服力。

1.2实现分布式离群点检测

如果数据集中至少有pct部分对象与对象o的距离大于DT,则对象o是一个基于距离的关于参数pct和 DT 的离群点,即DB(pct,DT)-Outlier[4]。这里的定义基本上是针对所以数据集的全局离群点。如果k作为用户所期望的离群点的那个数相同的话,那么其偏离度就会是最大,假如k个对象作为离群点,检测思路如下:首先确定k个簇,n个数据。然后描述s个离群点使outlierSet =K个相对的离群点集合则赋为空集,采用定义2输出的簇集合为KCo;当OKCo = KCo时可以存放包含着离群点的候选微聚类的集合,根据计算结果也就是聚类的信息熵;计算出偏离度也就是Doli最大的对象,或者采取按偏离度降序排列的方式将微聚类内的对象表现出来。

然后就依次取出各个元素,要从第一个元素就开始计算,接下来就是计算剩余数据集中的信息也就是熵的值,接下来就是判断信息熵的值是不是在阈值σ内,如果算出来的值小于σ,那就说明结果不包含离群点,这样就可以排除掉这类的聚类,要不然就可以对应出相关的离群点然后保存在outlierSet内;

最后输出在outlierSet 中的s个离群点,然后把可能出现在离群点的聚类中采用基于大数据的高效分布式离群点检测算法,并将离群点放到入outlierSet中。

经过对全局、局部离群点的分析,基于分布式离群点检测算法数据实时反馈,结合取样分析数据及时调整相关数据的输入输出,实现基于大数据的高效分布式离群点检测算法的有效运行[5]。

2实验数据分析

2.1精准度检测

为了检测上述设计的基于距离离群点检测算法是否真实有效,将其与已有的局部离群点检测方法进行数据对比。实验组选择基于距离的方法,对比组选择基于局部的方法,进行对比实验。使用不同的数据进行实验,先进行基于距离方式的实验计算,将结果分别记录,然后再根据传统的计算方法进行相关结果的计算,结果也需要分别记录。最后也是最关键的一步就是把记录下来的两组数据制成表格,对其进行对比,清晰的表示出不同方法所产生的不同结果,具体操作就如表1所示。

从表1的实验结果可以看出,根据不同方式完成的实验,结果有明显的差异,实验组对应不同的数据,计算精准度基本稳定在80%到90%左右,而对比组的数据计算精准度则基本稳定在70%左右,可以看出实验组的精准度相对于对比组提高了10%左右,这也就证明了实验组数据检测的精准度要远远高于对比组。

2.2离群点检测结果查询处理

在第一组实验的基础上,为了更加清晰的说明实验组结果与对比组结果的差异,所以进行第二组实验,在第一组精确度结果的基础上,再次检测。实验时一定要保证实验数据的精准性,保证数据有证可寻,不能凭空捏造。与第一组实验步骤有类似之处,也需要将相对应数据结果分别记录下来,制成表格,填表格时一定要根据实验步骤一步一步填写,保证数据的真实有效。表格制作完成之后,将实验组和对比组的内容进行查询并二次验证,效果如表2所示。

根据表2数据可以看出,在实验一的结果上,进行二次试验,结果显示实验组查询结果精准度平均维持在90%以上,对比组则一般维持在75%左右,实验组相对于对比组而言查询结果准确率提高了15%左右,这一结果将更有利的说明实验组所采取的检测方法,相对于对比组采取的传统方法产生的实际效果更好,这就为之后检测方法的具体改进给予了一个科学性的论证。

3 结束语

本文通过对基于大数据的高效分布式离群点检测算法的具体分析,对高效分布式离群点检测算法在实际工作过程当中的利用以及相关特点进行详细的论述和实验的操作,证明了基于大数据的高效分布式离群点检测算法的必要性和实效性。希望本文的实验结果对基于大数据的高效分布式离群点检测算法的进一步发展提供理论上的支持,能够为高效分布式离群点检测算法提供一种新的检测方式,加强相关数据的精确度,减少检测工作反复验證的过程。

参考文献:

[1]  吕军晖,周刚,金毅.一种基于时间序列的自适应网络异常检测算法[J].北京航空航天大学学报, 2009, 35(5): 636-639.

[2] 魏小涛,黄厚宽,田盛丰.在线自适应网络异常检测系统模型与算法[J].计算机研究与发展,2010, 47(3): 485-492.

[3] 李如琦,周媛媛.自适应变异粒子群算法及在输电网规划中的应用[J].广东电力, 2008, 21(12): 18-22.

[4] 薛安荣,鞠时光,何伟华,等.局部离群点挖掘算法研究[J].计算机学报,2007,30( 8):1455-1463.

[5] 江峰,杜军威,眭跃飞,等.基于边界和距离的离群点检测[J].电子学报,2010,38( 3) :700-705.

【通联编辑:光文玲】

猜你喜欢
分布式大数据算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
一种改进的整周模糊度去相关算法
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL