李志云
离群点检测(又称为异常检测)是找出其行为很不同于预期对象的过程。这种对象称为离群点或异常。除欺诈检测外,离群点检测在许多应用中都是重要的,如医疗处理、公共安全、工业损毁检测、图像处理、传感器/视频网络监视和入侵检测。
离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据,而离群点检测则试图捕获那些显著偏离多数模式的异常情况。离群点检测和聚类服务于不同的目的。
假定使用一个给定的统计过程来产生数据对象集。离群点(outlier)是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生的一样,如图1所示:
图1 区域R中的对象是离群点
大部分对象都粗略地服从高斯分布。然而,区域 R中的对象显著不同。它不太可能与数据集中的其他对象服从相同的分布。因此,在该数据集中,R中的对象是离群点。
离群点不同于噪声数据。噪声是被观测变量的随机误差或方差。一般而言,噪声在数据分析(包括离群点分析)中不是令人感兴趣的。离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制。因此,在离群点检测时,重要的是搞清楚为什么检测到的离群点被某种机制产生。通常这样做,在其余数据上做各种假设,并且证明检测到的离群点显著违反了这些假设。离群点通常可以分成3类:全局离群点、情境(或条件)离群点和集体离群点。离群点检测方法可以分为两类:一类是根据用于分析的数据样本是否具有领域专家提供的、可以用来构建离群点检测模型的标号,对离群点检测方法进行分类;一类是根据各方法关于正常对象和离群点的假定,对各方法分组。如果可以得到专家标记的正常和离群点对象实例,则可以使用它们建立离群点检测模型,所使用的方法可以划分成监督方法、半监督和无监督方法。如果对离群点检测方法对离群点与其余数据做出假定,根据所做的假定,可以把离群点检测方法分为3类:统计学方法、基于邻近性的方法和基于聚类的方法。本文就统计学方法提出一种非参数方法检测离群点。
非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的,不预先确定。
可以使用直方图作为非参数统计模型来捕获离群点。使用直方图表示了每个顾客事务的购买金额,图中60%事务的购买金额为0~1000美元。按直方图所示,一个购买金额为7500美元的事务可能被视为离群点,因为只有 1-(60%+20%+10%+6.7%+3.1%)=0.2%事务的购买量超过5000美元。另一方面,购买量为385美元的事务可以看做正常的,因为它落入包含60%事务的箱中,如图2所示:
图2 每个事务购买量的直方图
使用直方图检测离群点的步骤如下:
第一步:构造直方图。使用输入数据构造一个直方图,该直方图可以是一元的,也可以是多元的。
第二步:检测离群点。为了确定一个对象o是否是离群点,可以对照直方图检查它。在最简单的方法中,如果该对象落入直方图的一个箱中,则该对象被看做正常的,否则被认为是离群点。
使用直方图作为离群点检测的非参数模型的一个缺点是,很难选择一个合适的箱尺寸。一方面,如果箱尺寸太小,则许多正常对象都会落入空的或稀疏箱,因而被误识别为离群点。这将导致很高的假正例率和低精度。另一方面,如果箱尺寸太大,则离群点对象可能渗入某些频繁的箱中,因而“假扮”成正常的。这将导致很高的假负例率和低召回率。
为了解决这些问题,可以采用核密度估计数据的概率密度分布。把每个观测对象看做一个周围区域中的高概率密度指示子。一个点上的概率密度依赖于该点到观测对象的距离。使用核函数对样本点对其邻域内的影响建模。核函数K()是一个非负实数值可积函数,满足如下两个条件,如公式(1)、公式(2)
一个频繁使用的核函数是均值为0,方差为1的标准高斯函数:
设x1,…,xn是随机变量f的独立的、同分布的样本。该概率密度函数的核函数近似为:
其中,K()是核函数;h是带宽,充当光滑参数。
一旦通过核密度估计近似数据集的概率密度函数,就可以使用估计的密度函数 f来检测离群点。对于对象 o,f(o)给出该对象被随机过程产生的估计概率。如果f(o)大,则该对象可能是正常的;否则,o可能是离群点。这一步通常与参数方法的对应步骤类似。
离群点检测的统计学方法由数据学习模型,以区别正常的数据对象和离群点。使用统计学方法的一个优点是,离群点检测可以是统计上无可非议的。当然,仅当对数据所做的统计假定满足实际约束时才为真。通常,非参数方法对数据做较少的假定,因而在更多情况下都可以使用。
[1]Jiawei Han,Micheline Kamber等. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2012
[2]潘章明,陈尹立. 基于共享反K近邻的局部离群点检测算法[J]. 计算机仿真.2013(2)269-271
[3]刘耀宗,张宏等. 基于小波密度估计的数据流离群点检测[J]. 计算机工程.2013(2)178-179
[4]古平,刘海波等. 一种基于多重聚类的离群点检测算法[J]. 计算机应用研究.2013(3)751-753
[5]赵洁. 统计模型中几种异常点检测方法简介[J].吉林教育. 2013(14)10-12
[6]李龙姣,程国达. 基于直方图和 FP增长的高维空间离群点挖掘[J].计算机与现代化.2013(1)47-49
[7]王玉琳,薛安荣. 基于椭球模型的无线传感器网络的局部离群点检测[J].计算机应用研究.2013(2)547-549