摘 要:文章介绍了离群值定义及分类,对几种常用的离群值判别方法进行比较,给出了不同情况下应采用的判别方法。希望通过文章的论述,可以为相关工作人员提供帮助,仅供参考。
关键词:计量;离群值;判别方法对比
1 概述
离群值是样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。离群值有两类来源,第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体。第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体[1]。
在计量领域,对在规定测量条件下测量的量值,测量条件下测得的量值用统计分析的方法进行的测量不确定度分量的评定,是测量不确定度的A类评定。测量中的失误或突发因素不属于测量不确定度的来源。在测量不确定度评定中,应剔除测得值中的离群值(异常值)。离群值的剔除应通过对数据的适当检验后进行[2]。
离群值分为单侧情形和双侧情形,单侧情形分为上侧情形与下侧情形。若无法认定单侧情形,按双侧情形处理。
2 抽样检验理论
文章介绍的离群值判别方法,均是建立在样本服从正态分布的假设上。抽样检验理论主要是建立均值与方差的估计。
2.1 符号及定义
文章符号及定义如表1所示。
2.2 均值及标准差
当不知道总体标准差时,用样本标准差估计作为总体标准差。样本标准差的计算有两种估计方法:贝塞尔公式、极差法。其中,贝塞尔公式法是方差的无偏估计,用于测量次数较多情况;极差法在测量次数较少时(2≤n≤9)应用。公式(1)-(3)分别为样本均值、贝塞尔公式,极差法。
3 离群值的判别
离群值的判别分两种情况:已知标准差、未知标准差,下面分别介绍。
3.1 已知标准差
3.2 未知标准差
未知标准差时,用贝塞尔公式或极差法计算样本标准差,从而估计总体标准差。
未知标准差的统计量分为两类:统计量计算方法固定与统计量计算方法变化,下面分别介绍。
3.2.1 统计量计算方法固定
拉伊达准则、格拉布斯准则、肖维勒准则与奈尔检验方法有相似之处[4],都是计算一个统计量,再与相应的临界值表相比较。统计量计算如公式(5)所示。其中,拉伊达统计量(Ra)与固定值3相比较,若大于3,则是离群值。
3.2.2 统计量计算方法变化
狄克逊准则依据不同的样本量,分别计算上侧(高端)离群值统计量与下侧(低端)离群值统计量,再依据检出水平α,查表判断是否为离群值。虽然,狄克逊准则将样本量由30扩充到100,但一般来讲,狄克逊准则用于样本量小于等于30次的离群值检测。
4 结束语
已知标准差情形下,采用奈尔检验法,检测离群值;未知标准差情况下,检验方法的选择与测量次数有关。其中,关于统计量计算方法固定的检验方法选择,取同测量次数,同显著性水平下,临界值表较小的检验方法。测量次数及建议使用准则如表2所示。
参考文献
[1]GBT 4883-2008.数据的统计处理和解释[S].
[2]JJF 1059.1-2012.测量不确定度评定与表示[S].
[3]师义民,徐伟,秦超英,等.数理统计[M].北京:科学出版社,2015.
[4]熊艳艳,吴先球.粗大误差四种判别准则的比较和应用[J].大学物理实验,2010,23(1):67-68.
作者介绍:刘蕴韬(1989,2-),男,本科学历,助理工程师,海军航空装备计量监修中心。