李玉梅
(怀化学院数学与计算科学学院,湖南怀化418008)
数据的正态性检验方法
李玉梅
(怀化学院数学与计算科学学院,湖南怀化418008)
在进行数据的统计处理和统计检验时,往往假定数据来自于正态总体,因此对数据进行正态性检验十分必要.本文介绍了描述数据分布的QQ图及适用于小样本情形下数据正态性检验的夏皮罗-威尔克检验法和“Mudholkar”检验法.
正态分布;QQ图;小样本;假设检验
正态分布,又名高斯分布,是概率论中最重要的一种概率分布.一些常用的概率分布如对数正态分布、χ2分布、t分布等可以由正态分布直接导出.生产与科学实验中很多随机变量的概率分布可以近似地用正态分布来描述.例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;某个地区的年降水量;以及理想气体分子的速度分量等等.一般来说,如果一个随机变量是由许多微小的独立随机因素影响的结果,那么就可以认为这个随机变量具有正态分布.通常人们在进行数据处理和统计分析时,总是假定数据来自于正态总体,但该假定是否成立,需要对数据进行正态性检验.本文将介绍正态性检验的QQ图及用于小样本情形下的夏皮罗-威尔克检验法和“Mudholkar”检验法.
对应于正态分布的QQ图,是由标准正态分布的(修正)分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近正态分布检验,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
假定有来自总体X的一组数据x1,x2,…,xn,x(1)≤x(2)≤…≤x(n)为次序统计量.设Φ(x)为标准正态分布N(0,1)的分布函数,Φ-1(x)为其反函数.则散点图
即为QQ图.若样本来自正态分布N(μ,σ2),则散点在直线y=σx+μ附近.
例1.100个女生的血清蛋白含量(g/L)数据如下[1]:
用SAS软件proc capability过程绘制正态QQ图如图1,说明数据来自正态总体.
图1 正态QQ图
W检验法由夏皮罗-威尔克在1965年提出,目前被公认为是检验效果比较好的方法,它的突出优点是不需要大样本数据,只需要小样本n<50就能推断是否总体具有正态性.W检验法的具本步骤如下:
假设检验问题为:H0∶F(x)是正态分布函数
若原假设H0为真,则W接近1,否则拒绝.
对例1做正态性W检验,可以由SAS软件proc univariate过程得W0=0.9904,p=PH0(W≤0.9904)=0.6943>α=0.05,故不能拒绝H0,说明数据来自正态总体.
“Mudholkar”法(简称M检验法)是Mudllolk于1981年提出,它的特点是简便、灵敏,而且仅需要10个以上的数据便可.M检验法的具体步骤如下:
(1)设有检测数据xi(i=1,2,…,n),计算均值¯xi,方差,及变量yi
表1 正态检验计算表
(2)计算¯xi及yi两变量之间的相关系数r0.
(3)查相关系数r表(见表2),一般取5%显著性水平时n所对应的r值.若r表≥r0,说明此样本来自正态总体[2].
例2:有一批17个检测数据(表1),用M检验法对其进行正态性检验.
由表计算得¯xi及yi两变量之间的相关系数r=0.3475.本例中n=17,r表=0.65>0.3475(a=0.05),说明这批数据来自正态总体.
表2 正态性检验相关系数制定值
QQ图是描述数据分布的一种方法.利用QQ图,我们可以直观的判断数据分布是否近似于正态分布.在对数据进行正态性届验时,如果是小样本(样本大小n<50)的情形,可以采用夏皮罗-威尔克检验法和“Mudholkar”检验法.
[1]梅长林,范金城.数据分析方法[M].高等教育出版社,2003:5-6.
[2]孙玉芝,李春禄.介绍两种正态性检验方法[J].天津师大学报,1992(1):3-4.
The M ethods for Testing Normal Distribution of Data
LIYu-mei
(College of Mathematicsand Computational Science,Huaihua University,Huaihua,Hunan 418008)
In statistical analysis and statistical inference of the data,it is often assumed that the data is normal distribution.Thus testing for normal distribution is necessary for data analysis.This paper introduces threemethods on how to testa setof data with normal distribution,including QQ chart,Shapiro-Wilk test and Mudholkar test for small samples.
normal distribution;QQ chart;small sample;hypothesis test
O211
A
1671-9743(2015)11-0081-02
2015-07-27
怀化学院教改项目.
李玉梅,1974年生,女,湖南洪江人,副教授,博士,研究方向:统计遗传.