张超
【摘要】假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法,具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断.
【关键词】数学归纳法;归纳原理
一、引 言
假设检验是抽样论断中的一项重要内容,它是根据资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法.
用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实,通过检验对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设.这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异,从这个意义上,假设检验又称为显著性检验.
二、预备知识
在统计学界有一个很有趣的典故,叫女士饮茶.据说20世纪20年代,在英国剑桥的一个夏日的午后,一群人围坐一起享用下午茶.在闲聊中,有一位女士坚称把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同.她能通过品茶,说出是先加的茶还是先加的奶.假设现在让服务生随机配制了10杯奶茶,有的是先加的茶,有的是先加的奶,然后让这位女士进行鉴别.如果这位女士准确鉴别出8杯奶茶的配制顺序,你认为这位女士是有这种特殊味觉呢,还是没有这种特殊味觉呢?统计上构造了一种特殊的方法——假设检验,对这类问题作出判断.
三、假设检验的基本思想与概念
1.假设检验的基本思想
我们继续以女士饮茶为例,阐述假设检验的基本思想.在该案例中,我们面临两种判断可能,统计上把这两种可能的结果称作为假设.
假设一:该女士没有特殊味觉,她从10杯奶茶中指出8杯奶茶的配置顺序,纯属偶然;
假设二:该女士有特殊味觉,她从10杯奶茶中指出8杯奶茶的配置顺序,属于确切判断.
显然,这两种假设都有可能发生.无论我们作出何种判断,都有猜对的概率,也都有猜错的概率.在这种情况下,我们需要一个作出判断的原则.
一个假设检验问题就类似于一个司法审判问题.在女士饮茶这个假設检验问题中,没有特殊味觉,不能区分奶茶的配置顺序是绝大多数人的正常状态,所以我们事先假定该女士没有特殊味觉,在假定该女士没有特殊味觉的情况下,测算该女士10杯奶茶能有效区分出8杯配置顺序的发生概率.只有当这个概率非常非常小,小到几乎不可能发生时,我们才推断该女士不是普通人,她具有特殊味觉,否则都认为没有显著证明该女士具有特殊味觉.这就是假设检验的基本思想.
2.假设检验的概念
①原假设与备择假设.在一个假设检验问题中,首先需要确定的是两个假设条件,一个称为原假设,一个称为备择假设.原假设和备择假设不是任意确定的.通常把观察现象原来故有的性质或没有充分证据不能轻易否定的命题设为原假设,记作H0;通常把该观察现象新的性质或不能轻易肯定的结论为备择假设,记作H1.
在女士饮茶案例中,由于普通人通常是没有特殊味觉,不具备区分奶茶的配置顺序,所以原假设和备择假设分别为:
H0:该女士没有特殊味觉,不能有效区分奶茶的配置顺序
H1:该女士有特殊味觉,能有效区分奶茶的配置顺序
很多假设检验问题剥离它的应用背景,实质是对总体分布参数空间Θ的两个不相交的子集,分别记作Θ0,Θ1.这时原假设和备择假设可以分别记作
H0:θ∈Θ0H1:θ∈Θ1
在女士饮茶案例中,这位女士每次品茶就是一个伯努利实验,品茶结果X服从两点分布.
品尝结果X
说对奶和茶的放置顺序
说错奶和茶的放置顺序
概率
P
1-P
通常,普通人没有能力鉴别奶和茶的放置顺序,即P=12,而如果该女士有特殊味觉,则P>12.所以本例中,Θ0=P|P=12,Θ1=P|P>12.
原假设和备择假设等价于
H0:P=12H1:P>12.
②检验统计量.假设检验的目的就是要根据样本提供的信息,判断是原假设成立还是备择假设成立.由于样本中蕴含的信息量非常丰富,而我们通常只需要其中的部分信息进行判断.所以假设检验的第二步是对样本信息进行加工,即构造适当的统计量,利用这个统计量的数值进行判断.这个统计量称为检验统计量.
检验统计量的构造原理与区间估计统计量的构造原理类似.一个好的检验统计量通常具有明确的抽样分布,借助该统计量的分布特征和样本取值,我们可以作出判断是接受原假设还是拒绝原假设.
在女士品茶案例中,这位女士每次品茶的结果记作Xi
Xi=1,正确判断茶和奶的放置顺序0,错误判断茶和奶的放置顺序
记Y=∑ni=1Xi,Y实 际上是这位女士品尝n杯茶后,正确判断出茶奶配置次序的次数.在此统计量Y即可作为本例的检验统计量,它服从二项分布B(n,p).
P(Y=y|p)=CynPy(1-P)n-y,y=0,1,2,…,n
③接受域和拒绝域.有了检验统计量之后,我们需要确定一个界限,这个界限可以将检验统计量的取值空间划分为两个区域.其中一个区域是原假设为真时,样本通常会落入的区域.如果检验统计量的样本值落在这个区域里,我们就判断接受原假设,所以该区间称为接受域,即接受原假设的区域.
另一个区域是原假设为真时,样本落入该区域的概率非常小,小到几乎可以认为这种情况几乎不会发生.而在备择假设成立时,样本落入这个区域的概率就很大.如果检验统计量落在这个区域里,我们将拒绝原假设,认为备择假设成立,所以该区间称为拒绝域,即拒绝原假设的区域.
在女士饮茶案例中,如果该女士确实有特殊味觉,能有效区分奶和茶的配置顺序,那么在品尝n杯茶后,她判断正确的次数Y应该大于普通人随机猜对的次数.所以可以找到一个界限K,当Y≥K时,我们将拒绝原假设,认为该女士具有特殊味觉.这时拒绝域为:
W={(X1,…,Xn),Y=∑ni=1Xi≥k}.
当Y W-={(X1,…,Xn),Y=∑ni=1Xi 假设这位女士能准确到8杯奶茶的配置顺序,则当显著性水平取0.05时,检验统计量落入接受域,这意位着我们没有95%的把握拒绝原假设,所以认为该女士没有特殊味觉,不能有效识别奶和茶的配置顺序. 而当显著性水平取0.1时,检验统计量落入拒绝域,这意味着我们有90%以上的把握拒绝原假设.认为该女士具有特殊味觉,能有效识别奶和茶的配置顺序. 【参考文献】 [1]陈魁.应用概率统计[M].清华大学出版社,2000. [2]陈家鼎.概率统计讲义[J].高等教育出版社,1982. [3]沈恒范.概率论讲义[M].人民教育出版社,1966. [4]贾俊平.统计学[M].清华大学出版社,2000.