王平鲜+黄介武+常国艳
摘要针对已存在关于零膨胀的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,在不同零膨胀程度、不同均值和不同样本量下对上述检验作比较研究.得到了不同条件下7种检验方法的优良性,并结合理论对7种检验方法进行分析.
关键词零膨胀;模拟;检验功效;第一类错误
中图分类号O212.1文献标识码A
1引言
计数数据是一种广泛存在于医学、保险和农林等领域的数据类型.当计数数据中零的比例超出泊松(Poisson)或负二项(NB)分布等一般计数模型的预测能力,这类现象被称为计数资料的零膨胀[1].针对存在零膨胀现象的计数数据,常见的统计分析模型有零膨胀泊松模型、零膨胀负二项回归模型等.而在用零膨胀模型对数据进行拟合分析时,首先要对数据是否存在零膨胀进行检验.关于数据是否存在零膨胀,一方面可以通过直方图等做简单的直观分析与判断,但所得结论较为粗糙[2];另一方面可以通过建立检验统计量进行假设检验,得到较为精确的结论.1954年Cohran[3]提出了一个不考虑协变量的C检验,1956年Rao和Chakravarti[4]针对小样本量提出另一个考虑协变量的R检验,这两种检验方法只考虑响应变量的观测值,相对较为直接.1985年ElShaarawi[5]推导了基于ZIP模型下似然比检验的统计量,并通过模拟分析比较了R检验、C检验和似然比检验的功效.1995年Van den broek[6]提出了基于零膨胀泊松(ZIP)模型下的Score检验;2001年M.Xie[7]提出了基于ZIP模型的基于置信区间检验,并通过模拟方法对C检验、R检验、似然比检验、Score检验、基于置信区间的检验和卡方检验的功效进行比较;2009年Saranya Numna[8]提出了基于ZIP模型下的Wald检验.
本文在基于ZIP模型条件,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,对上述的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验在不同零膨胀程度、不同均值和不同样本量下作比较研究.
2零膨胀模型及零膨胀检验方法介绍
2.1零膨胀泊松(ZIP)模型
零膨胀(ZI)模型的基本思想是认为事件的发生数来自于两部分:一部分随机变量的取值只为零(这部分零称为结构零),另一部分来自一个离散分布(此时的零称为抽样零),由此可得零膨胀模型的一般形式是:
再对图1的模拟结果进行分析.首先考虑λ变化、n不变条件下观察不同零膨胀的功效.从图1模拟结果看出,随着λ的增大,Wald检验和基于置信区间的检验与其他5种检验的功效差距逐渐增大.
然后考虑n变化、λ不变条件下观察不同零膨胀的功效.从图1可以看出,当n比较小(如n=20,50)时,R检验和C检验的功效高于其他检验的功效.当n比较大,ω比较小(如n=100,200,ω<0.05)时,卡方检验的功效最高;而当n和ω比较大(如n=100,200,ω>0.05)时,7种检验方法的功效差别不明显.
综合模拟结果可知,大多数情况,R检验法和C检验法对零膨胀检验的功效高于其他5种检验,其它检验的功效大小依次为:Score检验>卡方检验>似然比检验>Wald检验>基于置信区间检验.
3.2模拟检验方法犯第一类错误的比例
通过犯第一类错误的比例对7种检验方法进行比较分析.这里只考虑n=50,λ=3的情况,ω的取值和随机数产生的方法同上.对每组参数,实验均重复3 000次.实验结果见表2,其中P表示同一组参数对应的3 000组数据中存在零膨胀的比例.模拟结果见表2.
表2中的倾斜加粗表示犯第一类错误的最小值,倾斜加下划线表示第二小的值.从表2模拟结果可以看出,当n=50,λ=3时,在不同零膨胀程度下,卡方检验犯第一类错误的比例总是最小,而R和C检验犯第一类错误的比例大于卡方检验小于其他四种检验.此外,从表2模拟结果同样可知,在给定的n=50,λ=3的条件下,随着零膨胀程度的增加,7種检验方法犯第一类错误的比例均有减少的趋势.
4结论
本文在以检验功效和犯第一类错误比例为评判准则下,通过Monte Carlo模拟分析方法,对已存在的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验作了比较研究.得出7种零膨胀检验方法可以有效的检验零膨胀是否存在;其中,基于置信检验的功效最低,主要原因在于该方法对零假设有非常强的保护;虽然R检验和C检验的功效比其他5种检验的功效大,即“纳伪”的概率比其他五种检验小,但是这两种检验方法因不考虑协变量,有时候会导致信息的丢失.卡方检验犯第一类错误的比例比其他检验的低,即“弃真”的概率低,但是,卡方检验是基于均值与方差相等的Poisson模型,所以卡方检验有时会导致纳入过多的错误信息,如可能考虑了过度离散情况.似然比检验、Score检验和Wald检验是基于ZIP模型,所以更能反映真实情况,而Score检验的统计量是最简洁的.在应用过程中,零膨胀作为一种现象只是相对而言,因此针对具体问题,应该仔细观察和考虑可能同时存在的其他特殊情况,以选择合适的模型进行拟合.
参考文献
[1]王存同. 零膨胀模型在社会科学实证研究中的应用——以中国人工流产影响因素的分析为例[J]. 社会学研究, 2010(5):130-148.
[2]谢锋昌.零过多数据的统计分析及其应用[M].北京:科学出版社, 2013.
[3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics,1954,10(4):417-451.
[4]Rao C R,Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics, 1956, 12(3): 264-282.
[5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology, 1985, 49(5):1304-1306.
[6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics, 1995, 51(2):738-743.
[7]Xie M,He B,Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis, 2001, 38(2):191-201.
[8]Numna S,Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince:Prince Mathematics and Statistics Prince of Songkla University, 2009.
[9]王星. 非参数统计[M]. 北京:清华大学出版社, 2009.