多项选择题数据的非参数统计方法探究

2015-08-07 12:25

学周刊 2015年23期

（中南财经政法大学统计与数学学院 430073）

多项选择题数据的非参数统计方法探究

程曦

（中南财经政法大学统计与数学学院 430073）

在统计研究中的各类问卷调查中，多项选择题的应用十分普遍。多项选择题有较多备选项，可以同时选择多个选项，其复杂度也强于一般分类数据。因此，本文运用本学期所学的非参数统计检验知识，针对各选项的显著性，尝试运用多种方法对该类数据进行检验与分析，也对各类方法的效果进行分析和比较。

在记录多选题调查结果时，为了便于定量分析，采用多重二分法（Multiple Dichotomy Method）的编码方法，即将多项选择题的每一个选项视为一个“处理”，每一份问卷看作一个“区组”，并用“0”表示没有被选中、“1”表示被选中。这样，多项选择题的数据可以表示为二元完全区组数据。

一、问题的提出

本文的例证数据采用以下多选题的调查数据：请问您日常饮用下列哪种水？（多选）A 自来水，B井水，C 家用净水器处理后的水，D 桶装水或瓶装水。

选取调查结果中的25份问卷，其调查结果以多重二分法编码如下：

二、关于随机性的游程检验

（一）模型建立

游程检验是用于检验取值“1”概率为p的Bernoulli试验中的“1”和“0”是否随机出现的方法。其原理是，将连在一起的“0”或“1”作为一个游程，当已知出现了多少个“1”和“0”时，游程个数R服从固定的分布。

其假设为：H0:有随机性；H1：无随机性（有聚类倾向）

统计量及其分布为：R=游程数～Y（m ，n）

其中m为“0”的个数，n为“1”的个数，Y代表游程分布。

其具体计算是通过累加概率求得P值：

（二）模型求解

编写R程序实现这一检验方法，得到4个选项检验的p值分别为：（α=0.05）

可见，均不能拒绝原假设，即认为源数据的随机性良好，符合问卷调查的随机抽样原则。也就是说，这部分问卷在填写时并没有出现较为严重的相互抄袭或人为编造等影响问卷质量的现象，因此，该数据适合进行进一步分析。

三、关于单对选项差异的McNemar检验

（一）模型建立

McNemar检验是用于检验配对二元取值数据中取“1”的比例是否相等的检验方法，对于本例，则是选择某选项的比例，该方法首先将数据写成列联表形式：

分别为处理1和处理2的取“1”的比例，则检验的假设为：

统计量和近似分布为：

其p值即是统计量2χ在分布中的双边概率值。

（二）模型求解

编写R程序实现这一检验方法，得到AD、DC、CB三对检验的p值分别为：（α=0.05）

可见，A＞D＞C＞B中的A＞D，D＞C，C＞B这三个关系都不是显著的。也就是说，目前没有足够的理由认为饮用“自来水”的人数多于“桶装水或瓶装水”，饮用“桶装水或瓶装水”的人数多于“家用净水器处理后的水”，饮用“家用净水器处理后的水”的人数多于“井水”。

那么，如果跨步检验，即A＞C，D＞B，甚至直接检验A＞B，大于关系是否显著呢？检验结果为：

可见，结果发生了巨大变化，全部都非常显著。

四、关于全部选项差异的Cochran检验

（一）模型建立

Cochran检验是对二元响应的完全区组数据中不同处理的位置参数是否相同的检验。位置参数表征四个选项在受访者眼中的排序。假设iθ为第i个选项的位置参数，则检验的假设为：不全相等全相等

统计量及其分布为：

其中，b为区组数，即问卷数；k为处理数，即选项数；Ni为第i个选项1出现的个数；Lj为第j个问卷中选1的个数；N为1出现的总个数。

（二）模型求解

编写R程序实现这一检验方法，得到检验的p值为：P=0.00005＜0.05

可见，显著性是非常强的。也就是说，对于“自来水”“井水”“家用净水器处理后的水”“桶装水或瓶装水”这几种饮用水方式，人们对其选择的比例差异是非常大的。这也说明，该问卷中该多项选择题的设置是十分有意义的，收回问卷后得到的数据也是十分有比较价值的。

五、结论

通过各个模型的建立、实际问题的求解，以及对二元数据的新的处理方法的效果讨论，可以从实际问题和研究方法两方面得出结论。

对于本文所示的多项选择题来说，其调查所得数据的随机性是良好的；在4个选项之间的两两大小关系的比较中，只有3个跨步大小关系是显著的，因此A＞D＞C＞B不是显著成立的，只能确信A＞C，D＞B，A＞B这三种关系。作为多选题整体来看，该题的整体选项差异是显著的，因此用本例来进行调查是有意义的。

对于研究方法来说，游程检验能够很好地判断调查问卷所得数据是否具有随机性，即是否是完全随机抽样；McNemar检验能够很好地比较两个选项的差异性，即选一种选项的人数是否显著大于另一种；Cochran检验能够很好地判断多选题整体的各个选项是否具有差异性，即从整体判断多选题调查的效果；而加入随机变量后的Friedman检验方法也在本例中达到了比较好的效果，能够以较高的准确率判断多选题整体差异性是否显著。

[1]李灿.调查问卷中多项选择题的处理方法[J].统计与决策，2006（06）.

[2]吴喜之，赵博娟.非参数统计[M].中国统计出版社，2013.

[3]赵江涛.多项选择模型的参数估计[J].网络财富，2009（15）.

[4]罗明奎.配对资料McNemar检验法的适用范围[J].中国卫生统计，1993（03）.

[5]赵国龙，杜诗军.非虚假设综合卡方检验[J].应用概率统计，2003（04）.

（责编赵景霞）