黄凤娟,付大愚,王金茹
(沈阳体育学院体育信息技术系,辽宁沈阳110102)
社会体育调查中缺失数据处理方法的比较研究
黄凤娟,付大愚,王金茹
(沈阳体育学院体育信息技术系,辽宁沈阳110102)
在社会体育调查资料统计处理的过程中,经常面对缺失数据的问题。以2001年沈阳市500名40~70岁城市妇女关于参加体育锻炼活动和体力劳动的问卷调查数据为实例,对5种常用处理缺失数据的插补方法进行了比较分析。首先介绍5种缺失数据插补方法并阐述利与弊,然后结合调查实例进行描述性指标比较和回归分析比较,最后提出研究者在选用插补方法时应该综合考虑缺失数据所占比例、研究能力和时间限制等因素寻找最适宜的插补方法。
缺失数据;插补方法;统计推断;数据分析
在统计处理社会体育调查资料的过程中,经常出现调查数据缺失问题。缺失数据在体育社会学科的调查研究中,特别是针对大规模人群的调查,是一个相当普遍的问题。缺失数据的出现在一定程度上对统计结果的有效性具有一定的危害。在体育社会学科中广泛进行的科研调查中,最为常见的问题就是因为失访、无响应或是回答问题不合格等原因造成的数据缺失现象。
出现数据缺失时,最传统的处理方法是保留完全记录,舍弃含有缺失项的记录,然后将其看作完全数据进行处理分析,这样做不仅会产生数据的偏倚,甚至会得出有误导性的结论,同时丢失大量有用信息,造成很大的浪费。目前插补是处理缺失数据时普遍使用的一种技术,缺失数据的插补是指选择合理的数据代替缺失数据,得到“完全数据集”后,再使用数据统计方法对数据进行统计分析与统计推断。在缺失数据的数量较大的情况下,不同的插补方法对总体推断会产生较大影响。目前社会体育调查中对缺失数据的插补问题尚未有充分认识。研究者在抽样调查报告中很少会说明缺失数据的处理方法,但事实上,绝大部分体育社会科学调查都会包含不完整的数据,理应对此有所说明。笔者以城市妇女参加体育锻炼活动和体力劳动的问卷调查数据为实例,对5种常用处理缺失数据的插补方法进行比较分析,为社会体育调查的数据处理提供参考。
1.1 研究资料
数据来源于2001年对500名40~70岁沈阳市城市妇女关于参加体育锻炼活动和体力劳动的问卷调查。以此次调查中涉及到的5个变量为例:年龄、每天运动时间、每天家务时间、每月支付锻炼费用和参加体育活动的兴趣度。其中年龄没有缺失值,每天运动时间、每天家务时间、每月支付锻炼费用和参加体育活动的兴趣度分别有20%、4%、31%、24%的缺失值。每天运动时间和家务时间以“min/d”为单位,每月支付锻炼费用以“元/月”为单位,体育活动的兴趣度为6项指标,计算得分之和,总分为30分。
1.2 研究方法
对缺失数据的处理方法很多,常用的方法有个案剔除法、均值替换法、热卡填充法、回归替换法和多重替代法。
1.2.1 个案剔除法 个案剔除法是处理缺失数据最常见、最简单的方法,也是很多统计软件(如SPSS和SAS)默认的处理方法。在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失数据所占的比例相对较小的话,此方法十分有效。
1.2.2 均值替换法 在缺失的数据量较为庞大且变量又非常重要的时候,由于个案剔除法将许多有用的数据也同时被剔除,所以个案剔除法就不适合对缺失数据的处理了。均值替换法是将变量的属性分为计量型数据和计数型数据来分别进行处理。如果缺失数据是计量型的,则用该变量的平均值来填充缺失的变量值;如果缺失数据是计数型的,则根据统计学中的众数原理,用该变量的众数来填补该缺失的变量值。
1.2.3 热卡填充法 热卡填充法是在数据库中找到一个与缺失数据最相似的对象,利用这个相似对象的值来进行填充。不同的问题选用不同的标准对相似来进行判定。经常采用的是使用相关系数矩阵来确定哪个变量(比如变量y)与缺失数据所在变量(比如变量x)最相关。然后把所有个案按y值的大小进行排序。那么变量x的缺失数据就可以用排在缺失数据前的那个个案的数据来代替了。
1.2.4 回归替换法 回归替换法首先需要选择若干个预测缺失数据的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失数据进行替换。
1.2.5 多重替代法 多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析的方法,是简单估算的改进产物。首先,多重估算技术用一系列可能的值来替换每一个缺失值,来反映被替换的缺失数据的不确定性。其次,用标准的统计分析过程对进行多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估算技术不是用单一的值来替换缺失值,而是试图产生缺失数据的一个随机样本,这种方法反映了由于数据缺失而导致的不确定性,因此能够产生更加有效的统计推断。这种方法可以在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。
在社会体育调查中,处理缺失数据常采用马尔科夫链蒙特卡罗法,简称MCMC法。在贝叶斯推断中,MCMC法被作为一种探索后验分布的方法。值得注意的是,在使用回归法或MCMC法时,需要假设数据服从多元正态分布。
为了表述的方便,用Yobs表示数据库中不含有缺失数据的那部分变量,Ymis表示数据库中含有缺失数据的那部分变量。运用MCMC法对缺失数据进行多重估算可分为以下两步:
1)估算步
在每一次循环运算的估算步中,根据给定的均值向量μ和协方差矩阵∑,从条件分布p(Ymis|Yobs,θ)中为缺失数据抽取替换值。
假设μ=[μ1′,μ2′]′是两部分变量的均数向量,μ1是Yobs的均值向量,μ2是Ymis的均值向量。同时设定
是这些变量的协方差矩阵,其中∑11是Yobs的协方差矩阵,∑22是Ymis的协方差矩阵,∑12和∑21是Yobs与Ymis间的协方差矩阵。则当给定Yobs=y1时Ymis的条件分布是一个多元正态分布,它的均值向量为
其对应的条件协方差矩阵为
2)后验步
在每一次循环运算中,后验步用上一步得到μ和∑来模拟后验总体的均数向量、协方差矩阵和参数θ。
每次循环过程也可表述为:估算步用第t次循环得到的参数θ(t),再从分布p(Ymis|Yobs,θ(t))中抽取,后验步则从分布p(θ|Yobs,)中抽取θ(t+1)。
重复此过程,产生一个足够长的马尔科夫链:
当该链会聚在一个稳定的分布p(Ymis,θ|Yobs)时,就可以近似独立地从该分布中为缺失数据抽取替代值。
把所有的缺失数据都进行替换之后,就完成了一次估算,并产生了一个完整的数据集。这一过程将被重复n次,以产生n个完整的数据集。
2.1 描述性指标比较
采用这5种缺失数据插补方法,对参加体育锻炼活动和体力劳动的问卷调查数据进行比较分析。由表1可见,采用不同的插补方法对缺失数据进行插补,其变量的均值和标准差是不同的。当变量中缺失数据比较少时(如每天家务时间),采用5种方法插补后的均值和标准差差异相对较小;当变量中缺失数据所占比例较大时(如每天运动的时间、每月支付锻炼费用、参加活动的兴趣度得分等),采用5种方法插补后的均值和标准差差异相对也较大。在这5种方法中,使用个案剔除法后各变量的标准差大于其他方法,使用多重替代法后各变量的标准差小于其他方法。
2.2 回归分析比较
以参加体育活动的兴趣得分为因变量,其余4个变量为自变量进行回归分析(表2)。
表1 5种缺失数据插补方法比较统计
表2 5种缺失数据插补方法回归分析统计
由表2可见,从F值上看,个案剔除法与回归替换法的F值比较高。因为在回归分析中,各个变量是相互关联的,尽管年龄变量没有缺失数据,但由于其他的变量存在缺失数据,从而导致年龄变量在回归方程中的系数也会发生变化。从表2中我们可以看出这种变化是较大的,T值从0.32变化至1.08,与之相对应的P值也从0.31变化到0.73。因此在进行多元统计分析时,一定要注重缺失数据插补方法的使用。它不仅可以影响有缺失数据的变量,同时也影响没有缺失数据的变量。
采用不同插补方法对“支付锻炼费用”变量的影响比较大。其中采用热卡填充法后的系数是最大的,并且高于采用其他方法插补后的系数。从P值上看,采用热卡填充法对该变量的影响不具有显著性意义,而使用其他插补方法却使得该变量对因变量的影响是显著。这与之前的分析是一致的,即在回归分析中,采用热卡填充法获得的系数是不稳定不可靠的。
3.1 个案剔除法
如果缺失数据所占比例比较小,使用个案剔除法既简单又有效。但当缺失数据所占比例较大,特别当缺失数据不是随机分布时,这种方法将会导致数据发生偏离,以至于得出错误的结论。
3.2 均值替换法
均值替换法也可以简便、快速的处理缺失数据,在使用均值替换法进行插补缺失数据时,该变量均值的估计不会产生影响。由于此方法是建立在完全随机缺失的假设之上的,所以会造成变量的标准差变小。
3.3 热卡填充法
使用热卡填充法插补缺失数据,与均值替换法相比,其变量的标准差与插补前相比较为接近,但在回归方程中,热卡填充法容易使回归方程的误差增大,参数估计变得不稳定,而且这种方法计算不方便,比较麻烦耗时。
3.4 回归替换法
回归替换法要求存在缺失数据所在的变量与其他变量存在线性关系,所以对与其他变量存在线性关系的缺失数据采用回归替换法效果比较好。
3.5 多重替代法
多重估算技术不是用单一的值来替换缺失数据,而是产生缺失数据的一个随机样本,这种方法可以产生更加有效的统计推断。并且利用NORM统计软件,可以较为简便地操作该方法。因此,在选用插补方法时,要考虑到缺失数据所占比例、变量间的关联度、研究的能力、时间限制等因素,选择在当前条件下最适合的插补方法。
[1]周艺彪,姜庆五,赵根明,等.调查研究中数据缺失的机制及处理方法[J].中国卫生统计,2005,22(5):318-321.
[2]曹阳,张罗漫.运用SAS对不完整数据集进行多重填补SAS 9中的多重填补及其统计分析过程[J].中国卫生统计,2004,21(1):56-63.
[3]陈姿羽,李伟鹏.基于属性选择的贝叶斯网络模型在临床缺失数据中的研究与应用[J].南方医科大学学报,2008,28(10):1903-1905.
[4]庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004,19(5):29-32.
[5]金勇进.缺失数据的插补调整[J].数理统计与管理,2001,20(5):47-53.
[6]余竞,钟涵宇,刘利,等.统计调查表缺失数据插补效果的实证分析[J].成都大学学报,2010,29(4):307-310.
[7]曹阳.居民健康调查资料中的缺失数据的多重估算[J].中国卫生统计,2002,19(5):280-282.
[8]武建虎,贺佳,贺宪民,等.多变量缺失数据的不同处理方法及分析结果比较[J].第二军医大学学报,2004,29(9):1013-1016.
责任编辑:刘红霞
M issing Data Processing M ethod in Social Sports Investigation
HUANG Fengjuan,FU Dayu,WANG Jinru
(Sports Information Technology Department,Shenyang Sport University,Shenyang 110102,Liaoning,China)
In the process of social sports statistical processing of the survey data,we are often faced w ith the problem of m issing data.In this paper,taking 500 40-year-old to 70-year-old urban women in Shenyang City participatiing in the survey data on physical exercise and physical activity in 2001 as an example,five kinds of commonlym issing data imputation methodswere compared and analyzed.At first,it introduced five kinds of m issing data imputation methods and described the pros and cons,and then conducted descriptive examples and regression analysis and comparison of comparative indicators combined surveys.It concludes that in the selection of the interpolation method,the researchers should take into account the percentage ofm issing data proportion,research capacity,time constraints and other factors to find the most suitable interpolation method.
m issing data;interpolationmethod;statistical inference;data analysis
G80-32 文献标志码:A 文章编号:1004-0560(2014)04-0046-04
2014-06-18;
2014-07-22
2013年辽宁省教育厅科学研究一般项目,编号:W2013231。
黄凤娟(1962—),女,副教授,学士,主要研究方向为体质研究与统计应用。
◄体育人文社会学