张 彪 韩 伟 庞海玉 薛 芳 厚 磊 王子兴 王钰嫣 姜晶梅
中国医学科学院基础医学研究所&北京协和医学院基础学院流行病学与卫生统计学系(100005)
·方法介绍·
完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究
张 彪 韩 伟 庞海玉 薛 芳 厚 磊 王子兴 王钰嫣 姜晶梅△
中国医学科学院基础医学研究所&北京协和医学院基础学院流行病学与卫生统计学系(100005)
目的 探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法 基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果 有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论 连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。
分类变量 数据缺失 多重插补
在医学研究中,数据缺失是一个普遍存在的问题[1]。数据缺失会导致样本信息减少和统计检验效能降低,损害研究结果的有效性[2],增加统计分析的复杂性[3-4]。对缺失数据进行插补是国内外普遍应用的缺失数据处理方法,但目前研究多集中于对连续变量的数据缺失进行插补,对分类变量数据缺失的插补研究较少,完全随机缺失是对插补方法的插补效果进行评价的理想环境。本研究基于完整数据集模拟缺失数据集,探讨分类随机变量数据缺失对研究结果的影响,并对各方法的插补效果进行比较及评价。
1.数据来源:研究数据源于1989-1991年开展的“中国吸烟与全死因关系”横断面调查,选取上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的数据进行插补方法研究,共14911条完整观测。
2.研究涉及的变量:详见表1。
3.不完整数据集的构建:基于完整数据集模拟完全随机缺失的不完整数据集。
(1)有序分类变量缺失:模拟syfz缺失的不完整数据集,分别在5%、10%、20%和30%的缺失率下各模拟100次;
(2)二分类变量缺失:模拟sex缺失的不完整数据集,分别在5%、10%、20%和30%的缺失率下各模拟100次。
4.插补方法及效果评价
有序分类变量缺失采用四种方法处理缺失值[5-8]:①删除法,删除syfz缺失的观测;②众数插补法,按sex和sagefz将数据交叉分组分为8组。计算各组中syfz的众数,并将其作为该组中缺失项的插补值。③多重插补-logistic回归法(MI/logistic),以syfz为因变量,sex、age和sage为协变量拟合有序多分类logistic回归模型,计算缺失观测syfz取值为1,2,…,5的概率分别为p1,p2,…,p5,然后产生一个服从均匀分布的随机变量μ,其取值介于0和1之间,若μ 二分类变量缺失采用四种方法处理缺失值[5-8]:①删除法,删除sex缺失的观测。②众数插补法,按agefz及sagefz将全部观测分为16组,以每组中sex的众数插补相应的缺失值。③多重插补-logistic回归法(MI/logistic),以sex为因变量,age、sage、smd和sy为协变量拟合二分类logistic回归模型,插补过程与有序多分类logistic回归多重插补相同,分别对缺失值进行3次、5次和10次插补。④多重插补-判别分析法(MI/discrim),利用变量age、sage、smd和sy构建sex的判别模型,分别对缺失值进行3次、5次和10次插补。 对各方法的插补效果从以下二方面进行评价: (1)插补正确率[9-11]:计算插补后各插补方法的插补正确率,正确插补的观测数占总缺失观测数的比例。重复模拟100次,计算100次正确率的均值,得到各方法的平均插补正确率。插补正确率越高插补效果越好。 (2)插补后模型参数的改变[12-13]:采用logistic回归模型分析lungca(因变量)与sex、syfz(或sy)和smd的关系。将插补数据集的模型参数估计结果与完整数据集的结果相比较,计算模型参数的平均绝对偏差MADP和平均相对偏差MRDP。 其中,k为重复模拟次数,s为模型中估计的参数个数,δ为完整数据集的参数估计值,δij为插补数据集的参数估计值。MADP和MRDP越小插补效果越好。 1.有序分类变量缺失 表2显示了在5%缺失率下各法对syfz插补的正确率及插补后模型参数的变化。Syfz插补正确率由高到低为:MI/logistic>MI/discrim>众数插补;从模型参数偏差来看,MI/logistic与MI/discrim插补后模型参数的偏差较小且极为接近,均远小于众数插补与删除法。 其他缺失率下各插补方法的结果列于表3~6,由于同一多重插补方法在不同插补次数下的效果相近,选择插补效果最好时对应的次数。 表3显示,各方法的插补准确率较为稳定,不随缺失率的变化而变化。MI/logistic插补的正确率最高,众数插补的正确率最低。 表4显示,模型参数的偏差随着缺失率的增加而增加。各缺失率下,众数插补的偏差均最大,MI/logistic与MI/discrim的偏差较小且极为接近,明显优于众数插补和删除法。 syfz是由连续变量sy离散化得到的,当sy有数据缺失时,分别以连续变量形式sy和分组变量形式syfz进入模型,数据缺失导致模型参数的相对偏差情况见表5。 表5显示,在各缺失率下,以分类变量形式syfz进入模型时模型参数的相对偏差小于连续变量形式sy的相对偏差。随着缺失率的增加,syfz与sy的模型参数相对误差的差值有增大的趋势。 采用删除法、条件均值插补、回归插补、多重插补-趋势得分法、多重插补-回归法、多重插补-预测均数匹配法及多重插补-马尔科夫蒙特卡洛法对sy的缺失数据进行处理,采用删除法、众数插补、多重插补-logistic回归及多重插补-判别分析对syfz的缺失数据进行处理。将插补后的sy和syfz分别纳入模型,计算各方法插补后模型参数的相对偏差,选择最小的相对偏差作图,可得对连续变量sy和分类变量syfz插补后模型参数的相对偏差,详见表6。 表6显示,在各缺失率下,分类变量syfz插补后进入模型的模型参数相对偏差均小于连续变量sy插补后进入模型的模型参数相对偏差。随着缺失率的增加,syfz与sy的模型参数相对误差的差值有增大的趋势。通过表6与表5的比较可见,插补后模型参数的相对偏差明显降低。 2.二分类变量缺失 对二分类变量sex缺失数据处理的主要结果见表7-8。 表7显示,各方法的插补准确率稳定在一定水平上;众数插补的正确率最高,MI/logistic与MI/discrim插补的正确率相近且均较低。 表8显示,模型参数的偏差随着缺失率的增加而增加。各缺失率下,删除法的偏差最小,MI/logistic与MI/discrim的偏差均较大。 缺失率越大,数据缺失导致研究结果的偏差越大,各缺失值处理方法的效果也越差。本研究将吸烟年数测量指标分别以连续变量sy和分组变量syfz纳入模型,结果显示,syfz进入模型数据缺失导致的模型参数的相对偏差较小,对syfz进行插补后模型参数的相对偏差更小。这提示连续变量缺失对模型结果的影响大于分类变量缺失,在实际中遇到有数据缺失的连续变量可将其离散化,以分类变量的形式进行处理。 本研究对缺失变量的插补充分利用了辅助变量的信息,辅助变量与缺失变量之间的相关性越强,信息利用越充分,插补的效果越好。对syfz进行插补时,MI/logistic与MI/discrim的插补效果较好,明显优于删除法与众数插补法,然而对sex进行插补时,MI/logistic与MI/discrim的插补效果较差,明显差于删除法与众数插补法,究其原因是由于辅助变量能对syfz进行较好的预测,而对sex的预测效果较差。如进行MI/logistic插补时,对syfz进行预测的logistic回归模型其矫正R2为0.8513,预测一致百分比为94.8%,而对sex进行预测的回归模型矫正R2为0.2003,预测一致百分比为72.9%。这提示基于统计建模对缺失数据进行插补时,模型拟合效果会直接影响插补效果,当模型拟合效果较差时会带来更大的偏差,但模型拟合优度与插补效果之间的定量关系有待进一步的研究。 [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321. [2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75. [3]吴秋红,张裕青,李国平,等.不同模型处理纵向缺失数据的模拟研究及应用.中国卫生统计,2013,30(6):855-861. [4]曹阳,张罗漫.运用SAS对不完整数据集进行多重填补-SAS9中的多重填补及其统计分析过程(一).中国卫生统计,2004,21(1):56-63. [5]李树威,钟晓妮.基于Markov Chain Monto Carlo模型对医院调查资料中缺失数据的多重估算.中国卫生统计,2013,30(6):837-841. [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009. [7]赵飞,张志杰,刘建翔.疾病监测资料中缺失值最佳填充次数的研究.中国卫生统计,2009,29(5):455-458. [8]帅平,李晓松,周晓华,等.缺失数据统计处理方法研究进展.中国卫生统计,2013,30(1):135-142. [9]兰妥,江弋,刘光生.基于Sas的时间序列缺失值处理方法比较.计算机技术与发展,2008,10(18):43-45. [10]张桥,李宁,张秋菊,等.任意缺失模式缺失数据不同填补方法效果比较.中国卫生统计, 2013,30(5):690-692. [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186. [12]魏昕.缺失数据对微观计量影响研究——以农民收入与消费为例.成都:西南交通大学,2010. [13]庄严,邢艳春,马文卿.含有缺失机制的多元纵向数据分析.中国卫生统计,2008,25(5):489-493. (责任编辑:郭海强) △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com结 果
讨 论