心理学研究中缺失数据的处理方法比较

2020-05-23 04:26沈洪炎
开封文化艺术职业学院学报 2020年3期
关键词:期望值最大化均值

沈洪炎

(广州大学 学生处心理健康教育与咨询中心,广东 广州 510006)

一、研究背景

缺失值是指在数据采集与整理过程中丢失的内容。心理学的研究对象是人,以人作为被试,不可避免地存在着态度、情绪、心理状态等主试无法控制的因素,因此,数据的收集与整理比其他研究更加困难,得到的观测数据也普遍存在不完整的情况[1-2]。因此,从统计和测量的角度探讨合适的缺失值处理方法尤为重要。但是,在心理学研究领域,缺失值的问题并未得到足够的重视,对处理缺失值的方法的研究有限,而且缺乏系统性和针对性。

SPSS(Statistical Package for the Social Science)软件是心理研究常用的统计软件,其常用的缺失值处理方法有整列删除、成对删除、均值替换法、期望值最大化法、回归插补法。其中,整列删除和成对删除可统称为删除法。

近几十年来,研究者提出了许多统计方法用于处理数据缺失的问题,在不同领域得到了广泛应用,并且有大量文献对其进行了探讨及效果优劣的比较,结论不尽一致。邓建新等人[3]认为,删除法在低缺失率(小于5%)的情况下表现较好;对于期望值最大化法和回归插值法,殷娟娟[4]、魏娜等人[5]认为缺失率是决定其效果优劣的重要影响因素,而且期望值最大化法的处理效果更好。朱高培等人[6]认为在缺失比例较低时(10%~20%),成对删除法和回归插补法的效果较好且易于实现,但成对删除法会降低统计效率,所以建议选择回归插补法。

综上所述,每一种方法都有其适用条件,因此有必要了解其在不同条件下的数据处理效果,以便使其能用到实处。

二、模拟研究

本研究通过模特卡罗模拟方法构造随机缺失数据(MCAR),并采用5种缺失值处理方法进行删除或填充,然后借助回归模型来计算处理后的数据和原始数据的参数估计偏差大小,并以绝对值偏差ABSE作为衡量缺失值处理方法好坏的指标。本研究使用的软件包括R2.9.1、SPSS 15.0和Excel 2003。

(一)模型选用

通过R2.9.1软件编程,模拟一个完整的数据集,该数据集中包含的样本容量为N=200,1个因变量Y,3个自变量,即X1、X2和X3,这3个自变量均为正态连续变量,利用该数据集建立多元线性回归模型:

(二)构造缺失值

将各变量合并为矩阵,并按照一定的缺失率(2%、3%、5%、10%、20%)随机地将矩阵中的数值指定为缺失值。

(三)缺失处理

采用SPSS软件,分别用各种方法(整列删除、成对删除、均值替换法、期望值最大化法、回归插补法)对每一种缺失率下的缺失数据集进行处理,并将处理后的数据和原始数据分别带入回归模型中进行参数估计,比较两组回归系数的差异。

(四)选取衡量指标

重复实验50次,以回归系数的绝对值偏差ABSE作为衡量缺失值处理效果的指标。此值越低,则处理后的数据集与原始的完整数据集越接近,即对应的缺失值处理方法效果越好;此值越高,则处理效果越差。回归系数的绝对值偏差ABSE计算公式为:

(五)模拟研究结果

图1为本次模拟的结果。

图1 模拟结果的柱形图

由图1可知,随着缺失率的增大,各方法的绝对值偏差ABSE值都在上升,这说明数据缺失越多,可利用的数据信息就越少,无论使用哪一种方法,还原完整的原始数据都会越来越困难,处理效果也会越来越差。同时,随着缺失率的逐步递增,各方法的效果差异也越发明显。

在各种缺失率下,均值替代法的绝对值偏差ABSE值总是最高,而且当缺失率大于2%时,均值替代法的效果明显差于其他方法。但不幸的是,在心理学问卷和实验数据处理过程中,绝大多数研究者都使用这种方法来填充缺失值。此外,整列删除和期望值最大化法的绝对值偏差ABSE值较低,说明此两种方法的处理结果与完整数据集比较接近。

三、实例验证

引用何莉雯[7]的数据,共得到8 729个完整的观测样本,分别以2%、3%、5%、10%、20%的缺失率构造缺失数据集,再用本研究中的5种方法进行缺失值处理,结果如图2所示。由图1制作的模拟结果的折线图如图3所示。

通过实例结果与模拟结果进行对比可以发现:ABSE值总是随着缺失率的增大而升高,各方法的效果差异随着缺失值的增大越来越明显;均值替代法的ABSE值在各种缺失率下总是最高的,即该方法填充效果最不理想;整列删除法和期望值最大化法效果通常较好,在样本量充足的条件下,可适当使用;回归插值法和成对删除法效果居中,优于均值替代法,劣于删除处理。总体上,实例验证结果与模拟结果是一致的。

图2 实例验证结果的折线图

图3 模拟结果的折线图

四、讨论和建议

(一)讨论

对比本文和前人研究的结果可以发现,删除法在低缺失率(小于10%)的情况下应用效果最好,这与国内外大多数研究结论一致。当数据样本缺失率较小(不超过10%)且缺失值呈现随机分布时,整列删除方法的处理效果比较好;但是,当样本缺失率较大或缺失值未服从完全随机分布时,该方法可能会因删除大量样本而降低检验功效,并产生较大的偏差。在心理学研究中,大多数问卷调查和实验设计的样本量都不是很充足,使用该方法时应结合具体情况,综合考虑样本量、缺失率、统计功效等因素。另外,当使用结构方程模型(Structural Equation Model)构建心理模型时,如进行验证性因素分析或路径分析时,使用成对删除法处理缺失数据可能导致样本协方差矩阵非正定,对参数估计和模型拟合产生影响,所以此时应慎重选用成对删除法。

在本研究中,模拟数据和实测数据都显示,均值替代法所得出的结果是最差的。从原理上讲,这种方法建立在完全随机缺失的假设之上,会使样本离散程度减小,方差变小,但是通常对变量的均值估计不会产生影响。只是这种方法假设各个变量之间是相互独立的,而无论是模拟中用到的回归模型,还是实证研究中测量得到的各个变量,大都存在着某种相关关系,难以满足独立性假设。

(二)建议

笔者详细探讨了SPSS软件中5种缺失值处理方法的优劣,为研究者处理缺失数据提供了多种方法选择。现对各种缺失值处理方法的优劣进行总结,以供心理学研究者和SPSS使用者参考。

删除法(包括整列删除和成对删除):方便快捷,但容易损失数据信息。该方法适合于样本量充足、缺失率较小、缺失数据呈现随机分布的情况。

均值替换法:方便快捷,但效果较差。该方法可用于缺失率较低、研究精度要求不高、海量数据的填充处理。

期望值最大化法:当缺失率较高时,该方法能得到比较准确的估计结果。但是,该方法运算时间较长,对计算机硬件要求高。

回归插值法:该方法在低缺失率下处理效果可以和删除法相媲美,高缺失率下的表现还有待检验,运算时间较短,但应用时应注意变量之间的相关关系假定。

猜你喜欢
期望值最大化均值
股田制让种粮效益最大化
勉县:力求党建“引领力”的最大化
Advantages and Disadvantages of Studying Abroad
刘佳炎:回国创业让人生价值最大化
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
浅谈均值不等式的应用
基于直觉模糊期望值规划和改进粒子群算法的目标优化分配
均值不等式的小应用
中小学生自信心的培养研究