海军军医大学卫生勤务学系军队卫生统计学教研室(200433)
朱荣慧 许金芳 王 睿 吴 骋△
在医学研究数据采集与获取过程中,经常会碰到缺失值。例如,创新药开发临床试验中,导致缺失值的原因可能有受试者失访、或受试者由于不良事件、对干预措施的不耐受或缺乏疗效等原因中途退出试验[1]。缺失值不仅会给统计分析和结果解释带来挑战,而且可能会对临床试验结果造成偏倚,使其代表性和真实性受到影响[2]。对于缺失值处理的问题,欧洲药品管理局于2010年发布了《确证性临床试验中缺失数据处理指南》[3]。同年,美国食品药品监督管理局(Food and Drug Administration,FDA)发布了《临床试验中缺失数据的预防和处理》报告[4],该报告推荐了合适的研究设计和随访方法来减少临床试验中的数据缺失,以及有效处理结果分析中缺失数据的统计方法。2016年,国家药品监督管理局药品评审中心颁布了《药物临床试验的生物统计学指导原则》[5]。该原则指出“在试验的计划、执行过程中应有必要的措施尽量避免缺失值的发生,在分析和报告中要正确处理缺失数据,否则会造成潜在的偏倚”。由此可见,在医学研究中适当处理缺失值已越来越引起关注。
缺失值通常可根据Rubin和Little提出的缺失机制分为三类,分别是完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)和非随机缺失(missing not at random,MNAR)[6]。根据缺失模式分为两类:特殊缺失模式(special missingness pattern)和任意缺失模式(arbitrary missingness pattern)[4],特殊缺失模式包括单变量缺失模式(univariate missingness pattern)和单调缺失模式(monotone missingness pattern)。也可以使用因果图(causal diagrams)来描述数据缺失的机制[7-8]。不同的缺失类型,其填补方法往往不同。本文将在简要介绍常用缺失值处理方法的基础上重点综述应用较广的多重填补的步骤、方法及其进展,以期为研究者提供参考。
临床试验中常用的缺失值处理方法有完全记录分析(complete-case analysis)、单一填补(single value imputation)和多重填补(multiple imputation)。
1.完全记录分析
完全记录分析也称为成组删除法,是指从分析中删除有缺失数据的观测对象,即仅对没有缺失数据的观测对象进行分析。此方法简单易行,但由于删除有缺失数据的观测对象使样本量减少,可能会影响试验结果的代表性和准确性,并导致统计功效下降[9]。但完全记录分析在缺失机制为MCAR且缺失比例较低时的估计结果较好[10]。
2.单一填补
单一填补是指用单个数值填补缺失值,形成完整的数据集后再进行统计分析。常用的方法有均数填补法(mean imputation)和末次观测结转法(last observation carried forward,LOCF)。均数填补法未考虑缺失值的不确定性、减小了数据变异性和估计的标准误[11]、夸大了估计精度,可能会导致I类错误,但在MCAR缺失机制下对均数的估计结果较准确[9]。LOCF是指用末次观测数据填补缺失值,通常用于纵向数据(又称多次重复测量数据)或生存数据中缺失值的填补。LOCF填补过程较简单,但在多数情况下,该方法的I类错误难以控制,即使在MCAR缺失机制下,其检验效能和估计误差仍不稳定[12]。
3.多重填补
多重填补旨在基于一个或多个模型填补缺失数据,并正确反映与“填补”过程相关的不确定性[13]。该方法不是为每个缺失观测填补单个值,而是根据缺失观测的预测分布生成一组填补值,从而生成不同的填补数据集。然后再对每个填补数据集进行分析,并通过Rubin法则合并分析结果[13]。多重填补主要包括以下三个步骤[1]:第一步,选择可能有助于填补缺失数据的自变量,对缺失变量进行多次填补,创建多个不同的填补数据集,其中自变量应包括后续分析模型中的所有变量,以及能使MAR假设合理的辅助变量;第二步,采用既定的统计分析方法分别对每个填补数据集进行结果的关联估计,因此可计算估计系数和相应的标准误,作为每个填补数据集的关联度量;第三步,通过Rubin法则和相应的标准误合并每个填补数据集的关联估计,得到最终的分析结果。相比于单一填补方法,多重填补具有一定优势:第一,考虑了缺失值的不确定性;第二,由于最终的关联估计是根据每个填补数据集估计系数的平均值得到的,减小了抽样误差,从而得到了更精确的点估计值[4];第三,最终分析模型中不包括的辅助变量也可以用于填补模型[13],从而可使MAR的假设更合理;最后,虽然多重填补假定的缺失机制为MAR,但也能处理缺失机制为MCAR或MNAR的缺失数据[14]。基于以上优点,多重填补方法已广泛应用于医学研究的缺失值处理中。
根据需填补变量的数量、资料类型不同,进行多重填补的方法不同[15],对于单变量填补,若缺失变量为连续型,可采用线性回归模型(linear regression model)和预测均数匹配(predictive mean matching,PMM);若缺失变量为分类变量,可采用logistic回归模型(logistic regression model)。对于多变量填补,即有多个变量含有缺失值,可采用基于链式方程的多重填补(MI by chained equations,MICE),又称为完全条件规范(fully conditional specification,FCS);或采用多变量正态填补(multivariate normal imputation,MVNI)。上述几种多重填补方法的简要说明及优缺点总结如表1。有研究认为不同的多重填补方法,主要取决于缺失变量的类型(连续型或分类型)、包括在预测模型中的协变量的类型以及缺失模式的类型(单调性或非单调性)[16]。也有研究根据填补方法的复杂程度将多重填补分类为单值填补、单调填补、基于链式方程的多重填补和马尔科夫链蒙特卡罗法[14]。
表1 不同多重填补方法的比较
随着计算机和多重填补技术的发展,越来越多的新技术逐渐应用到医学研究缺失值的填补中。如Bartlett等[21]提出了修正的FCS—分析模型兼容的完全条件规范(substantive-model compatible fully conditional specification,SMC-FCS)。他们认为当分析模型包含非线性特征或交互时,由于填补模型和分析模型的不兼容,使用基于FSC算法的填补模型可能会得到有偏估计,所以提出根据与分析模型兼容的填补模型对每个协变量进行填补。虽然分析模型和填补模型的兼容性并不能保证填补模型一定是正确或规范说明的,但保证了模型间的假设不相互冲突,从而减少了参数估计中的偏倚。Anneke等[22]将SMC-FCS应用到由连续型变量衍生的不完整二分类变量的多重填补中,他们比较了5种不同的多重填补方法—使用logistic回归模型填补二分类变量、使用线性回归模型填补连续型变量后再归类生成二分类变量、使用FCS同时填补连续型和二分类变量、使用MVNI同时填补连续型和二分类变量以及使用SMC-FCS进行填补。结果发现,除了计算时间较长外,SMC-FCS优于所有其他方法。Md[23]等介绍和比较了12种基于FCS和MVNI的多重填补方法,为处理纵向研究中的缺失值提供了多种可供选择的方法。
多重填补技术本身的应用范围也越来越广,如Rushani[24]等比较研究了多种多重填补方法填补三水平(three-level)数据缺失的效果,为如何填补三水平缺失数据推荐了可行的多重填补方法。Matthew[25]等针对分散式数据药品安全网络内的系统性缺失混杂因素的处理,基于多重填补方法提出了利用“验证数据库”来填补“缺失数据库”的方法,减小了传统上每个数据库先单独分析再使用meta分析汇总估计效果的方法可能会带来的估计偏倚。
对于多重填补过程中可能会遇到的程序崩溃问题,White等[26]对于完美预测问题,提出了增强数据方法,即通过增加一些额外的“伪观测”(pseudo-observations)来解决完美预测的问题。Nguyen等[27]则针对完美预测和共线性两个问题,概述了包括填补复合变量而非单个变量,引入先验信息,以及改变填补模型形式等解决策略。
随着多重填补和其他缺失值处理技术的不断发展,对如何规范化处理和报告缺失数据越来越引起研究者的关注。Lee等[28]提出并说明了观察性研究缺失数据的处理和报告框架(treatment and reporting of missing data in observational studies framework,TARMOS)。该框架由三个步骤组成:制定分析计划,指定分析模型以及如何处理缺失数据。其中,需重点考虑完全记录分析是否有效,多重填补或其替代方法是否会带来益处,以及对缺失机制进行敏感性分析是否必要等问题;检查数据,检查分析计划中列出的方法是否合适,并进行预先计划的分析;报告结果,包括对缺失数据的描述、如何处理缺失数据的详细信息以及所有分析结果,并根据缺失数据和临床相关性进行解释。此框架为研究者如何仔细考虑缺失数据和分析假设提供了结构化的参考,是对STROBE声明[29](strengthening the reporting of observational studies in epidemiology)的有效补充。
本文从医学研究中数据的缺失机制和模式出发,简单介绍了常用的缺失值处理方法,重点介绍了较为常用的多重填补技术的基本思想和步骤,总结了多重填补方法及其优缺点,以及多重填补的进展。虽然多重填补技术在缺失值填补中的应用越来越广泛,但是国内却很少有研究在应用多重填补时考虑进行敏感性分析来检验数据的缺失机制以及填补方法的稳健性[30]。因此,在多重填补技术越来越多地被应用的同时,建议研究者更加关注敏感性分析的问题。