马睿琳
摘要:生存分析是对寿命数据进行统计推断的方法,在此研究过程中,经常会遇到删失数据,文章介绍删失数据的类型。为了解决删失数据中存在的治愈指标部分缺失的生存问题,文章主要研究基于渐近正态数据扩充的多重插补法,主要介绍多重插补法的基本原理和方法步骤。最后总结全文,给出今后研究的方向及展望。
关键词:生存分析;右删失数据;多重插补法
一、引言
生存分析是对一个或多个非负随机变量进行统计分析,即对寿命数据进行分析的一种方法,在医学领域,主要是人和生物寿命的研究、手术后人的寿命的预测以及药物疗效的分析。在进行生存分析研究中,经常会遇到删失数据,现在研究人员已经研究出许多方法去处理带有删失数据的问题,本文主要研究的多重插补法是一个处理缺失数据的流行并且实用的方法,最早由Rubin在1978年提出,随后很多学者对此方法做出改进和延伸。本文意在通过了解删失数据类型,探究多重插补法对右删失数据中缺失的治愈指标进行插补及分析的原理和实现过程。
二、删失数据
在生存分析实验研究中,常常要在给定的时间内完成研究,所以得到的数据存在两种状态,一种是完整观测到的数据,另一种是删失数据,本文针对删失数据进行介绍,分别介绍右删失数据、左删失数据和区间删失数据。
(一)右删失数据
在生存分析调查中,会有一个固定的时间,在给定时间开始给定时间结束。在此过程中,会出现患者在研究结束时没有死亡或者研究人员与患者失去联系等情况,此时,患者的生存情况未知,但已知患者的生存时间大于一个确定的数值,这种数据就被称为右删失数据。
具体来说,本文设患者的生存时间为X,删失时间为C。若X≤C,则说明这个是可观测到的数据;若X>C,则说明此患者在C处删失。令最终观测时间为U,则U=XΛC,即观测时间U为患者生存时间X和删失时间C中较小的数值。本文设删失指标为δ,δ=I{X≤C}。若δ=1,则表示患者的生存时间是可被观测的,此时U=X;若δ=0,则说明患者的生存时间是右删失的,此时U=C。在试验跟踪期间,本文主要针对患者的生存时间来研究,患者分为已治愈和未治愈两种状态,研究未治愈患者的生存时间是本文研究的重点。右删失数据中患者的治愈状况在研究中缺失,故便于后续研究,引入治愈指标Y,若Y=1,则患者未治愈,若Y=0,则患者治愈。研究过程中,同时要分析生存概率,则引入协变量Z=(Z1,Z2,…ZP,P=1,2,3,…),最终的观测数据集为(U,Z,δ)。
例如在一项为期一年的研究期间内共有六位急性白血病患者进入临床研究,我们还假设某种治疗对这些患者起作用而且实现了病情缓解,缓解时间在圖1中给出。患者A、C和E分别在2月初、4月初和9月初出现缓解后又分别4个月、6个月和3个月后病情复发。患者B在3月初出现缓解但在四个月后失踪(退出研究不被跟踪观察),从而缓解时间至少是4个月。患者D和F分别在5月初和10月初实现了缓解,到研究时间结束时仍旧处于缓解状态,从而他们的缓解时间分别至少是8个月和3个月。
(二)左删失数据
在生存分析调查中,研究时间是固定的,在确定时间开始确定时间结束。患者在此期间不同时间进入研究,若此时,患者的确切寿命未知,但已知患者的生存时间小于一个确切的数值,那么这种数据是左删失的。具体形式同上,不再赘述。
(三)区间删失数据
区间删失数据在实际研究中也经常出现。在大多数文献中可以了解到,事件是发生或即将发生在基于试验时间的一个特定的时间区间内而不是一个特定的时间点。也就是说,每一个患者都有一个包含了患者生存时间的观测区间(L,R]。当L=0时,区间删失数据变为左删失数据,当R=∞时,区间删失数据则变为右删失数据。
三、多重插补法
(一)基本原理
多重插补法是处理带有缺失数据的问题的一种有效方法。其基本思想是:将数据集中的缺失数据用多个来自其可能分布的值来代替,插补成为一个完整的数据集,再利用已有的处理完整数据的统计分析方法对插补后的数据集进行分析,得到理想且更可能依据所有数据信息的结果。
(二)方法步骤
本文针对右删失数据,基于渐近正态数据扩充给出多重插补法的具体步骤如下:
四、总结与展望
本文针对生存分析中经常出现的删失数据进行研究,利用基于渐近正态数据扩充的多重插补法来插补右删失数据中部分缺失的治愈指标。多重插补法的优势在于,可以同时获得参数及方差的估计,而且可以简单方便的利用统计软件来实现。其关键在于插补值的产生,也就是数据扩充方法的结合使用。
在今后的研究中,我们还需针对生存分析问题中的模型进行研究,其中混合治愈模型是研究生存分析很流行的方法,这种模型假设研究群体包括感兴趣的事件和不感兴趣的事件,通过逻辑斯蒂回归对影响群体治愈率的协变量进行建模。之后可以增加对模型的研究,进而计算自然函数。利用仿真研究对模型等进行假设验证,同时收集适合的数据集,将此方法应用到实际数据中去,进一步验证方法的有效性和优势。这是今后研究的方向。
参考文献:
[1]Pan W. A multiple imputation appr
oach to Cox regression with interval-censored data.[J]. Biometrics, 2000(01).
[2]Tanner M A. Applications of Multiple Imputation to the Analysis of Censored Regression Data[J].Biometrics,1991(04).
[3]ElisaT.Lee,陈家鼎,戴中维,等.生存数据分析的统计方法[J].数理统计与管理, 2000(02).
[4]陈家鼎.生存分析与可靠性[M].北京大学出版社,2005.
[5]Zhou J, Zhang J, Mclain A C, et al.
A multiple imputation approach for semiparametric cure model with interval censored data[J]. Computational Statistics & Data Analysis, 2016(C).