含有协变量的复发事件变点模型的参数估计

2014-05-12 10:23李云霞周杏杏
统计与信息论坛 2014年7期
关键词:变点估计值参数估计

李云霞,周杏杏

(浙江财经大学 数学与统计学院,浙江 杭州 310018)

含有协变量的复发事件变点模型的参数估计

李云霞,周杏杏

(浙江财经大学 数学与统计学院,浙江 杭州 310018)

针对复发事件数据协变量的重要作用,建立含有协变量的复发事件变点模型,考虑协变量作用于强度率函数的情形。对于此模型,使用最大似然方法得到变点及各参数估计,并得到了变点估计的相合性。最后对于同时存在待估参数和待估变点的似然函数,采用最速上升法进行了数据模拟。

变点;复发事件;协变量;最大似然估计;最速上升法

一、引 言

复发事件数据是指对个体进行观察,某种感兴趣事件重复发生的时间点、时间间隔和累积次数等所组成的数据,这类数据广泛地应用于生物统计、临床医学、工业可靠性控制和保险精算等研究领域中,如观测某些病人某种疾病的复发时间及复发次数,某些机器故障的多次发生时间等。因为事件复发的时间是有次序的并具有相依性,同时由于删失时间的存在,以及删失时间可能与事件发生的累积次数具有相依性,使得对复发事件数据的分析、建模及统计推断变得十分困难。但由于复发事件数据具有广泛的应用性,近20年来,学术界对复发事件数据的研究引起了广泛的重视,并得到了快速的发展,其研究结果不仅具有重要的理论意义,而且具有广泛的应用前景。越来越多的学者对复发事件数据进行统计分析,如Wang,Pena等对复发事件数据进行了深入的研究[1-3]。

另一方面,若生存数据的风险函数由于某种原因在某个未知时刻发生了变化,即生存数据的变点问题。Matthews和Farewell建立了最基础的生存数据风险函数分段常数单变点模型[4]。这篇关于生存数据变点的文章,引发了人们对这类问题的研究兴趣,发现了研究变点问题对于生存分析的重大意义。很多学者对生存数据中的变点进行了估计,Chang,Chen和Hsiung提出了首先采用Nelson-Aalen非参数估计来估计变点,然后再使用极大似然函数来估计参数,并考虑了生存数据的删失性,结合非参数和参数方法来提高变点和参数估计的精度[5]。Dupuy将常数变点模型进行了推广,加入了协变量对生存数据的影响,同时考虑了数据的删失,提出了变点和参数的极大似然估计,并进行了假设检验[6-7]。Zhao,Wu和Zhou首先考虑了含有持久生存数据的变点风险函数模型,采用Kaplan-Meier估计,结合Chang研究中Nelson-Aalen非参数估计和极大似然参数估计来给出变点和参数估计,并证明了估计的相合性[8]。Li研究了含有协变量以及永久生存数据的变点模型,给出了变点及参数估计,并得到了估计的相合性[9]。以上这些都是关于生存数据中一次观测数据,即非复发事件数据变点问题的研究。

由于复发事件数据的存在更具广泛性,学者们开始考虑对复发事件数据进行变点建模,但相关的文献较少。Frobish对含有协变量的复发事件变点模型进行了研究,研究过程中认为协变量作用于变点上,此时由于协变量的不同会导致变点不同[10]。因此,本文考虑了协变量作用于强度率上的情况,这与实际情况更相符,并通过变点估计值的标准差对协变量作用于强度率上的合理性进行了说明。下面将对这种情况进行建模。

下文的组织结构如下:第二部分采用最大似然法估计变点及参数,并且对变点估计值的一致性进行说明;第三部分采用最速上升法进行模拟,对不同样本量的估计效果进行比较。

二、变点及相关参数的估计

三、模 拟

通过模拟来评价用最大似然法得到的变点估计值的效果。在模拟时,将联合对数似然函数 (8)式化简为关于β和τ2的函数。记η= (τ2, β) ,有:

对于同时存在待估参数和待估变点的似然函数,需要用到多变量的极大化数值技术。常用的方法包括三种:一是最速上升法,这需要一阶导数向量;二是推广的Newton-Raphson方法,需要一阶和二阶导数;三是Marquardt′s方法,需要使用一个混合常数。由于强度率的二阶导计算困难,因此采用第一种方法,即最速上升法。在模拟时,通过最速上升法得到未知变点和协变量系数的估计值,再由这两个估计值得到强度率函数中参数的估计值。

在本次模拟中,假设研究开始时间为0,τ1=0,τ2=5,τu=15,删失时间是随机的。为不失一般性,同时假设λ1<λ2。当λ1=0.2时,λ2=0.3,1.0;当λ1=0.6时,λ2=1.0,由此可得三个不同模型。由于τ1=0,所以令λ0=0。同时令协变量X表示性别,取值为0或1,分别表示男性和女性,协变量系数取值为β=5,假设变点前后取值不变。下面利用最速上升法来得到相应待估参数和变点的估计值,并通过表格来对估计值进行比较说明。

表1 模型(1)的参数估计值绝对偏差

表2 模型(2)的参数估计绝对偏差

表3 模型(3)的参数估计绝对偏差

分别对样本容量为100,200,500的样本进行变点和参数的估计,分别给出了参数λ1,λ2,系数β和变点τ2的估计值的绝对偏差。m如前所述,表示样本量,bias表示估计值与真实值之间的绝对偏差,此值越小说明估计值越接近真实值。通过表1至表3可以发现,不论参数取值多少,样本容量越大,估计效果越好。当样本容量为500时,各估计值的偏差要明显小于样本容量为100时的偏差,但是与样本容量为200时的偏差不大。这说明,最大似然的估计方法得到的估计值不需要很大的样本量就能得到比较好的估计效果。当λ1=0.2,λ2=1.0,样本容量为500时变点的绝对偏差只有0.01,估计效果明显优于λ1=0.2,λ2=0.3及λ1=0.6,λ2=1.0这两种情况,且此时λ1和λ2的估计值的绝对偏差可以忽略不计,因此λ1=0.2,λ2=1.0时的估计效果最好。当λ1=0.6,λ2=1.0时各估计值的偏差要小于λ1=0.2,λ2=0.3时的偏差,这说明变点前后强度率函数相差越大,估计效果越好,此时变点也越明显。同时可以发现,协变量系数β的估计效果没有参数λ1,λ2好,在λ1=0.2,λ2=1.0时的^β的偏差比较小,说明用极大似然法得到的估计值是合理的。综上所述,含有协变量的复发事件变点模型用最大似然法进行变点估计是可行的。

四、结 论

复发时间间隔服从的分布最常见的是指数分布,相对应的条件强度函数为常数,因此强度函数的分段常数变点模型是最基础和最具应用背景的变点模型。而复发事件的发生往往与众多影响因素相关联,例如年龄、性别、身高、体重等因素,本文在假设强度率函数为分段常数形式的基础上,考虑了含有协变量的复发事件变点模型,对其进行建模和参数估计。应用最大似然法进行变点及参数估计,同时得到了变点估计的一致性。对于多变量的似然函数,避免较大的估计误差,采用最速上升法来进行模拟,发现最大似然法可以很好地对变点进行估计。对于协变量作用于强度率函数的机理上的原因如下。协变量可以是定性的,如性别、种族等,不随时间变化;也可以是定量的,如年龄,身高等,随时间变化。在生存分析中,更多的是协变量随时间而变化,这类协变量称为时间相依协变量。对于定性的协变量,由于其不随时间变化,不论作用于变点上还是复发事件的强度率函数上,都表示了协变量对强度率函数造成影响。对于时间相依的协变量,如果只作用与变点上,就会忽略变点前后协变量对强度率函数的影响 ,只有作用与强度率函数上,才能充分利用协变量所包含的信息。并且在生存分析中,对于协变量一般采用Cox模型来处理,这类模型将协变量作用与风险函数上。由此可知,协变量作用与复发事件的强度率函数上更能充分利用已知信息,避免估计偏差过大。

此外,本文考虑了复发事件变点模型在有协变量情形中的应用,在以后的工作中可以进一步研究变点前后协变量系数的变化问题。Li等对风险函数的变点模型做了变点前后协变量系数发生变化的假设,并进行了相关的统计推断,在以后的工作中,可以将其应用在复发事件中进行相应的研究。

[1] Wang M C,Qin J,Chiang C T.Analyzing Recurrent Event Data with Informative Censoring[J].Journal of the American Statistical Association,2001,96(12).

[2] Pena E,Stocker R.A General Class of Parametric Models for Recurrent Event Data[J].Technometrics,Technometrics,2007,49(2).

[3] Pena E,Slate E,Gonzalez J.Semiparametric Inference for a General Class of Models for Recurrent Events[J].Journal of Statistical Planning and Inference,2007,137(6).

[4] Matthews D E,Farewell V T.On Testing for Constant Hazard Against a Change-point Alternative[J].Biometrics:1982,38(2).

[5] Chang I S,Chen C H,Hsiung C A.Estimation in Change-point Hazard Rate Models with Random Censorship[C]∥Carlstein E,Muller H G,Siegmund D.Change-point Problems.Hayward:Inst.Math.Statist.,1994.

[6] Dupuy J F.Estimation in a Change-point Hazard Regression Model[J].Statistics &probability letters,2006,76(2).

[7] Dupuy J F.Detecting Change in a Hazard Regression Model with Right-censoring[J].Journal of Statistical Planning and Inference,2009,139(5).

[8] Zhao X,Wu X,Zhou X.A Change-point Model for Survival Data with Long-term Survivors[J].Statistica Sinica,2009,19(1).

[9] Li Y,Qian L,Zhang W.Estimation in a Change-point Hazard Regression Model with Long-term Survivors[J].Statistics &Probability Letters,2013,83(7).

[10]Frobish D J.Estimation of Change-points in Recurrent Events Models[D].Doctoral Dissertation:Northern Illinois University,2006.

[11]Andersen P,Gill R,Keiding N.Statistical Models Based on Counting Provesses[M].New York :Springer-Verlag,1993.

[12]Cook R J,Lawless J F.The Statistical Analysis of Recurrent Events[M].New York:Springer,2007.

[13]Frobish D,Ebrahimi N.Parametric Estimation of Change-points for Actual Event Data in Recurrent Events Models[J].Computational Statistics & Data Analysis,2009,53(3).

[14]Van Der Vaart A.Asymptotic Statistics[M].Cambridge:Cambridge University Press,1998.

Parametric Estimation of Change-points with Covariates in Recurrent Events Model

LI Yun-xia,ZHOU Xing-xing
(School of Mathematics and Statistics,Zhejiang University of Finance and Economics,Hangzhou 310018,China)

Recurrent event data is widely applied to biostatistics,clinical medicine,industry reliability and insurance actuarial.The model of change-points in recurrent events has certain significance in the abstract and foreground in the application.We consider the change-points with covariates in recurrent events and adopt MLE to estimate the change-points and parameters.Moreover we illustrate the consistence of the estimators.

change-points;recurrent events;covariate;MLE;steepest ascent

O211

A

1007-3116(2014)07-0011-05

2014-02-18;修得日期:2014-05-31

国家自然科学基金项目《时间序列的极限理论及在变点问题上应用研究》(10901136);全国统计科学研究计划项目《变点问题在生存分析中的应用》(2012LY161);浙江省自然科学基金项目《生存分析中若干变点模型的研究及其应用》(LY14A010022);浙江省社会科学界联合会研究课题《生存数据的变点模型研究及其在可靠性理论和生物医学中的应用》(2013Z56);浙江财经大学校级研究生科研项目《含有长期生存者的复发事件变点问题》(2013YJS075)

李云霞,女,浙江杭州人,统计学博士,教授,研究方向:概率极限理论,时间序列分析,计量经济,生存分析;

周杏杏,女,山东济南人,硕士生,研究方向:变点问题,生存分析。

(责任编辑:张治国)

猜你喜欢
变点估计值参数估计
基于新型DFrFT的LFM信号参数估计算法
回归模型参数的变点检测方法研究
误差分布未知下时空模型的自适应非参数估计
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
正态分布序列均值变点检测的贝叶斯方法
基于二元分割的多变点估计
独立二项分布序列变点的识别方法
一道样本的数字特征与频率分布直方图的交汇问题
2018年4月世界粗钢产量表(续)万吨
浅谈死亡力函数的非参数估计方法