部分区间删失数据下广义指数分布的参数估计及应用

2022-07-07 01:57董小刚彭小草蒋京京王纯杰

吉林大学学报（理学版） 2022年3期

董小刚, 彭小草, 蒋京京, 王纯杰

(长春工业大学数学与统计学院, 长春 130012)

0 引言

基于参数模型对各类数据进行统计推断是生存分析的重要内容之一[1-4]. 广义指数分布[5]是一个重要的参数模型, 广泛应用于物理、寿命试验和经济学等领域. 广义指数分布不仅是指数分布的推广, 还具有许多与Gamma分布相似的性质, 以及类似于Weibull分布的分布函数, 能很好地规避Gamma分布与Weibull分布的不足, 关于其理论性质[6]和参数估计方法[7-9]的研究目前已有很多结果[10-12]. Gupta等[10]利用极大似然估计(MLE)、矩估计和最小二乘估计等6种方法估计广义指数分布的参数, 考虑了模型参数α和β分别固定时的情形, 并分析比较了6种方法的估计效果; Alizadeh等[12]将广义指数模型应用到飞机空调系统故障次数试验数据中, 通过Q-Q图(Quantile Quantile plot)说明MLE方法可以提供更好的拟合效果.

在生存分析和寿命数据研究中, 数据类型多为分组、删失或截断数据. 其中, 基于分组数据、右删失数据、区间删失数据和截断数据等在广义指数分布下的研究已取得了一些成果. 文献[13-16]用Monte-Carlo模拟、 Newton-Raphson迭代算法、 EM(expectation maximum)算法求解了参数的极大似然估计; 文献[17]用混合Gibbs算法、 MCMC(Markov chain Monte Carlo)方法求解了参数的Bayes估计；文献[18-19]对该类数据同时应用多种参数估计方法并比较了方法的优劣; 文献[20]对该类数据应用多种模型并比较了模型的拟合效果. 针对部分区间删失数据, 一些研究者利用Weibull参数模型[21]、比例风险模型[22-23]、加性风险模型[24]、加速失效时间模型[25-26]、治愈模型[27]等进行半参数模型拟合, 将该类数据与多种模型结合求解参数的极大似然估计和Bayes估计, 并用多种指标评价模型的适用性和有效性. 在该类研究中, 糖尿病数据集[22,28]和AIDS数据集[24,26]是常用的实例数据集. Saeed等[21]应用Weibull参数模型分别在不同删失比下采用左点和右点填充技术处理数据, 计算参数的点估计和区间估计, 并给出了利用不同情形下的生存曲线图估计模型的效果.

目前, 关于部分区间删失数据的广义指数参数模型研究尚未见文献报道, 该数据类型包括完全数据、右删失和区间删失数据, 数据类型更灵活. 基于此, 本文拟在部分区间删失数据下, 在广义指数参数模型中考虑尺度参数是否受协变量影响建立两种模型, 并对参数进行极大似然估计. 模拟实验和实例研究结果验证了该方法的有效性.

1 数据、模型及其参数估计

1.1 部分区间删失数据

下面举例说明部分区间删失数据: 在1933—1972年丹麦糖尿病发病研究[22,28]中, 研究人员记录的患者糖尿病发病时间发生在某两次临床检测之间, 如果能准确观察到患者患有糖尿病的时间, 则数据为确切观测数据；如果患者在第一次检查前已发现患有糖尿病, 则该数据为左删失数据；如果患者糖尿病发病时间发生在两次临床检测之间, 则该数据为区间删失数据；如果第二次检查发现患者仍未患糖尿病, 则该数据为右删失数据.

1.2 广义指数分布

本文拟对部分区间删失数据在广义指数分布假设下进行参数估计和实例分析.令T=(t1,t2,…,tN)T表示感兴趣的失效时间随机变量, 假设感兴趣的失效时间服从形状参数和尺度参数分别为α和λ的广义指数分布GE(α,λ), 则其相关函数如下: 对于第i个个体, 其分布函数为

F(ti;α,λ)=[1-exp{-λti}]α,ti>0,α>0,λ>0;

(1)

密度函数为

(2)

生存函数为

S(ti;α,λ)=1-F(ti)=1-[1-exp{-λti}]α,ti>0,α>0,λ>0;

(3)

风险函数为

(4)

1.3 参数估计

在全数据类型下, 广义指数分布对应的似然函数为

1.3.1 广义指数参数模型

(8)

其中

(9)

其中

(10)

(11)

将该方差-协方差矩阵求得平方根后取其对角线元素即可得对应的标准误差.

1.3.2 广义指数尺度参数回归模型

(13)

(14)

(15)

将该矩阵求平方根后再取对角线元素可得对应的标准误差.

Newton-Raphson迭代算法步骤如下：

1) 给出参数迭代的初始值θ0=(λ0,α0)T；

2) 根据对数似然函数计算未知参数的一阶偏导数U(θ0)和二阶偏导数G(θ0)；

2 模拟实验

下面对本文提出的参数估计方法进行模拟实验, 生成不同样本量的随机数.感兴趣的失效时间T由广义指数分布中产生, 为产生区间删失数据, 假设相邻检查之间的时间间隔服从均匀分布U(0,a), 其中a为可调节参数, 通过调节参数a改变删失比例, 每个个体的观测时间数据为1加均值为10的Poisson随机数.若观测时间大于感兴趣的失效时间, 则大于失效时间的最小观测数据为左删失数据；若观测时间小于感兴趣的失效时间, 则小于失效时间的最大观测数据为右删失数据；否则为区间删失数据, 即包含失效时间的最小区间为区间删失数据.

为考察低删失比率和高删失比率下估计方法的有效性, 本文将删失比分别设置为0.2,0.5,0.8, 并考虑样本量分别为200,400,800,1 000情形下的模拟效果, 模拟循环500次, 分别得到不同删失比及不同样本量下的模拟结果, 其中BIAS表示估计参数的平均偏差, SE表示估计参数的标准差, SEE表示估计标准误差的均值, CP表示95%置信区间的覆盖率.

模拟Ⅰ：当尺度参数不受协变量影响时,T服从广义指数分布, 参数真值α=1,λ=1, 模拟结果列于表1.

表1 模拟Ⅰ的参数估计结果

由表1和表2可见, 参数估计值均较接近真实值, 样本量越大, 偏差越小, 因此符合大样本性质, 由SE和SEE较接近可再一次验证理论结果的正确性, 且其覆盖率接近95%置信区间. 随着确切观测数据的增加, 估计的效果越来越好, 表明对部分区间删失数据建立广义指数模型具有稳定性和有效性, 同时也验证了Newton-Raphson算法在极大似然估计中能准确有效地得到广义指数分布下基于部分区间删失数据的参数估计值.

表2 模拟Ⅱ的参数估计结果

3 实证分析

3.1 丹麦糖尿病数据集

糖尿病是一种以正常胰岛素分泌紊乱为特征的慢性疾病, 主要分为两种类型： Ⅰ型, 即胰岛素依赖型糖尿病, 是最严重的类型, 主要发生在生命前期； Ⅱ型, 即非胰岛素依赖型糖尿病, 是一种病情较轻的类型, 主要发生在生命后期. 在一次检测过程中, 如果患者连续4次尿样分析中(时间至少间隔1个月)每24 h含蛋白质超过0.5 g, 则确定为糖尿病肾病. 在丹麦糖尿病实例(Diabetes)数据[22,28]中, 所有病人在进入研究或者在研究结束时都已患有糖尿病肾病, 表明数据中无右删失数据, 有595个确切观测值, 136个区间删失观测值, 这731名病人中, 有男性454名, 女性277名, 222名患者的年龄小于10岁, 509名患者年龄在10～30岁之间.

下面考虑部分区间删失数据, 当尺度参数不受协变量影响时, 应用广义指数模型及其参数估计方法, 对上述731名患者的观测数据建立模型, 对性别分组分析, 估计结果列于表3. 由表3可见, 男性和女性生存函数的形状参数和尺度参数较接近.

表3 当尺度参数不受协变量影响时, Diabetes数据估计结果

根据性别分组得到男性和女性的Fisher信息矩阵分别为

(16)

方差-协方差矩阵分别为

(17)

表4 当尺度参数受协变量影响时, Diabetes数据估计结果

该模型下的Fisher信息阵为

(18)

方差-协方差矩阵为

(19)

由于丹麦糖尿病实例数据集中的性别协变量因素对生存时间的影响不显著, 所以本文又考虑了AIDS数据集.

3.2 AIDS数据集

表5 当尺度参数受协变量影响时, AIDS数据估计结果

该数据下的Fisher信息矩阵为

(20)