复发事件数据在含治愈个体的半参数比率模型下的经验似然推断

2022-01-28 09:28:20刘宇，周稳，李霓

广西师范大学学报（自然科学版） 2022年1期

刘宇，周稳，李霓

(海南师范大学数学与统计学院，海南海口571158)

随着统计方法在各个领域的应用越来越广泛，基于正态逼近方法进行参数估计的过程中常会遇到渐近方差难以估计或者无法估计的问题。此时，经验似然方法具有明显的优势，它不需要指定数据的分布族，并且不使用方差的估计量，而使用数据来确定置信区域的形状。经验似然方法的概念是Owen[1]率先提出的，它是一种非参数方法，主要是对感兴趣的参数或参数向量构建一般似然比统计量，并证明在正则条件下，经验对数似然比统计量的Wilk’s定理成立。目前已有许多文献讨论过经验似然方法，如Lu等[2]在线性转换模型下证明了经验似然比的渐近分布为加权卡方分布；Yu等[3]在文献[2]的基础上对估计函数进行适当修正，得到经验似然比函数渐近服从标准卡方分布。由于一般的经验似然方法并不适用于转换模型下的U统计量估计方程，所以Zhao[4]在半参数转换模型下采用文献[5]提出的基于伪观测的经验似然法，将U统计量转换成一个基于伪观测的样本均值，从而对回归参数的经验似然比推导了其渐近分布。文献[6-7]对纵向数据进行了经验似然推断。陈健等[8]结合模态估计方法和正交投影技术，对部分线性模型提出一种模态经验似然方法，并证明了所构造的经验对数似然比函数渐近服从卡方分布。刘彭等[9]基于协变量有测量误差的变系数部分线性模型，提出了非参数部分的经验似然，并得到非参数部分的置信区间。方连娣[10]在反映变量随机缺失的情形下，利用核实数据讨论了协变量带有测量误差的非线性模型的经验似然推断问题。文献[11-13]利用经验似然方法对删失数据进行统计推断。陈博文等[14]基于线性混合效应模型，证明了结合众数回归估计方法和正交投影技术所提出的经验对数似然比函数的渐近分布，并得到固定效应参数的置信区间。文献[15-16]研究了区间删失数据下的经验似然推断。

复发事件数据通常出现在生物学、临床医学和工业可靠性等领域。在复发事件数据分析中，协变量对疾病复发率的影响受到广泛的关注，但是许多研究者往往只关注病人多次复发的情况，而没有注意到病人所患的疾病会随着医疗技术的不断提高有可能被治愈且在一段时间内不会复发。曾小凤等[17]在原有复发事件数据的半参数比率模型基础上，提出含治愈个体的半参数比率模型，该模型考虑复发事件数据中某些患者被治愈后不再发病而影响疾病复发率的问题。目前对于复发事件数据的研究中采用经验似然方法的文献很少，而基于含治愈个体的半参数比率模型的经验似然推断的问题目前还没有研究者进行探讨。本文基于含治愈个体的半参数比率模型，结合经验似然方法提出了经验似然比统计量，并证明了该统计量的渐近分布。数值模拟结果显示，当样本量较小时，经验似然方法解决了正态逼近方法覆盖率不足的问题。

本文剩余部分如下：第1章介绍含治愈个体的半参数比率模型，以及经验似然法推理过程；第2章用MATLAB软件将经验似然方法与正态逼近方法进行比较；第3章给出真实数据分析；第4章给出定理的证明。第5章是结语。

1 模型介绍及统计推断

1.1 含治愈个体的半参数比率模型

(1)

式中：γ0为未知的回归参数向量；λ·为未知的基准比率函数。

令π表示个体被治愈的概率，W(t)和X(t)是与复发率有关的2个协变量。现给出本文所考虑的含治愈个体的半参数比率模型：

式中：β0和γ0为未知的回归参数，它们分别表示协变量Wi(t)和Xi(t)对复发事件比率的影响；λ(·)为风险函数。

1.2 统计推断

在一个涉及独立研究对象的复发事件研究中，由于经费或时间等因素导致N*(t)不能被完全观测，设N(t)=N*(t∧C)，其中C为删失时间，则N(t)为可观测到的数据，从而得到可观测的数据集为Ni(·),Xi(·),Wi(·),Ci，(i=1,…,n)。令Z(t)=(W(t)T,X(t)T)T和θ=(βT,γT)T，Yi(t)=I(Ci≥t)，I(·)为示性函数。定义以下过程

由文献[17]可知，Mi(t;θ)是一个零均值的随机过程，且有Λ0(t)估计为

(2)

以及估计方程

(3)

定义:

将式(2)代入式(3)中，估计方程变为

接下来给出以下假设条件：

(Δ1) {Ni(·),Yi(·),Wi(·),Xi(·)}，(i=1,…,n)独立同分布。

(Δ2)P(Yi(τ)=1)>0，且几乎处处Ni(τ)<ζ<∞，i=1,…,n，其中ζ为常数。

(Δ3)Wi(·)和Xi(·)每一个分量函数的总变差分别以一个常数为界。

(Δ4)A为非奇异矩阵，

定义

定义经验似然比统计量

从而得到对数经验似然比

其中η是以下方程的解

(4)

由定理1可以构造θ的渐近100(1-α)%置信区间为

由定理2可以构造θ(1)的渐近100(1-α)%置信区间为：

2 数值模拟

为了更好地评估在有限样本下所提出的经验似然方法的性能，本文进行数值模拟。协变量Xi和Wi均服从Bernoulli分布，成功的概率为0.5以及正态分布N(0,0.25)两种情形。删失时间Ci服从均匀分布U(τ/2,τ)，其中τ为最长的跟踪时间。假设Ni(t)是一个泊松过程，且λ0(t)=c/τ，其中c是一个常数，并且均值函数为

观察时间ti1,ti2,…,tiki是长度为ki的次序统计量，ki服从均匀分布U0,Ci。在模拟研究中，把正态逼近方法(NA)与经验似然方法(EL)进行比较，设置置信水平分别为0.09，0.95以及0.99。θ依次取为(0,0.2)，(0.2,0.3)，(0.1,0.3)以及(0.3,0.5)。τ设置为1和2，样本量n为30和50。

运用MATLAB软件得到表1～6的数值模拟结果。表1～3的协变量Xi和Wi均服从Bernoulli分布，成功的概率为0.5，表4～6的协变量Xi和Wi均服从正态分布N(0,0.25)。比较表1～6的数值模拟结果，可以得出所提出的经验似然方法的参数θ的置信区间覆盖率均优于正态逼近方法，尤其是在样本量较小时，经验似然方法的优势更为明显。

表1 置信水平为0.90的不同方法下θ的置信区间覆盖率，X,W～B(n,0.5)

表2 置信水平为0.95的不同方法下θ的置信区间覆盖率，X,W～B(n,0.5)

表3 置信水平为0.99的不同方法下θ的置信区间覆盖率，X,W～B(n,0.5)

表4 置信水平为0.90的不同方法下θ的置信区间覆盖率，X,W～N(0,0.25)

3 真实数据分析

本章用所提出的方法分析真实数据，数据是文献[19]提供的美国退伍军人管理局泌尿学研究组关于膀胱癌反复治疗的临床实验数据。该研究安排患者在预约的时间前往医疗中心就诊，但是患者由于各种原因未能按计划就诊，导致患者就诊时间间隔以及检查时间不同。而对每位就诊的患者，记录他们的临床就诊时间以及两次临床就诊之间膀胱肿瘤新增的数量，并清除所发现的肿瘤。本文分析中关注的对象为安慰剂组的47名患者以及Thiotepa治疗组的38名患者，并考虑2个协变量，它们分别为初始肿瘤数目和Thiotepa治疗，其主要目的是研究初始肿瘤数目以及Thiotepa治疗对膀胱癌复发率的影响。定义Ni(t)为患者在时间t之前发现有新增膀胱肿瘤的就诊累计次数。记Wi(t)为患者的初始肿瘤数目，Xi(t)为Thiotepa治疗，若患者在安慰剂组，则Xi(t)=0，反之为Xi(t)=1。表7给出了结果。

1：曾小凤等[17]提出的正态逼近方法；2：本文所提出的经验似然方法。表2～6同。

表5 置信水平为0.95的不同方法下θ的置信区间覆盖率，X,W～N(0,0.25)

表6 置信水平为0.99的不同方法下θ的置信区间覆盖率，X,W～N(0,0.25)

表7 膀胱癌数据的回归参数估计

在表7中，考虑膀胱癌复发过程中存在治愈个体，得到初始肿瘤数目对膀胱癌复发率的影响不显著，而Thiotepa治疗对膀胱癌复发率有显著影响，这一结论与实际相符合。但是在数值模拟研究中，当样本量较小时，经验似然方法的覆盖率均优于正态逼近方法，因此，对于小数据集，采用经验似然方法进行统计推断是很好的选择。

4 定理的证明

为了证明定理1，2，先给出以下引理1，2。

引理1假设条件(Δ1)～(Δ4)成立，若θ0是参数向量的真实值，则

证明由于

引理2假设条件(Δ1)～(Δ4)成立，若θ0是参数向量的真实值，则有

(iii) ‖η‖=Opn-1/2，其中η是式(4)的解。

证明对于(i),容易得到

由文献[17]性质3.1，有

由此可见，他提醒人们注意的就是资本家手段的卑劣和工人组织内部的弊病。从组织内部讲，工人成员思想的不纯，对于个人私利的看重，导致了内部的矛盾和分裂。“于是有些工人退出公司，去另入工厂了！有些工人便达到自由竞争的目的，再入浙江印刷公司，去履行他欲求的分工制了！”而对于资本家来说，他为了自己的利益，总是会利用机会维护。因此，对于互助会，“在工人一面，既有要求自由竞争，厌弃这互助会；那末，资本家一面，在这可以伸长剥夺手段，当然要坚持他改变工作制度的主张，而实行解散互助会了！”

Qniτ;θ0=Qiτ;θ0+op(1)。

(5)

由式(5)，可以得到

对于(iii)，由文献[21]，令η=ρζ，其中ρ≥0且‖ζ‖=1，则有

(6)

(7)

令σp是Σ的最小特征值，则σp>0。根据文献[21]有

ζTQniτ;θ0ζ≥σp+op(1)。

(8)

最后，由式(6)～(8)得出‖η‖=Op(n-1/2)。

根据引理2的(ii)和(iii)，可得

因此，由l(θ0)的泰勒展开式，有

最后，根据引理1的结论和Slutsky定理，定理1得证。

定义

通过泰勒展开，有

从而定理2得证。

5 结语

当复发事件数据存在治愈个体影响疾病复发率时，采用基于治愈个体的半参数比率模型，该模型考虑治愈个体的存在，不仅可以得到更多影响疾病复发率的信息，而且也更加符合实际。针对复发事件数据的研究，本文并没有采用传统方法，而是采用经验似然方法，这是因为经验似然方法的优势在于不需要估计协方差矩阵来构造置信区间，从而大大解决了计算的繁琐性以及估计的不确定性等问题。本文提出一种基于含治愈个体的半参数比率模型的经验似然方法，用于复发事件数据的统计推断，并通过数值模拟表明该方法的有效性，最后将本文的方法应用于一组膀胱癌数据的分析，得到的结果与实际相符。

关于复发事件数据的研究，目前采用经验似然方法的文献较少，对复发事件数据进行经验似然推断不仅完善了经验似然推断的研究对象，而且提供了复发事件数据分析的一种新方法，因此，复发事件数据的经验似然推断将会成为研究的热点课题。