混合相依删失数据下非参数比例风险模型的半参数分析

2024-11-03 00:00:00王淑影姜馨竹赵波董贺
南方医科大学学报 2024年4期

摘要:目的构建一种处理混合相依删失数据的非参数比例风险(PH)模型,探讨心脏移植手术风险与风险因子直接的关系并预测心脏移植手术风险。方法基于混合相依区间删失数据的复杂性,考虑失效时间过程与观测时间过程的相依关系,假设风险因子与心脏移植手术风险存在非线性函数关系,建立具有非参数结构的比例风险模型,并给出两步Sieve估计极大似然算法。根据观测过程模型建立估计方程,获得脆弱变量的估计;再分别利用I-样条和B-样条去近似基准风险函数和非参数结构函数,获得Sieve空间中的工作似然函数,对于模型参数求偏导获得得分方程;最后通过求解方程获得参数的极大似然估计,绘制风险因子影响心脏移植手术风险的函数曲线。结果模拟研究揭示了各种设置下所提方法获得的估计量是相合的且渐近有效的,同时获得很好的参数拟合曲线。心脏移植手术数据分析结果显示,心脏供体的年龄对患者手术风险影响呈现正向线性关系,患者(受体)发病年龄影响先增大后平稳,最后有缓慢增大,供体与受体的年龄差对患者手术风险影响呈现正向线性关系。结论本研究建立了一个可分析复杂相依删数据的非参数PH模型,该模型应用于分析预测心脏移植手术风险,通过模型可探索出心脏移植手术风险与风险因子之间的函数关系。

关键词:心脏移植手术;相依区间删失;非参数比例风险模型;两步估计方法;Sieve极大似然估计

在生物医学数据分析中,不完全数据是由于实验条件等客观因素的局限性而产生,其数据类型包括缺失数据和删失数据等。区间删失是生存分析中一种常见且复杂的数据类型,该数据中感兴趣事件的时间只能在某一时间区间内,但不知道准确时间。更一般化的区间删失数据是K型区间删失数据,对每一个个体兴趣存在一系列的观测时间或者随机K个观测时间点,兴趣事件发生的时间落在K个观测时间形成的最小区间内[1-3],因此Case K型区间包括I型区间删失数据[4, 5]和II型区间删失删失数据[6, 7]。特别地,当K=1时,表示为I型区间删失数据或者现状数据,表示个体只被观测1次,仅知道在观测时间处兴趣事件是否发生,即个体所处状态。当K=2时为II型区间删失数据,表明个体被观测2次,兴趣事件发生在第1次观测,或者发生在两次观测之间,或者发生在第2次观测之后。

在医学疾病数据分析中,常常通过构建参数模型来分析删失数据。参数模型的使用前提假设是生存时间服从特定的概率分布,但在实际应用中该条件并不一定满足。参数模型在选择分布假设时需要良好的先验知识和对数据的充分理解,若假设分布不适合实际数据,参数模型可能产生偏差或无效。在现实生活中大多数据都具有非线性结构[8, 9],并且在实际应用中将非线性问题转换成线性问题的假设是错误的。现在已有的文献都是解决线性数据的,非线性数据的应用没有得到解决[10, 11]。因此,需要利用非参数模型对非线性删失数据的进行研究。