基于Cox-nnet的弥漫性大B细胞淋巴瘤预后预测模型*

2021-03-16 10:19郑楚楚张岩波黄雪倩余红梅阳桢寰范双龙赵志强罗艳虹
中国卫生统计 2021年1期
关键词:对子淋巴瘤一致性

郑楚楚 张岩波 王 蕾 黄雪倩 余红梅 阳桢寰 邢 蒙 范双龙 赵志强 罗艳虹△

【提 要】 目的 基于一种新的神经网络架构Cox-nnet构建弥漫性大B细胞淋巴瘤的预后预测模型,及早发现高危和低危患者,为进一步的临床治疗提供参考。方法 首先构建两种常用的低维生存数据的Cox-nnet和Cox模型,验证Cox-nnet是否适用于低维的生存数据,然后通过单因素Cox回归和参考相关文献筛选用于构建弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)模型的协变量,分别构建DLBCL的Cox-nnet和Cox模型。结果 最终选入构建DLBCL预后预测模型的协变量有25个,Cox-nnet的一致性指数(0.724)比Cox(0.685)提升了5.7%。肝硬化数据的Cox-nnet一致性指数(0.818)比Cox(0.804)提升了1.7%,乳腺癌数据的Cox-nnet一致性指数(0.660)比Cox(0.600)提升了10%。结论 Cox-nnet适用于低维的生存数据,基于Cox-nnet构建的弥漫性大B细胞淋巴瘤预后预测模型性能与传统的Cox回归相比较有较大提升。

弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是非霍奇金淋巴瘤(non-hodgkin lymphoma,NHL)中常见的一种侵袭性B细胞淋巴瘤,约占非霍奇金淋巴瘤的30%左右,其可侵及各个年龄段的患者,且临床表现各异[1-3]。联合免疫化学疗法R-CHOP(利妥昔单抗、环磷酰胺、阿霉素、长春新碱、泼尼松)是目前DLBCL最常用的前期治疗方法,约50%~60%的患者被治愈[4]。R-CHOP疗法显著改善DLBCL患者的预后,使其生存率达到60%~90%。但是不同患者对治疗的反应各异,对于那些对R-CHOP疗法耐药或者病情缓解后复发的患者来说,预后较差[5-6]。因此对DLBCL患者进行预后分析可以及早发现高危和低危患者,从而进一步为临床医生制定DLBCL患者个性化治疗方案提供参考。

Cox比例风险回归模型是预后分析中最常用的模型。但是Cox比例风险回归模型受线性基线的影响,需满足等比例风险和协变量之间相互独立这两个假设,实际数据往往难以满足这些假设[7],例如影响疾病预后的因素错综复杂,很难满足这两个假设。人工神经网络(artificial neural network,ANN)是一种基于生物神经网络结构和功能建立的计算模型,具有类似于人脑的信息处理、学习和存储功能[8]。ANN对数据分布无任何要求,可以处理复杂非线性关系[9],近年来ANN也被广泛应用于疾病的预后分析中,并表现出了较优的预测性能,但是ANN将生存分析问题简化为分类问题进行分析预测[10-14],这在一定程度上会导致预测精度的下降。

Travers Ching等人提出了一种新的神经网络架构Cox-nnet[15],该神经网络架构没有将预后分析作为分类处理,而是将神经网络和Cox回归相结合,该方法对于高通量组学数据有较高的预测准确度。本研究旨在探讨对于低维的生存数据,Cox-nnet的预测性能是否优于Cox回归,并构建DLBCL患者预后预测模型,从而为临床医生预测患者死亡风险并指导临床治疗提供参考。

资料与方法

1.资料获取

本研究收集了某医院355例2013-2017年确诊为弥漫性大B细胞淋巴瘤患者的临床随访数据,随访截止时间为2018年1月,将死亡作为研究终点,删失比例为67%。我们还分别从Github网站(https://github.com/traversc/cox-nnet/tree/gh-pages/examples/PBC)和R软件中获取两种低维生存数据,分别为:PBC(肝硬化数据)和WPBC(乳腺癌数据),具体数据特征及来源见表1。

表1 两种低维生存数据的描述

2.方法及原理

(1)单因素Cox回归筛选变量

根据单因素Cox回归分析结果并参考B-Cell Lymphomas,Version 3.2019 Featured Updates to the NCCN Guidelines(2019年3月修订版)及相关文献[16-24],最终筛选出25个变量用于构建DLBCL患者预后预测模型。具体变量及赋值见表2。本研究中使用SPSS 22.0进行单因素Cox回归筛选变量,检验水准α=0.05。本研究中GCB、CD3、CD5、CD20、CD21、CD10、BCL6、BCL2、MUM1、CMYC、p53是否阳性这些因素有较重要的临床意义,无论其有无统计学意义均选入模型。

表2 355例DLBCL患者临床特征及赋值

(2)Cox比例风险回归

传统Cox比例风险回归模型(Cox proportional hazards regression model)是生存分析中使用最广泛的预测模型,是一种半参数模型,可用于生存时间分布未知且含有删失数据的资料[25]。具体的模型表达式为:

xi为个体的协变量;h(t|xi)为具有协变量xi的个体在时刻t的风险函数;h0(t)为基准风险函数,即协变量xi全部为0的条件下t时刻的风险函数;β为各协变量所对应的偏回归系数,解释了个体的相对风险比。由模型表达式可知Cox比例风险回归模型假设协变量与风险函数之间是线性组合的关系。本研究使用R软件中Survival包中的coxph函数拟合Cox回归模型。

(3)Cox-nnet

Cox-nnet是由Travers Ching等人提出的一种新的人工神经网络模型。该人工神经网络模型将人工神经网络与Cox回归相结合,包括输入层、隐藏层、Cox回归层,Cox回归层输出结果为预后指数,具体的Cox-nnet神经网络结构见图1。该模型表达式为:

图1 Cox-nnet神经网络架构

θi=G(Wxi+b)Tβ

其中xi为隐藏层的输入,W为输入层与隐藏层的权重系数矩阵,b为输入层对于每个隐藏层节点的偏置项,G是tanh激活函数:

Cox-nnet中使用偏似然对数作为损失函数:

Cost(β,W)=pl(β,W)+λ(‖β‖2+‖W‖2)

使用Dropout正则化[26]防止过拟合并使用5折交叉验证来寻找最优正则化参数,一致性指数作为交叉验证性能评价指标。本研究使用Python软件中的Cox-nnet包拟合Cox-nnet模型,具体参数设置为:隐藏层节点数为输入层特征数的平方根的整数部分;交叉验证的正则化参数范围为(-6.5,-0.5);使用Nesterov梯度下降法[27]训练模型;学习率为0.01;衰减率为0.9;停止阈值为0.995;最大迭代次数1000次。

(4)评价指标

本研究使用一致性指数[28]评价模型的预测准确度。在含有删失数据的生存分析中,一致性指数是最常用的评价指标,它指的是预测结果与实际结果一致的对子数占有用的对子数的百分比。首先在全部观察单位中随机配对产生所有可能的对子数;其次计算有用对子数,去除两种无用对子数:(1)有较短生存时间的删失个体(2)两个个体生存时间相同,但是都为删失个体;然后计算预测结果与实际结果一致的对子数;最后计算一致性指数,即预测一致的对子数占有用对子数的百分比。一致性指数越大表明预测性能越好。本研究中使用R软件中的Hmisc包中的rcorr.cens函数计算一致性指数。

(5)构建模型

本研究中将数据集划分为80%的训练集和20%的测试集,训练集分别用于构建Cox-nnet和Cox模型,测试集用于测试这两个模型的预测准确度,重复采样并构建模型100次,取中位一致性指数来比较Cox-nnet和Cox模型预测准确性,并使用配对Wilcoxon符号秩检验比较两种模型的一致性指数差异是否具有统计学意义。检验水准α=0.05。

结 果

1.单因素Cox筛选变量结果

表3给出了单因素Cox回归筛选变量的结果,由单因素Cox回归结果可知,在本研究中DLBCL患者确诊年龄、疾病等级、IPI得分、LDH是否升高、肿瘤长径、β2-MG是否升高、ESR是否升高、KPS得分、是否原发胃肿瘤这些因素对患者生存的影响有统计学意义。

表3 单因素Cox回归结果

2.Cox-nnet与Cox模型间的比较

由表4可知,DLBCL的Cox-nnet和Cox的一致性指数差异有统计学意义,Cox-nnet比Cox提升了5.7%。表5中显示,PBC和WPBC的Cox-nnet和Cox的一致性指数差异也均有统计学意义,其中PBC的Cox-nnet一致性指数比Cox提升了1.7%;WPBC的Cox-nnet一致性指数比Cox提升了10%。

表4 DLBCL的Cox-nnet和Cox模型一致性指数

表5 两种疾病的Cox-nnet和Cox模型一致性指数

讨 论

标准的Cox比例风险回归模型是最常用的生存分析方法,它是一种半参数模型,不需要估计基准风险函数,可用于生存时间分布未知且含有删失数据的资料。但是Cox回归受线性基线的影响,假设协变量之间是相互独立的,且对协变量个数和样本量之间的比例有一定的要求,这在实际中很难满足。尤其在大数据时代,我们想利用患者的更多信息去更加精准地预测事件的发生风险,从而为临床医生为患者提供精准治疗提供参考,这些信息之间往往存在复杂的非线性关系,而ANN可以处理变量之间复杂的非线性关系。近年来,随着ANN技术的不断成熟,其也被广泛应用于生存分析中。黄德生等[29]应用ANN构建了time-coded model和single-time point model,证明ANN可以用于肺癌预后预测,预测性能与Cox无区别。贺宪民[30]等以Cox-snell残差为ANN输出训练网络,其研究结果表明:在处理非线性资料时,ANN预测性能优于Cox。文献[10-14,31-34]分别将生存分析问题转化为分类问题构建ANN用于癌症的预后预测,并且表现出了较优的预测性能。

本研究应用的新的ANN架构,Cox-nnet没有将生存分析问题转换为分类问题,而是将ANN与Cox相结合,既利用了ANN处理非线性的能力,同时也保留了传统的Cox比例风险回归方法,Cox-nnet的隐含层还实现了数据降维。该方法最初被应用于高通量的组学数据,表现出了较优的预测性能。本研究分别构建了DLBCL和两种常用的低维生存数据的Cox-nnet与Cox模型,其中基于WPBC构建的Cox-nnet的一致性指数较Cox提升最多,为10%;其次为DLBCL,Cox-nnet的一致性指数较Cox提升了5.7%;PBC的Cox-nnet一致性指数较Cox提升了1.7%。这表明Cox-nnet适用于低维的生存数据,基于Cox-nnet所构建的DLBCL患者预后预测模型性能优于传统的Cox回归。Cox-nnet对生存资料的限制较少,预测性能优于Cox,当所分析资料不满足Cox假设时,Cox-nnet是一种很好的选择。

本研究的不足之处在于只探讨了两个常用生存数据,其他类型的生存数据还有待探讨;本研究所构建的基于Cox-nnet的DLBCL患者预后预测模型性能虽然优于Cox,但其性能还有待提升。由于生存分析中存在很多删失数据,这造成了删失与死亡之间的数据不平衡,数据不平衡在一定程度上影响模型的预测性能[35]。所以本研究下一步将探讨生存分析的数据不平衡对模型预测性能的影响,进一步提高模型的预测性能。

猜你喜欢
对子淋巴瘤一致性
关注减污降碳协同的一致性和整体性
HIV相关淋巴瘤诊治进展
注重教、学、评一致性 提高一轮复习效率
IOl-master 700和Pentacam测量Kappa角一致性分析
在上山的路上(外二首)
文化滋养文字 情境创生情趣
——《古对今》教学活动设计
不一致性淋巴瘤1例及病理分析
在春联里徜徉
基于事件触发的多智能体输入饱和一致性控制
鼻咽部淋巴瘤的MRI表现