顾杨,刘勋,区绮云,张娜,李涵,秦伟强,李莉*
脓毒症是一种常见的危及生命的综合征,是全球发病率和死亡率的主要原因。由于治疗费用的增加,它已经成为一个主要的全球卫生负担,并造成住院时间及次数显著增加[1]。快速地评估脓毒症的严重程度、死亡风险和治疗策略的及时调整在降低脓毒症的总体死亡率和成本负担方面将会发挥重要作用。脓毒症的根本发病环节及作用机制错综复杂,尤其是免疫机制在脓毒症的发生发展中尤为重要。比如免疫细胞—T、B 淋巴细胞凋亡以及骨髓来源的抑制细胞(MDSC)是脓毒症患者免疫抑制发展的主要贡献者[2,3]。趋化因子CX3CL1 在脓毒性休克的患者中表达升高,而其受体CX3CR1 下降的增加则与患者预后不良直接相关[4]。除此之外,调控免疫检查点在脓毒症诱导的免疫抑制中亦扮演重要角色,如免疫检查点蛋白程序性细胞死亡-1 的表达增强会不同程度地造成T 细胞凋亡、淋巴细胞减少及白细胞吞噬能力受损等[5]。因此,免疫细胞和免疫微环境在脓毒症演变进程中的作用越来越受到科学领域的重视。近年来,人工智能在预测各种疾病预后的应用中越来越多,并且有研究显示深度学习作为人工智能的一个子学科,它能够利用数据和算法来模拟人类学习,并且帮助处理大量数据,洞察有意义的信息模式,从而协助诊断、预测和治疗脓毒症[6]。本研究借助深度学习开发基于脓毒症免疫细胞浸润丰度的临床预测模型,希望为提高临床医师评估脓毒症患者预后的能力带来新的契机。
本研究从GEO 基因表达数据库中搜索含有28 天生存状态的脓毒症患者的数据集,最终选取前瞻性队列研究(MARS 研究,GSE65682)[7],将患者以9∶1 的比例随机分为训练组和验证组,同时进行基因表达矩阵的数据质控,使用主成分分析进行批次效应的去除,以及剔除离群值。本研究遵循TRIPOD 报告指南开发和验证模型,已通过中山大学孙逸仙纪念医院伦理委员会的伦理批准(伦理号为:SYSEC-KY-KS-2020-122)。
我们基于外周血基因表达量,使用gsvaR 包中的ssGSEA 算法计算脓毒症患者个体外周血免疫细胞的浸润丰度[8]。ssGSEA 是基于免疫细胞的特定基因组,将基因表达谱转化为脓毒症个体患者中免疫细胞群的浸润丰度,以此得到表达矩阵,其中列是每个免疫细胞的ssGSEA 分数,行是患者ID。将每列的免疫细胞丰度作为特征变量,联合28 d生存状态,以及生存时间作为生存分析模型的输入层。
在本研究中,将DeepSurv[9]用于分析患者的28 d 生存率,这是一种可以预测个体生存风险值的深度学习算法。采用Python 3.7.11 中的Tensor-Flow 2.2.0 框架搭建深度生存分析环境,此后在生存分析中使用深度前馈神经网络和Cox 比例风险模型,从而构建了脓毒症的深度神经网络生存模型(sepsis DeepSurv Net,seDNT)。seDNT 模型包含一个特征输入层,输入层节点数为预后影响因素的个数;一个含有2 层多节点结构的隐藏层,该隐藏层具有完全连接的前馈神经网络,该隐藏层是模型的关键,需要调节相关参数,关键参数有学习率、学习率衰减、激活函数选择、正则化及优化方法等;模型的最后是使用对数风险函数计算个体的风险评分,并将该评分作为一个单节点的输出层。得到输出层的风险评分后,根据受试者工作特征(receiver operating characteristic,ROC)曲线计算最佳截断值,将患者分为高风险评分和低风险评分的亚组,应用Kaplan-Meier 生存分析评估seDNT 模型预测脓毒症患者14 天、28 天生存的风险预测,以及ROC 曲线下的面积(area under the ROC curve,AUC)进行模型预测性能的评价。
根据风险评分高低分组,使用R 软件的limma、ggplot2 包进行基因的差异表达分析及可视化,使用clusterProfiler 包基于基因本体论(Gene Ontology,GO)及京都基因和基因组百科全书(Kyoto Encyclopedia for Genes and Genomes,KEGG)进行基因集的功能注释及通路富集分析,进一步了解seDNT 模型内在机制。最后,将免疫检查点[10]、趋化因子[11]与免疫细胞、风险评分进行相关性分析,更深层次地增加深度生存模型的可解释性。
计量资料以均数±标准差()表示;分类数据以n(%)表示,组间比较采用χ2检验;采用Kaplan-Meier 法计算生存率,组间比较采用log-rank 检验。在训练队列中采用Cox 比例风险回归分析影响生存的因素,计算风险比(hazard ratio,HR)及其对应的95%置信区间(confidence interval,CI)。采用R 4.1.2 软件中的survival 包构建多因素Cox 回归模型。本研究以双侧P<0.05 为差异有统计学意义。
这项研究初步筛选了802 位脓毒血症患者,每位患者具有24 646 个核酸探针,预处理后获得包含11 503 个基因的表达矩阵,对表达矩阵进行过滤和样本聚类以去除批次效应,剔除数据集中显著的离群样本,最终得到符合标准479 例脓毒血症患者,将其以9:1 的比例随机分为训练组和验证组,其中训练组由431 名脓毒血症患者组成,验证组由48 名脓毒血症患者组成。
基于431 名脓毒血症患者,通过ssGSEA 计算28 个免疫细胞丰度,根据其免疫细胞丰度进行评分构建seDNT 模型,seDNT 模型最优网络设置:输入层有28个节点,隐藏层有两层(第一隐藏层有32个节点,第二隐藏层有16 个节点),输出层有1 个节点;学习率为0.01,学习率衰减为1.0(图1)。根据免疫细胞丰度风险评分模型计算患者个体的风险评分,并根据最佳的截断值,将患者分为低风险评分组(101人)与高风险评分组(330人),在训练组中,风险评分(deepscore)与28 天生存期具有良好相关性,其在预测脓毒症患者14 天和28 天生存期的AUC 分别为0.912 和0.936,其风险比(HR)=0.022,95%CI=0.013~0.038,P<0.005(图2),这表明在预测脓毒症患者28 天生存率方面差异有统计学意义。在验证组中,同样应用seDNT 模型计算风险评分,发现deepscore 与28 天生存期相关(14 天和28 天生存期的AUC 分别为0.822 和0.777),其风险比(HR)=0.07,95%CI=0.008~0.063,P<0.005(图3)。
图1 seDNT 模型框架
图2 训练组的KM 生存曲线和AUC
图3 验证组的KM 生存曲线和AUC
同样基于训练队列431 名脓毒血症患者,将28 个免疫细胞做生存分析曲线,根据单因素及多因素筛选最终选出6 个免疫细胞(P<0.05)(图4)用于构建Cox 回归模型(图5)。根据相应的回归系数,建立风险评分方程。Cox 模型方程:coxscore=活化树突状细胞*0.341-未成熟B 细胞*1.363-巨噬细胞*0.707+肥大细胞*0.56-调节性T 细胞*0.716。
图4 预测脓毒症患者生存的单变量和多变量Cox 回归分析的森林图
图5 6 个显著的免疫细胞的KM 生存图
将seDNT 模型和Cox 模型中的deepscore 和coxscore 的28 天生存期计算AUC,其AUC 分别为0.807 和0.705,深度学习算法seDNT 模型的AUC优于Cox 比例回归风险模型(均P<0.05)(图6),这表明seDNT 模型在预测脓毒血症患者28 天生存率方面具有良好的灵敏度和特异性,且seDNT 模型优于常规的多因素Cox 模型评分预测患者死亡率及预后评价指标。
图6 比较seDNT 与COX 比例风险模型在AUC 方面的预测性能
本研究根据免疫细胞丰度计算deepscore 从而建立seDNT 模型,其模型可良好预测患者脓毒症28 天生存率,这说明了该模型预测脓毒症患者生存与免疫微环境特征明显相关,可进一步探讨差异表达基因及其相关生物标志物分子和免疫通路等,以及寻找deepscore 与免疫检查点及趋化因子相关性。
故将训练队列中431 例脓毒症患者根据seDNT模型计算每位患者的deepscore,并根据ROC 曲线取最佳截断值,将患者分为deepscore 高(102)/低(329)表达组。从中筛选出455 个差异基因,包括285 个上调基因和170 个下调基因。进一步采用火山图对该数据进行可视化处理,其中上调基因主要有TNFSF12、CALHM2、TGFBI、FBP1、CX3CR1,下调基因主要有TUBG2、ELL2、TUBG1、TMEM57、BCAM(图7)。
图7 训练组中低风险和高风险表型之间的DEGs 火山图
选择脓毒血症患者中显著升高的285 个差异基因进行GO 基因功能注释,GO 富集分析差异基因的生物学过程(biological process,BP),提示它们的功能可能主要富集在以下几个方面:细胞杀伤、白细胞的粘附、T 细胞活化、T 细胞活化的调节等;细胞组分(cellular component,CC)变化的差异基因主要富集主要在初级溶酶体、嗜苯胺蓝粒、特异性颗粒等;分子功能(molecular function,MF)变化的差异基因主要富集于调节蛋白激酶活性、MHC 蛋白结合、激酶调节活性等功能上(图8)。其次通过对KEGG 信号通路的富集分析可显示:P53 信号通路、卟啉代谢、氮代谢等(图9)。基于GO 基因集进行GSEA(基因集富集)分析,适应性免疫应答、细胞表面受体信号通路、免疫应答、固有免疫应答、免疫反应调节为GO 富集的主要生物学功能(图10)。
图8 GO 富集分析(生物过程[BP],细胞成分[CC]和分子功能)
图9 KEGG 基因集富集分析
图10 GSEA 富集分析显示免疫通路显著富集
将训练队列中431 例脓毒血症患者进一步寻找免疫细胞浸润与免疫检查点相关性得到如图所示(图11),将免疫检查点与deepscore 进行相关性分析,发现免疫检查点CD160 与deepscore 相关性最高,其两者相关性曲线相关系数r=-0.16(P<0.05)(图12),说明CD160 与deepscore 呈负相关,因此CD160 与活化CD8 T 细胞水平高的患者总生存期延长。继续寻找趋化因子与免疫细胞浸润之间相关性如图所示(图13),将趋化因子与deepscore 进行相关性分析,发现差异基因CX3CR1 与deepscore 相关性最高,其两者相关性曲线相关系数r=-0.18(P<0.05)(图14),说明CX3CR1 与deepscore 呈负相关,CX3CR1 与MDSC 高表达患者28天生存期较长。
图11 免疫检查点与免疫细胞及deepscore 的相关性热图
图12 显示免疫检查点相关性排序的棒棒糖图
图13 趋化因子与免疫细胞及deepscore 的相关性热图
图14 显示趋化因子相关性排序的棒棒糖图
脓毒症是临床危重症患者常见并发症之一,与机体免疫功能及代谢异常有关,细胞因子风暴被认为是引发脓毒症炎症的原因,常常识别和诱导复杂的细胞内信号通路,激活这些多种信号通路最终导致几种常见的基因表达,这些基因涉及炎症、适应性免疫和细胞代谢等[10]。与此同时,各种黏附分子和趋化因子隔离以及激活中性粒细胞进入靶器官,可进一步加重炎症和炎性损伤。因此可以基于脓毒症相关基因、信号通路、免疫细胞、免疫检查点及趋化因子等进行生存预测。本研究基于深度学习算法DeepSurv 根据免疫细胞丰度建立了可预测脓毒血症患者生存预后风险评分模型。无论是在训练队列还是在验证队列中,seDENT 预测脓毒症患者28 天生存率方面具有显著统计学差异,同时其模型具有良好的灵敏度及特异性。
脓毒症一直是临床所面临的一个重要问题,早期识别、及时治疗对脓毒症意义重大,目前有许多脓毒症相关生存预测模型,如基于调节性T 细胞中单个免疫检查点PD-1 的过度表达可以预测脓毒症患者预后,其验证脓毒症患者28天死亡率能力(AUC=0.792)[12],其预测能力仍比我们建立seDNT模型预测能力低,这表明脓毒症其发病机制复杂,尤其是免疫机制,我们采用检测多个免疫细胞丰度,并且验证脓毒症是多个免疫细胞、免疫检查点及差异基因共同参与。而并非单独一个指标所涵盖,这也表明我们seDNT模型更具有全面性和准确性。
脓毒症其特征是同时出现的过度炎症与免疫抑制之间发生不平衡。与过度炎症有关的不同细胞类型和中介网络中包括白细胞(中性粒细胞、巨噬细胞、自然杀伤细胞)、内皮细胞、细胞因子、补体产物等。其免疫抑制涉及不同的细胞类型和特征,与免疫细胞凋亡增强、T 细胞衰竭、通过表观遗传学改变细胞重编程以及活化细胞表面分子表达减少有关。细胞凋亡主要发生在CD4+T 细胞、CD8+T 细胞、B 细胞、自然杀伤(NK)细胞中[5]。最近的研究表明,调控免疫检查点在脓毒症诱导的免疫抑制中起重要作用,其中CD160 主要表达在NK 细胞、T 细胞以及肠内皮细胞表达,尤其是在具有高杀伤活性的NK 细胞中高表达,其中包括NKT 细胞、CD8+CD28 调节性T 细胞等[13]。
除此之外,还有一些文献暗示其他检查点调节因子在免疫抑制中的作用,如T 细胞上表达结合B 细胞活化抗原B7-2(CD86)的检查点调节因子等[14]。当脓毒症患者发生过度炎症,趋化因子将会与其受体结合,趋化白细胞至炎症部位,在炎症过程中发挥中心作用。当细胞因子和趋化因子的暴发性释放引起的广泛炎症时,将会导致器官损伤。有研究表明,趋化因子CX3CR1 可以通过调节炎性因子释放以及免疫功能紊乱参与脓毒症发生、发展的病理生理过程[15-17]。
本研究仍存在一定的局限性,应用深度学习算法DeepSurv 构建生存预测模型,但并未进行外部队列验证,后续可增加外部队列验证对以上模型进行独立的分析以评估其准确性,并且检验其模型在当前实践中具有有效性,此外,需要进一步实验来验证本文所探讨与脓毒症相关基因、信号通路、免疫细胞、免疫检查点及趋化因子等相关作用及其联系。
综上所述,本研究基于深度学习算法DeepSurv建立可预测脓毒症患者生存预后的seDNT 模型,预测变量根据免疫细胞丰度较Cox 预测模型可以更好地预测脓毒血症患者28 天生存率。可以早期诊断、积极识别其严重程度,以便于临床医师及早干预,这对脓毒症患者的生存预后有着重大意义。同时也证明了深度学习算法可以提供一种新颖的预测模型,通过预测模型能更快速、更好地帮助临床医师作出治疗决策。