常 晴,刘 佳,曲爱林,刘京康
(山东大学齐鲁医院a.检验科;b.基础医学研究中心;c.妇产科,济南 250012)
子宫内膜癌(uterine corpus endometrial carcinoma,UCEC)是妇科最常见的恶性肿瘤之一,近年来其发病呈年轻化趋势,发病率和死亡率逐年上升[1]。早期诊断人群可通过手术取得较好的预后,5年生存率可达94.9%[2]。然而,晚期患者即使经放射治疗(放疗)或化学治疗(化疗),术后复发风险仍很高[3-4]。经阴道超声结合子宫内膜组织活检是诊断UCEC的主要方法,探索新的预后有关生物标志物并与之联合,将有助于提高UCEC的早期诊断率及制定合理的个体化治疗方案。
近年来,细胞焦亡在肿瘤发生发展过程中的作用备受关注。焦亡是由炎症介导的一种程序性细胞死亡方式,其特征是细胞肿胀、胞膜破裂、染色质断裂和促炎因子级联反应[5]。大量研究表明,恶性肿瘤中异常表达的焦亡基因可作为诊断、预后和靶向治疗的分子标志物[6-7]。Gao等[8]发现,Gasdermin D(GSDMD)是细胞焦亡的关键执行蛋白,与正常组织相比,GSDMD在肺癌中高表达,并且其表达水平与患者预后呈负相关。Liu等[9]研究发现,焦亡相关的炎性小体NOD样受体热蛋白结构域相关蛋白3(NOD-like receptor thermal protein domain associated protein 3,NLRP3)在子宫内膜癌中的表达显著高于正常组织,其通过调节caspase-1表达,增加HEC-1A细胞的增殖、侵袭和迁移能力。Wang等[10]报道,焦亡在肿瘤微环境中可触发强烈的免疫反应,参与抗肿瘤免疫的调控。此外,细胞焦亡与化疗药物的应用密切相关,如5-氟尿嘧啶(5-FU)活化肿瘤细胞内的caspase-3,激活GSDME-NT的生成,从而诱导胃癌细胞焦亡[11]。以上研究表明,细胞焦亡在癌症进展中具有促进肿瘤发生和激活抗肿瘤免疫应答的双重作用。同时,其对于化疗、免疫治疗等精准医疗方案的实施可能具有一定指示作用。基于此,借助生物信息学方法,通过分析公共数据库,挖掘UCEC焦亡相关基因,构建预后风险模型,初步探究风险评分与患者预后和免疫浸润的关系。同时,将风险评分模型与临床病理参数进行整合,构建可视化的Nomogram模型,方便临床应用。
1.1 数据来源 从UCSC xena(https://xenabrowser.net/datapages/)中的TCGA-UCEC队列下载子宫内膜癌转录组RNA seq数据和生存信息,导入R软件(版本4.0.2),将数据读入并进行归一化处理。使用分子特征数据库(MSigDB)(https://www.gsea-msigdb.org/gsea/msigdb)和PubMed数据库相关文献报道(PubMed号:33828074和34992421)查找焦亡相关表型基因集,获得22种焦亡基因纳入后续分析。从cbioportal 数据库(www.cbioportal.org)选择癌症类型为子宫内膜癌并点击TCGA-PanCancer Atlas模块,获得509例具有突变信息的UCEC样本,进行后续分析。利用STRING数据库(https://cn.string-db.org)获得PPI互作网络关系。
1.2 方法
1.2.1 焦亡相关预后模型的构建 排除临床数据和预后信息缺失的样本,共纳入533例有临床病理信息和生存数据的UCEC样本。其中,Ⅰ期331例,Ⅱ期50例,Ⅲ期123例,Ⅳ期29例。根据病灶部位及病情严重程度,排除没有相关数据的样本,最终分选出3种类型的UCEC样本,即11例原发型UCEC,37例复发型UCEC和34例转移型UCEC。根据病理分级分为G1级109例、G2级117例和G3级307例。使用R包glmne进行最小绝对收缩选择算子(LASSO)回归筛选焦亡相关预后基因,得出交叉验证误差最小的模型。预测模型的风险评分=Exp1*β1+ Exp2*β2+ Exp3*β3+…… +Expx*βx,其中Exp为相对应预后的基因表达量,β为lasso回归系数。使用R包“timeROC”构建受试者工作曲线(ROC)评估风险评分模型预测能力的准确性。将风险评分和临床病理参数(年龄、病理分期)纳入以构建预测子宫内膜癌预后的Nomogram, 使用“cox.step”函数筛选出最佳变量组合用于建模。应用C指数、受试者工作曲线(receiver operating character,ROC曲线)和校准曲线分析法(calibration)对该模型进行评估。
1.2.2 高风险组和低风险组预后和免疫浸润比较 将风险评分的中位值作为截断值,把子宫内膜癌患者分为高风险组和低风险组,使用 R软件的survival 包和 survminer 包绘制 Kaplan-Meier 生存曲线,评估两组患者的预后差异。基于TCGA-UCEC队列中的RNA seq数据,通过ssGSEA算法计算样本的28种免疫细胞丰度,比较高风险组和低风险组免疫细胞浸润程度的差异。
1.3 统计学处理 使用R软件(版本4.0.2)进行数据分析和图形绘制。两组间比较使用Wilcoxon秩和检验。生存曲线(Kaplan-Meier)使用log-rank检验。P<0.05为差异有统计学意义。
2.1 TCGA-UCEC队列中22种焦亡相关基因转录组特征 根据MSigDB数据库和PubMed数据库相关文献报道,共获得22种焦亡相关基因, TCGA-UCEC队列中包含了533例子宫内膜癌样本和35例癌旁样本,导入R软件对22种焦亡相关基因mRNA进行表达差异分析。结果显示,13种基因在UCEC组织中的表达高于癌旁组织(P<0.05),3种基因在UCEC组织中的表达低于癌旁组织(P<0.05),6种基因在癌与癌旁组织中表达无差异(P>0.05)。见图1A。
为了明确22种焦亡相关基因的表达水平是否受到转录组突变的影响,通过cbioportal数据库对22种基因进行了突变分析。结果显示,具有突变信息的509例子宫内膜癌患者中有288例患者存在基因突变(57%),其中,TP53基因发生突变的样本例数(194例)占总样本(509例)的38%,在22种基因中突变频率最高,突变类型主要为错义突变(missense mutation)和截断突变(truncating mutation),其次是CASP8基因,突变频率为12%,提示焦亡相关基因的转录组变异可能影响基因的表达水平(图1B)。进一步使用STRING数据库构建22种焦亡相关基因的蛋白质-蛋白质相互作用网络(图2),发现22种基因在蛋白质水平上存在密切联系。
图1 TCGA-UCEC队列中22种焦亡相关基因转录组特征
图2 22种焦亡相关基因的蛋白质-蛋白质相互作用网络
2.2 构建预测UCEC预后的风险评估模型 对癌与癌旁组织有差异表达的16种焦亡基因进行进一步分析,筛选具有预后价值的相关基因。为了避免模型的过度拟合,通过LASSO回归分析,基于lambda.min方法确定最佳lambda值为9(图3A、B),共获得9种与预后有关的焦亡基因(CASP3、CASP5、CYCS、GPX4、GZMB、IL1A、IRF2、TP53 和TNF)。计算每例UCEC患者的风险评分。风险评分=(-0.0169*CASP3表达量)+(0.7129* CASP5表达量)+(0.2239*CYCS表达量)+(-0.2027* GPX4表达量)+(-0.1743*GZMB表达量)+(-0.0185* IL1A表达量)+(-0.3798* IRF2表达量)+(-0.0752* TP53表达量)+(0.0631*TNF表达量)。
随着风险评分的增加,患者生存时间缩短,死亡人数明显增多(图3C、D)。提示风险评分可能是预测患者预后的危险因素。通过时间依赖性ROC曲线评价风险评分模型预测效能,ROC曲线的1、3、5年AUC值分别为0.627、0.722、0.770,表明该风险评分对UCEC患者具有良好的预后预测能力(图3E)。
图3 LASSO回归构建UCEC预后风险的预测模型A:LASSO系数分布特征;B:选择LASSO模型中最佳调整参数 λ (lambda);C:风险评分和总体生存期的分布特征;D:不同生存状态下的风险评分分布特征(生存状态:0代表存活;生存状态:1:代表死亡);E:时间依赖性ROC曲线评估风险评分模型的预后价值
2.3 高低风险组中临床病理分型、预后特征和免疫细胞浸润比较 将UCEC患者风险评分的中位值作为截断值,将533例UCEC患者分为高风险组(261例)和低风险组(272例)。分析不同临床病理分型在两组间的分布特征,Ⅱ期、Ⅲ期和Ⅳ期UCEC样本在高风险组中的比例高于低风险组,而Ⅰ期UCEC样本在高风险组中的比例低于低风险组。原发型UCEC和转移型UCEC在高风险组的比例低于低风险组,而复发型UCEC样本在高风险组的占比高于低风险组。此外,对肿瘤细胞的分化程度进行分级,结果显示低风险组中G1级和G2级样本占比高于高风险组,G3级在低风险组占比低于高风险组。见表1。Kaplan-Meier生存曲线显示,高风险组和低风险组生存率存在显著差异,低风险组患者总生存期显著高于高风险组(P<0.001),预后较好(图4A)。
表1 不同临床病理分型在高低风险组间的占比[n(%) ]
使用ssGSEA对两组进行免疫浸润分析,发现与高风险组相比,低风险组中激活型B细胞、激活型CD8+T细胞、激活型树突状细胞、CD56 bright NK细胞、CD56 dim NK细胞、中央记忆型CD4+T细胞、效应记忆型CD8+T细胞、嗜酸性粒细胞、未成熟B细胞、巨噬细胞、肥大细胞、髓源性抑制细胞、单核细胞、自然杀伤细胞、自然杀伤T细胞、中性粒细胞、辅助性T细胞、滤泡辅助性T细胞、Ⅰ型辅助性T细胞和17型辅助性T细胞的免疫细胞亚群显著上调(P<0.05),效应记忆型CD4+T细胞在高风险组中的比例高于低风险组(P<0.05),激活型CD4+T细胞、中央记忆型CD8+T细胞、γδT细胞、未成熟树突状细胞、浆细胞样树突状细胞、调节性T细胞和辅助型T细胞2在两组中占比无差异(P>0.05)。见图4B。
图4 高低风险组间预后特征和免疫细胞浸润A:高风险组与低风险组间总体生存期比较;B:单样本基因集富集分析比较高低风险组之间的免疫细胞浸润
2.4 构建Nomogram模型 通过逐步回归方法确定纳入Nomogram模型的最佳变量,最终确定风险程度、年龄和临床病理分期3个变量构建预后Nomogram(图5A)。Nomogram预后模型的C指数(C-index)为0.681(95%CI为0.618~0.742,P<0.001),1、3、5年总体生存率ROC曲线的AUC值分别为0.625、0.701、0.762(图5B),表明构建的Nomogram预测模型具有较高的准确性。预测1、3、5年总生存率的校准曲线(calibration)同样显示Nomogram预后模型与实际观测结果一致性较高,提示Nomogram的预测效能良好。见图5C~E。
图5 构建UCEC患者预后Nomogram模型A:预测UCEC患者预后的Nomogram;B:时间依赖性ROC曲线验证Nomogram的预后价值;C~E:分别为Nomogram模型1年、3年、5年的校准曲线
焦亡不仅导致细胞死亡,而且会引发一系列炎症反应[12]。细胞坏死即可诱发大量炎性细胞因子的释放,长期暴露于炎性环境能增加肿瘤发生的风险[13]。本研究中,从TCGA数据库下载533例UCEC样本,通过比较焦亡基因在肿瘤和正常组织中的表达水平及进行Lasso回归分析,获得了9个预后相关因子,继而构建了风险评分模型,并初步探究了风险评分与患者预后和免疫浸润的关系,进一步结合其他临床病例参数构建UCEC焦亡相关基因预后模型。
本研究从22个焦亡基因中筛选出反映UCEC患者预后的9个焦亡关键基因,包括CASP3、CASP5、CYCS、GPX4、GZMB、IL-1A、IRF2、TP53和TNF,其中大部分在其他研究中已有相关报道。如CASP3编码的半胱氨酸蛋白酶-3(caspase-3)在食管鳞状细胞癌中表达上调,且caspase-3阳性表达患者的预后良好,5年生存率可达25%,而caspase-3阴性患者的5年生存率仅为6%[14]。谷胱甘肽过氧化物酶4 (GPX4) 是一种保护脂质过氧化的抗氧化酶,Kang等[15]发现,其在免疫细胞中表达上调,可对抗GSDMD介导的细胞焦亡。颗粒酶B (GzmB)是主要由自然杀伤细胞和细胞毒性T细胞分泌的蛋白质,GzmB通过直接裂解gasdermin 家族成员GSDME和激活caspase-3诱导肿瘤细胞焦亡,从而达到抗肿瘤作用[16]。Zhang 等[17]发现,特异性敲除TP53会阻断脂多糖 (LPS) 诱导的肺癌细胞的焦亡。以上研究提示,这些焦亡相关基因可能在肿瘤发生发展中扮演重要角色。目前CYCS、IL-1A、IRF2在UCEC中的作用尚无有关报道,本研究发现,其与UCEC的预后显著相关,推测这些分子可能是预测子宫内膜癌患者预后的潜在生物标记物。
以往研究发现焦亡相关炎性小体在肿瘤细胞中广泛分布,如NLRP1、NLRP3和CARD等,炎性小体可通过调节半胱氨酸蛋白酶-1(caspase-1)触发肿瘤细胞的焦亡[18]。细胞焦亡能导致炎症小体活化及炎症介质释放,后者可招募免疫细胞浸润并杀伤肿瘤细胞。本研究结果显示,具有抗肿瘤免疫反应功能的CD8+T细胞、树突状细胞、CD56 bright NK细胞、CD56 dim NK细胞等免疫细胞亚群在低风险组上调,提示低风险组免疫微环境表现为“热肿瘤”,具有较高的免疫原性。同时,预后风险模型可在一定程度上反映免疫细胞浸润情况,并可能为免疫治疗提供新的切入点。
Cao等[19]发现了与胃癌临床病理特征、预后和免疫微环境浸润显著相关的9个焦亡基因标记,通过无监督聚类方法确定了3种不同的焦亡基因亚型,患者免疫微环境状态、免疫治疗反应和预后特征在3种亚型之间有显著差异。在肺腺癌中,Liu等[20]构建了与焦亡相关的3种lncRNAs的预后模型,此模型与患者的总生存期、免疫细胞浸润丰度及免疫治疗反应密切相关。本研究构建风险评分模型,根据风险评分中位值将UCEC样本分为高风险组和低风险组,结果显示,低风险组患者的总生存期显著高于高风险组,而高风险组表现出更差的临床分期、病理分级和更高的复发风险。为了方便临床应用,将此预后模型进一步可视化为Nomogram,应用ROC曲线和校准预测曲线证实Nomogram具有良好的预后预测效能。
本研究基于TCGA大样本多中心的数据构建了Nomogram预后模型,确保了该模型的稳定性,但仍存在一定局限性,如子宫内膜癌相关临床指标(病理分期TNM及肿瘤标志物CA125和CA199)未纳入TCGA数据库,因此无法评估以上临床指标对UCEC预后的影响。此外,焦亡相关基因对UCEC的预后价值及潜在调控作用尚需临床和基础实验加以佐证。