基于免疫相关基因的子宫内膜癌预后模型构建

2022-05-17 13:50田济铭邢义涓胡玉萍梁晓磊杨永秀
中国癌症防治杂志 2022年2期
关键词:队列生存率内膜

田济铭 邢义涓 胡玉萍 梁晓磊 杨永秀

子宫内膜癌是女性生殖系统常见的恶性肿瘤之一,在女性恶性肿瘤中发病率居第六位。据统计,子宫内膜癌的发病率不断上升,且呈年轻化趋势,严重威胁着女性健康[1-2]。大多数患者因绝经后阴道不规则出血就医,早期患者5年生存率约为90%,然而30%的患者在诊断时已处于晚期,FIGOⅢ期患者的5年生存率为47%,FIGOⅣ期为17%[3]。目前,子宫内膜癌的TCGA相关分子分型已经被纳入指南,这体现了子宫内膜癌的基因和分子特征在患者临床诊疗及预后评估中的重要作用[4]。此外,免疫失调在子宫内膜癌发生发展过程中也发挥重要作用。肿瘤组织中免疫分子的异常表达会引起免疫细胞功能紊乱,而免疫微环境的改变可以促进肿瘤细胞发生免疫逃逸[5]。同时,子宫内膜癌通常伴有高负荷的移码突变,这将导致体内新抗原表达增加,进而加剧异常的免疫反应[6]。因此,针对子宫内膜癌异常的免疫微环境,在积极探索潜在治疗靶点的同时,建立以免疫相关基因为主的预后预测模型尤为必要。本研究通过多个数据库联合分析,建立了基于6个免疫相关基因(immune related genes,IRGs)的子宫内膜癌预后模型,以期为子宫内膜癌的预后评估和免疫治疗方案提供参考。

1 资料和方法

1.1 数据收集

子宫内膜癌转录组数据从TCGA网站下载,免疫相关基因列表从IMMPORT网站获取。通过比对IMMPORT下载的IRGs列表,筛选出TCGA队列免疫相关基因的表达矩阵。纳入标准:⑴原发肿瘤经病理学诊断为子宫内膜癌;⑵具有完整的年龄、病理分级、分期、身高、体重等基本信息;⑶具有完整的生存状态、随访时间等信息。排除标准:合并其他肿瘤或严重疾病。主要观察的预后指标为总生存期(overall survival,OS),包括1年总生存率,3年总生存率和5年总生存率。为构建预后模型,整个TCGA队列使用“caret”包中的“createDataPartition”函数按照1∶1的比例随机分为训练队列(n=252)和验证队列(n=252)。

1.2 差异预后基因的筛选

通过“EdgeR”包对转录组数据进行差异分析,以P<0.05,|Log2(FC)|>2为标准,获得在子宫内膜癌中高表达与低表达的差异免疫相关基因。使用“survival”包在训练队列中进行单因素Cox分析,分析基因表达与预后的关系,获得31个预后相关免疫基因。

1.3 差异基因的功能富集分析

差异基因列表上传到DAVID网站,通过基因本体论(GO)和京都基因组百科全书(KEGG)探索差异基因可能集中的生物过程和通路,选择P<0.05的通路和生物过程,利用“recharts”包绘制差异基因与生物过程对应的和弦图。

1.4 预后模型的构建与验证

获得差异免疫基因后,通过最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)回归分析(10倍交叉验证)处理共线性基因,对结果进行进一步筛选。多因素Cox回归分析LASSO回归结果,P<0.05被定义为具有独立作用的预后基因,使用“cph”函数构建多因素Cox比例风险模型,针对多因素Cox回归分析中独立预后基因,利用“nomogram”函数构建列线图模型。在列线图中,通过确定单个因素的评分,进而将各个评分累加得到总评分,得到评分对应的结局事件发生概率。使用“cox.zph”函数进行比例风险假定检验,GLOBALP值为0.66,满足比例风险假定。在训练集中使用时间依赖的受试者工作特征(receiver operating characteristic,ROC)曲线,评估预测模型的区分度。使用校准曲线对其进行评价(通过Bootstrap法循环抽样1 000次),以评估列线图的1年、3年和5年预测生存率与实际生存率之间的拟合程度来评价列线图的预测准确性,预测曲线与45°对角线越接近代表预测准确度越高。采用“ggDCA”包绘制5年的决策曲线(decision curve analysis,DCA),评价该预后模型在指导临床决策方面的收益情况。DCA被广泛应用于评估预后模型的临床应用能力,DCA离极端曲线越远,代表模型的临床应用能力越好。最后,在训练队列中通过单因素和多因素Cox回归分析年龄、病理分级、临床分期和风险分级与子宫内膜癌预后的关系。在验证队列和整体队列中也对上述指标进行评估。

1.5 统计学方法

采用R 4.1.1软件进行数据分析。使用X-Tile 3.6.1软件计算年龄、风险评分及基因表达量的最佳阈值,并根据最佳阈值将连续性变量转换为二分类变量。Kaplan-Meier方法用于绘制生存曲线,两组生存曲线比较采用log-rank检验。双侧t检验用于分析两组之间的差异,P<0.05认为差异有统计学意义。

2 结果

2.1 差异免疫相关基因的筛选

本研究共纳入504例患者,包含482例肿瘤组织以及22例配对的肿瘤组织和癌旁组织。为了构建预后模型,将整个队列随机分为两组:训练队列(n=252)和验证队列(n=252)。训练队列和验证队列的临床信息和生存曲线如表1和图1所示,其中训练队列纳入252例患者,年龄中位数为63.5岁;死亡21例,存活231例,1、3、5年总生存率分别为97.47%、83.95%、80.23%;验证队列纳入252例患者,年龄中位数为63岁;死亡22例,存活230例,1、3、5年总生存率分别为96.25%、84.45%、79.27%。通过分析一共筛选出394个差异基因,包括111个上调基因和283个下调基因,见图2。

表1 TCGA数据库中504例子宫内膜癌患者的临床信息Tab.1 Clinical information of 504 endometrial carcinoma patients from TCGA

图1 训练队列和验证队列的生存曲线Fig.1 Survival curves for training and validation cohorts

图2 差异免疫相关基因的火山图Fig.2 Volcanic map of differential expression IRGs

2.2 功能富集分析

功能富集分析发现,差异免疫相关基因主要富集于免疫应答、信号转导、细胞-细胞信号转导、G蛋白偶联受体信号转导通路、细胞增殖的正调控、蛋白水解、先天免疫反应和炎症反应等生物学过程(图3A)。通路富集侧重于神经活性配体-受体相互作用、细胞因子-细胞因子受体相互作用、癌症通路、PI3K-Akt、Ras、Rap1、MAPK信号通路、趋化因子信号通路、肌动蛋白细胞骨架调控和黑色素瘤等通路(图3B)。

图3 差异免疫基因的功能富集Fig.3 Functional enrichment analysis of differential expression IRGs

2.3 预后风险模型的建立与验证

在训练队列中对394个差异免疫相关基因进行了单因素Cox回归分析,发现31个免疫相关基因与子宫内膜癌患者总生存率相关(图4A)。为避免过度拟合,通过LASSO回归确定了ANGPT4、CRH、HGF、PLA2G2A、SPAG11B、SST和VGF7个关键基因(图4B~C)。多因素Cox回归分析进一步筛选出6个独立影响预后的免疫相关基因:ANGPT4、HGF、PLA2G2A、SPAG11B、SST和VGF(图5A)。最后,构建了基于6个免疫基因的预后模型,计算公式:Risk score=ANGPT4×0.247+HGF×1.332+PLAG2GA×0.367+SPAG11B×2.716+SST×0.001+VGF×0.033,并绘制了风险评分评估预后的列线图(图5B)。

图4 预后相关基因的筛选和LASSO回归分析Fig.4 Screening of prognosis-related genes and LASSO regression analysis

图5 多因素Cox回归分析及列线图预后模型的构建Fig.5 Multivariable Cox regression analysis and construction of the nomogram prognostic model

采用时间依赖的ROC曲线评估模型预测5年总生存率的准确性,在训练队列中,该模型预测1年、3年和5年生存率的曲线下面积为分别为0.986、0.846和0.849(图6A);在验证队列中,分别为0.667、0.629和0.693(图6B);在整体队列中,分别为0.798、0.735和0.770(图6C),提示该模型具有良好的预测效果。训练队列、验证队列和整体队列的校准图显示模型预测的生存率接近实际生存率(图6D~F)。5年DCA决策曲线表明,该模型在指导临床决策方面也具有良好的效益(图6G~I)。

图6 风险模型在训练队列、验证队列和整体队列中的预后评估效能和临床应用能力Fig.6 Prognostic evaluation and clinical application utility of risk model in training,validation and total cohorts

2.4 预后风险模型的效果评价

在训练队列、验证队列以及整体队列中均发现风险评分是影响子宫内膜癌预后的独立危险因素(表2)。使用X-Tile软件将风险评分按照-0.3分为两组,在训练队列和验证队列中都显示高风险评分的患者预后更差(图7A~B)。为进一步明确模型所纳入免疫基因是否可以作为子宫内膜癌预后标志物,在整个队列中评估了6个免疫基因表达情况与预后的关系,结果显示6个基因表达水平越高,患者预后越差(均P<0.05,图7C~H)。

表2 预后风险因素的单因素和多因素回归分析Tab.2 Univariable and multivariable Cox regression analyses of the prognosis risk factors

图7 基于风险评分和6个免疫基因的生存分析Fig.7 Survival analysis based on risk score and 6 immune genes

3 讨论

免疫疗法是近年来恶性肿瘤治疗的热点,已有大量研究在妇科肿瘤中开展。随着子宫内膜癌从传统分型向分子分型的转变,免疫治疗成为晚期和复杂病理类型子宫内膜癌患者的潜在选择[7]。目前,对于错配修复缺陷(mismatch repair-deficient,dMMR)或高微卫星不稳定性(high microsatellite instability,MSI-H)的子宫内膜癌患者,联合免疫治疗已经极大改善了患者的结局[8]。肿瘤突变负荷(tumour mutational burden,TMB)新兴标志物也不断被发现,子宫内膜癌患者也在其指导下接受免疫治疗[9]。因此,开发基于免疫相关基因的预后模型本质上是对机体免疫反应的评估,这对患者免疫治疗的用药方案和疗效评价具有重要指导意义[10]。

本研究从TCGA数据库中获取了子宫内膜癌基因表达矩阵,经过数据清洗后,获得了1 661个免疫基因表达矩阵。通过差异分析共鉴定出394个差异免疫相关基因,其中上调基因111个,下调基因283个。功能富集分析发现这些差异基因主要集中在免疫反应、信号转导、PI3K-Akt、Ras、Rap1、MAPK等致癌信号通路。此外,单因素Cox回归分析获得31个与预后相关的基因,进一步利用LASSO回归和多因素Cox回归建立了基于ANGPT4、HGF、PLA2G2A、SPAG11B、SST和VGF等6个基因的预后评估模型。且该模型在训练队列、验证队列中均显示出良好的预测效果,在3个队列中均发现风险评分是影响子宫内膜癌预后的独立危险因素。

近年来,不断有学者探索子宫内膜癌预后模型,目前已有多种子宫内膜癌预后模型被建立和评估。如YING等[11]在全基因组的基础上鉴定子宫内膜癌差异表达基因,并基于TCGA数据库建立了一个包括9个基因的预测模型,结果在预测患者生存时间中显示了良好效能,其预测5年生存率的AUC值为0.676;同时还发现该模型结合FIGO分期和其他预后因素可以进一步区分预后较差的患者。O'MARA等[12]使用来自TCGA的转录组数据,通过严格的荟萃分析,发现了一组基因的表达水平与子宫内膜癌患者的总生存时间有关,但只进行了单因素分析,没有考虑年龄、病理分级、FIGO分期等其他预后因素。CHEN等[13]使用ESTIMATER工具和两种机器学习算法来识别影响预后的相关肿瘤微环境免疫基因,建立了8个基因预测模型,其5年的AUC值为0.797。相较既往研究,本研究虽然仅基于6个免疫相关基因构建了子宫内膜癌预后模型,但具有更高的ROC曲线下面积,显示出更好的预后预测潜力。

在本研究建立的预测模型中,HGF、ANGPT4、PLA2G2A、SST、SPAG11B和VGF等6个免疫相关基因被用于预测子宫内膜癌的预后。其中,HGF在子宫内膜癌中已有广泛研究,基质细胞产生的HGF通过c-Met信号通路促进子宫内膜上皮细胞和基质细胞的增殖和侵袭,在子宫内膜癌的进展中发挥重要作用[14]。ANGPT4是血管生成素家族的成员,发挥促血管生成作用,而肿瘤最典型的特征之一就是新生血管形成。据报道ANGPT4表达水平与乳腺癌总生存率呈负相关,但在子宫内膜癌中尚未见报道[15]。PLA2G2A在消化系统肿瘤中异常表达,可能与结直肠肿瘤发生、药物敏感性及预后相关,但PLA2G2A在子宫内膜癌中的作用未知,需深入探索[16-17]。SST常常在子宫内膜异位症病变组织和细胞中异常表达,可阻止血小板衍生生长因子诱导的癌细胞增殖和侵袭,SST类似物也被认为是子宫内膜异位症有前景的治疗药物[18]。既往研究[19-20]发现尿液中的SST甲基化是潜在的诊断标志物,这些研究都反映了SST在子宫内膜癌诊治中的潜力。SPAG11主要在男性生殖道中表达,目前有关SPAG11B的研究主要集中在男性不育症以及炎症性疾病[21-22]。VGF最早被发现是一种在神经系统神经元的神经损伤和炎症后高度表达的颗粒样神经肽前体,被认为是治疗神经性疼痛的潜在靶点[23]。有研究表明,VGF可以促进胶质母细胞瘤干细胞存活并保持其干细胞特性,诱导脑源性神经营养因子分泌,在胶质母细胞瘤进展中发挥重要作用[24]。可见,上述基因用于预测子宫内膜癌患者的预后具有一定的生物可解释性,也可能在子宫内膜癌进展中发挥着重要作用,但其相关机制仍需进一步研究。

本研究仍存在不足,如患者数据仅来源于TCGA,纳入的患者多为拉美人群,是否适用于我国,还需进一步评估。此外,这些免疫相关基因具体如何影响子宫内膜癌的发生、发展,其机制需要进一步的体内外实验研究探索。

综上,本研究构建了一个基于6个免疫相关基因的子宫内膜癌预后模型,该模型可以有效预测子宫内膜癌患者的预后,对其免疫治疗和预后评估具有一定指导意义。

猜你喜欢
队列生存率内膜
miR-145通过调控人子宫内膜基质细胞OCT4的表达促进子宫内膜异位症的发展机制
『5年生存率』啥意思
绝经后子宫内膜增厚别大意
基于车车通讯的队列自动跟驰横向耦合模型
子宫内膜增厚需要治疗吗
队列队形体育教案
“五年生存率”不等于只能活五年
日本首次公布本国居民癌症三年生存率
日本癌症患者十年生存率达59%左右
青春的头屑