基于TCGA 和GEO 数据库探索结肠癌肿瘤微环境中的免疫相关预后因子*

2022-08-08 07:53操利超巴颖丁世涛翁琦卢晓萍张核子深圳市核子基因科技有限公司广东深圳518071
临床检验杂志 2022年6期
关键词:线图高风险结肠癌

操利超,巴颖,丁世涛,翁琦,卢晓萍,张核子(深圳市核子基因科技有限公司,广东深圳 518071)

结肠癌是世界上死亡率最高的恶性肿瘤之一[1]。尽管最近几年在诊断和治疗方面取得了一定的进展,但结肠癌患者的总体预后仍然很差,主要原因之一是缺乏有效的预后生物标志物[2]。因此,探讨结肠癌有价值的预后标志物和治疗靶点是迫切且必要的。由于肿瘤免疫微环境(tumor microenvironment,TME)的异质性和复杂性,只有一小部分患者受益于免疫治疗。最近,有学者利用生物信息学和机器学习方法发现多种类型的免疫相关生物标志物与结肠癌的预后相关[3]。然而,对于TME的分子特征需要进一步研究。在本研究中,笔者利用生物信息学方法筛选出有效的分子标志物,构建和验证免疫相关的预后模型,并分析TME 特征,以期为寻找结肠癌新的治疗靶点提供参考依据。

1 材料和方法

1.1 数据下载和获取 从 UCSC Xena 平台(https:/ /xenabrowser.net/datapages/)下 载 结 肠 癌 的mRNA 表达数据和对应的临床信息,选择队列为GDC TCGA Colon Cancer(COAD)作为训练数据集,具体样本信息见表1。在GEO数据库中下载数据集GSE39582的基因表达谱和临床信息作为验证数据集,具体信息见表2。从ImmPort 数据库(https:/ /immport.niaid.nih.gov/)下载免疫相关基因列表,总计 1 509 个。

表1 TCGA数据集的具体样本信息[n(%)]

表2 数据集GSE39582的具体样本信息[n(%)]

1.2 构建预后风险模型 利用 R 包 limma 对TCGA数据集进行差异基因分析,过滤标准为adjusted P 值小于 0.05 和差异倍数大于 1.5 倍(|log2FC|>0.585),与免疫基因列表取交集,得到免疫相关的差异表达基因(differentially expressed genes,DEGs)。利用R包Survival对免疫相关的差异基因与患者总生存时间(overall survival,OS)进行单因子回归分析,筛选P<0.05 的基因作为候选预后因子。通过多因子回归分析确定每个预后因子的回归系数,建立预后风险评估模型,预测患者生存率。

公式:风险分数=∑差异基因的回归系数χi×归一化处理后的基因表达量βi

1.3 统计学分析 利用 R 包 SurvivalROC 绘制ROC曲线以评估预后模型的性能。以真阳性率与假阳性率之间的差值最大处作为最佳风险评分临界值,高于临界值的患者归为高风险评分组,低于临界值的患者归为低风险评分组,并使用R包Survminer绘制两组的生存曲线。采用相同的风险计算公式对验证数据集GSE39582进行统计学分析。

1.4 构建和验证列线图 使用R包rms,通过整合风险评分模型和临床信息,包括年龄、性别和肿瘤分期,构建列线图模型,可视化不同患者特征的预后价值。通过绘制森林图展示临床信息与OS之间的关系,其中,一致性指数(C-index)表示列线图的预测准确性。

1.5 估计及比较肿瘤免疫浸润细胞类型的构成和差异 基于构建的预后风险模型,将肿瘤样本分为高风险评分组和低风险评分组,采用CIBERSORT算法分析22种肿瘤浸润免疫细胞的比例[4]。通过非配对t检验比较高风险评分组和低风险评分组之间的免疫图谱。

1.6 分析肿瘤免疫微环境的特征 使用 R 包maftools分析和比较高风险评分组和低风险评分组的突变谱[5],并计算TMB值。通过未配对t检验统计分析高风险评分组和低风险评分组之间TMB 的差异。使用Kaplan-Meier分析风险评分与OS 之间的关联。利用Wilcoxon 检验比较高风险评分组和低风险评分组的免疫检查点及其配体的mRNA 表达水平的差异。

2 结果

2.1 基于训练数据集的免疫相关预后模型构建对训练数据集中的肿瘤样本和正常样本的表达谱进行差异性分析,得到571个DEGs。其中,275 个基因上调,296 个下调(图1A)。与免疫基因列表取交集后,得到102 个免疫相关的DEGs,其中19个基因上调,83个基因下调。

通过单因子回归和多因子回归分析表明,有6个免疫相关的 DEGs与OS 相关(P 值<0.05),见表3。其中,回归系数见图1B、1D。根据逐步回归模型,Akaike信息标准(AIC)为983.38,C 指数为0.63,见图1E。

表3 与结肠癌预后相关的基因信息

图1 鉴定预后相关的差异表达基因

由图2A~2F 可知,这6 个免疫相关的差异基因可作为独立的预后因子,均与OS 显著相关(P<0.05)。其中,BMP5的高表达与良好的预后显著相关,而其他5个基因则相反。

图2 基因表达量高低与患者生存状态的关系

2.2 预后模型的性能评估 基于已构建的预后风险模型,将结肠癌患者分为高风险评分组和低风险评分组,其中,cut-off值设为-0.19。由图 3A、3B 可知,随着风险评分的增加,生存时间呈缩短的趋势,且高风险评分组的死亡比例(图3B 右侧的红点和蓝点比例)比低风险评分组高,这与Kaplan-Meier生存分析结果一致。由图3D 可知,高风险评分患者的OS比低风险评分患者预后较差(P<0.000 1)。由图3C可知,基因BMP5在低风险组表达量高,在高风险组表达量低,而其他5个基因趋势相反。

图3 训练数据集预后风险模型的构建

2.3 预后模型的统计分析 通过绘制ROC曲线和肿瘤分层分析来进一步评估预后风险模型的性能。由图4A可知,ROC曲线下面积(AUCROC)在3年时为 0.668,4 年时为 0.699,5 年时为 0.696。Wilcoxon检验表明,较高的风险评分与较高的病理分期(P =0.000 29)、T 分期(P = 0.000 05)、M 分期(P =0.023)、N 分期(P =0.001 3)显著相关。

图4 训练数据集预后风险模型的统计分析

2.4 预后模型的验证 基于构建的预后风险模型,在验证数据集GSE39582 中进一步验证。低风险评分与良好的预后显著相关(P =0.008 1,图5A),且较高的风险评分与较高的病理分期(P =0.003 7)、T 分期(P =0.047)、M 分期(P =0.047)、N分期(P =0.032)显著相关(图 5B~5E)。

图5 验证数据集预后风险模型的统计分析

2.5 构建和评估列线图模型 在列线图中,每个变量的得分映射到分数轴上,通过计算总分来估算3年、4年和5年的生存概率(图6A)。由森林图可以看出,患者特征,包括年龄(>60 岁)、肿瘤分期(Ⅲ和Ⅳ)和风险评分与 OS 显著相关(P 值<0.05,图6B)。此外,通过绘制校准曲线以验证列线图的性能,可看出预测曲线接近理想曲线(图6C ~6E),这表明构建的列线图模型性能良好。此外,该列线图(C-index:0.75)的预测准确性高于风险评分模型(C-index:0.63)。

图6 列线图模型的构建与验证

2.6 探索结肠癌TME 基于CIBERSORT算法,估算每例结肠癌患者中22 种免疫细胞的比例,并比较高风险评分组和低风险评分组间的免疫细胞比例,发现有6种免疫细胞类型间的差异有统计学意义(P<0.05)。其中,CD4 记忆活化 T 细胞(T cells CD4 memory activated)和Tregs调控T细胞(T cells regulatory,Tregs)最为显著(P<0.000 1,图 7A)。由绘制的结肠癌患者的突变谱可以看出,前20 位显著突变的基因分别为 APC、TP53、TTN、KRAS、SYNE1、MUC16、PIK3CA、FAT4、RYR2、OBSCN、ZFHX4、DNAH5、PCLO、CSMD3、ABCA13、DNAH11、LRP1B、FAT3、USH2A 和 CSMD1(图 7B)。通过计算并比较每个样本的TMB,发现高风险评分组和低风险评分组间无显著性差异(P =0.25,图 7C),高TMB 与较差患者的 OS 显著相关(P = 0.028,图7D)。利用Wilcoxon 检验比较高风险评分组和低风险评分组间免疫检查点及其配体的表达水平,结果表明,高风险评分组 PD-L1(P = 0.001)、PD-1(P =0.000 22)和 CTLA-4(P =0.000 21)的表达水平较高(图7E~7G)。

图7 结肠癌肿瘤免疫微环境特征

3 讨论

TME 中的免疫细胞在肿瘤的进展中起着重要作用[3]。研究表明,免疫检查点抑制剂(immune checkpoint inhibitors,ICIs)在结肠癌免疫治疗中具有很大的潜力[6]。然而,由于对TME 特性的理解不足,在一定程度上阻碍了免疫治疗的广泛应用。近年来,大量研究鉴定了与结肠癌诊断和预后相关的生物标志物[7-8]。然而,为了最大限度地发挥免疫治疗的作用,还需要探索更多可靠的生物标志物。

本研究构建1 个基于6 个免疫相关差异基因的结肠癌预后风险评估模型,该6 个基因分别为BMP5、OXTR、STC2、UCN、GRP 和 AMH。研究表明,GMP5、OXTR、STC2 和 UCN 基因与结肠癌的预后显著相关[9-12]。BMP5 基因参与 TGF-β /Smad 信号通路,其表达与上皮标志物呈正相关,但与间充质标志物呈负相关[13]。同时,BMP5 基因被证实与PI3K-AKT 和 MAPKs 信 号 通 路 相 互 作 用[14]。OXTR基因及其配体催产素(OXT)存在于胃肠系统中,并参与肿瘤的发生、发展[15]。AMH基因被证实与结肠癌的发生、发展有关,并可作为槲皮素的靶点,降低结肠癌引起的死亡率[16]。对于STC2、UCN和GRP基因,还未见其与肿瘤进展的相关性研究。

为了进一步探索建立的预后模型的潜在应用价值,笔者分析了训练数据集和验证数据集中不同病理分期患者的风险评分,结果表明随着风险评分的增加,其肿瘤分期等级越高,这预示着建立的预后模型在肿瘤分期方面有一定的预测能力。此外,通过系统分析结肠癌TME 的特征,发现CD4 记忆活化T 细胞、Tregs 调控T 细胞的免疫浸润程度和TMB可能是结肠癌的独立预后标志。此外,高风险评分患者的免疫检查点及其配体(PD-L1、PD-1 和CTLA-4)的表达水平较高,表明构建的预后模型能够为免疫治疗提供一定的参考价值。

综上所述,本研究构建了1个性能良好的免疫相关的结肠癌风险评估预后模型,并探索其TME特征,这可能有助于结肠癌患者的预后风险预测、肿瘤分期预测和免疫治疗。为进一步提升预后模型的预测性能,本研究基于风险评分预后模型和临床指标(包括年龄、性别、病理分期)构建了列线图模型,使预后模型的准确性得到较大提升。然而,本研究构建的预后模型是利用生物信息学和生物统计学分析的技术手段,基于公开的数据集进行分析,筛选出的预测因子的生物学功能还需要进一步的实验验证。期望本研究的研究成果能为结肠癌患者的预后评估、肿瘤分期预测和免疫治疗提供新的研究方向。

猜你喜欢
线图高风险结肠癌
结肠癌早期,多有5大表现
助“癌”为虐的细菌
唐氏综合征筛查高风险人群人口特征学分析
高风险测试对英语学习的反拨效应研究
论无主物之归属
腹腔镜治疗结肠癌27例临床观察
一类图及其线图的Wiener指数
牛奶预防结肠癌