呙文静, 邓 慧, 宋 萍, 张孟贤
华中科技大学同济医学院附属同济医院肿瘤科,武汉 430030
低级别胶质瘤(low-grade glioma,LGG)是中枢神经系统常见的原发性恶性脑肿瘤,并且在肿瘤生物学行为方面表现出很大的异质性[1]。目前最大程度的手术切除联合术后放化疗仍是LGG的主要治疗方案。部分LGG患者预后较好,而另一些LGG则可能迅速发展为恶性程度更高,侵袭性更强的高级别胶质瘤[2]。因此,寻找新的对LGG具有判断预后作用的标志物和新的治疗靶点具有十分重要的意义。
近年来,大量研究显示免疫微环境在肿瘤发生发展中起着重要作用[3]。微环境中的免疫细胞通过干扰分子信号和激活免疫反应,抑制肿瘤的复发、进展和转移[4]。然而一些肿瘤细胞可以发生免疫逃逸,诱导肿瘤的侵袭和转移[5]。有文献报道,肿瘤诱导的免疫状态失调可能与胶质瘤的进展有关,免疫微环境中的免疫组分可能对胶质瘤的进展和预后具有重要价值[6-7]。长链非编码RNA(lncRNA)是一种长度超过200个核苷酸的RNA,其不编码蛋白质,以RNA的形式在胶质瘤的表观遗传调控、选择性剪接和转录后调控等多个层面参与蛋白编码基因的调控[8]。有研究发现lncRNA在肿瘤的发生发展中发挥重要作用,对肿瘤的早期评估和预后判断具有重要的临床应用价值[9]。
本研究通过从TCGA数据库中下载LGG转录组数据和相应的临床信息,探究免疫相关lncRNA与LGG预后的关系。通过构建预后风险模型为LGG患者预后评估提供指导,同时结合临床信息进行预后危险因素评估。使用Cibersort法分析该模型与肿瘤浸润的免疫细胞之间的关系,并进一步探究了模型中lncRNA与重要免疫检查点分子的相关性,对提高LGG患者免疫治疗疗效具有一定的参考价值。
进入TCGA(https://portal.gdc.cancer.gov/)网站,下载LGG的转录组数据和相应的临床信息。用R语言脚本对下载的转录组数据进行注释,区分mRNA和lncRNA。使用Perl语言脚本提取出LGG lncRNA的表达谱矩阵。剔除LGG患者中生存时间小于30 d和生存状态未知的临床数据,最终得到477个样本。从GSEA(http://www.gsea-msigdb.org/gsea/index.jsp)网站下载immune system process M13664和immune response M19817数据集中免疫相关的基因。使用R软件中“limma package”和“cor.test”函数进行共表达分析,以相关系数|r|>0.8和P<0.01为筛选标准提取免疫相关的lncRNA。
将免疫相关lncRNA和相应的临床数据整合,通过单因素Cox回归分析得到有预后价值的免疫相关lncRNA。随后将这些lncRNA进行多因素回归分析并构建风险模型,将入选lncRNA的表达量乘以多因素Cox回归系数之和,据此计算每位患者的风险值(risk score)。以中位值为界将LGG患者分为高风险组和低风险组,采用Kaplan-Meier生存分析对2个分组的预后差异进行检验并绘制生存曲线,ROC曲线下面积用来评估其预测效能。同时将可能影响预后的临床因素(患者年龄、肿瘤级别、性别等)和风险值进行单因素和多因素Cox回归分析,并绘制森林图,对风险模型进行验证,以P<0.05为差异有统计学意义。
利用Cibersort软件计算每个样本中22种不同免疫细胞浸润的相对比例,并以P<0.05为标准筛选样本,利用R语言中的“vioplot”包将结果进行可视化。
采用Kaplan-Meier法对风险模型中每个lncRNA进行分析并绘制生存曲线。同时用Pearson相关系数法对模型中的lncRNA和关键免疫检查点基因进行分析,使用R语言中的“ggplot”包对结果进行可视化。
将从TCGA获取的14093个lncRNA与GSEA下载的免疫相关lncRNA通过共表达分析,以|r|>0.8和P<0.01作为筛选条件,获得79个lncRNA。对这79个免疫相关lncRNA进行单因素Cox回归分析筛选出8个可能有预后价值的免疫相关lncRNA(图1),用多因素Cox回归分析对这8个lncRNA进行筛选,得到4个与LGG预后相关的lncRNA(表1)。用得到的4个lncRNA构建风险模型,风险模型=(-0.2183×RFPL1S表达量)+(0.3643×AC090559.1表达量)+(0.6585×AC145098.1表达量)+(0.4029×TGFB2-AS1表达量)。依据模型计算每位患者的风险值,基于中位值将其划分为高风险组和低风险组,Kaplan-Meier分析显示2组LGG患者预后显著不同,差异有统计学意义(图2A,P<0.01)。模型中4个lncRNA的热图显示RFPL1S在低风险组中整体呈高表达趋势,而AC090559.1、AC145098.1、TGFB2-AS1均在高风险组呈高表达趋势(图2B)。
图1 单因素回归分析中有预后价值的免疫相关lncRNAFig.1 Prognostic values of immune related-lncRNAs in univariate Cox regression analysis
表1 多因素Cox回归分析筛选构建LGG预后风险模型的免疫相关lncRNATable 1 Obtaining immune-related lncRNAs for constructing low-grade glioma prognostic risk model based on multivariate Cox regression analysis
为验证风险模型在临床中的应用,结合临床特征进行单因素和多因素Cox回归分析,结果显示患者年龄、肿瘤级别和风险分数是预后的独立危险因素(P<0.01),ROC曲线下面积展示了较好的预测效果(图3)。
A:高低风险组LGG患者的生存曲线图和生存状态图;B:构建风险模型的4个免疫相关的lncRNA热图图2 低级别胶质瘤免疫相关lncRNA预后风险模型Fig.2 The prognostic risk model of immune-related lncRNA in patients with low-grade glioma
图3 基于多因素Cox回归分析的临床特征森林图和相应的ROC曲线Fig.3 Forest plot of several clinical factors based on multivariate Cox regression analysis and the corresponding ROC curve
与低风险组中LGG患者肿瘤周围浸润的免疫细胞相比,高风险组具有较多的单核细胞(P=0.305)和M2型巨噬细胞(P<0.01)的浸润(图4)。
绿色和红色分别代表低风险组和高风险组图4 高低风险组LGG患者肿瘤浸润免疫细胞的分布Fig.4 Distribution of tumor-infiltrating immune cells in low-grade glioma patients from the high-risk group and the low-risk group
Kaplan-Meier分析结果显示高表达RFPL1S的LGG患者的生存时间明显长于低表达组,P=0.006(图5A);AC090559.1、AC145098.1、TGFB2-AS1的高表达则与预后差相关(均P<0.05,图5B、5C、5D)。Pearson相关性分析显示模型中的4个lncRNA与免疫治疗相关靶点,如程序性死亡受体1(programmed cell death protein 1,PD1)、程序性死亡受体-配体1(programmed cell death 1 ligand 1,PD-L1)、细胞毒性T淋巴细胞相关性抗原4(cytotoxic T lymphocyte antigen 4,CTLA4)、CD47等存在较强的相关性(图6),RFPL1S与CD47(相关系数r=0.55),TGFB2-AS1与PD-L1(r=0.22),AC145098.1与PD-L1(r=0.44)、CTLA4(r=0.47)、PD1(r=0.49),AC090559.1与PD-L1(r=0.41)、PD1(r=0.26)相关,上述P值均小于0.05,具有统计学意义,图6中未显示数字的方块均因为P>0.05被剔除。
A:RFPL1S;B:AC145098.1;C:AC090559.1;D:TGFB2-AS1图5 基于风险模型中4个免疫相关lncRNA的LGG患者生存分析Fig.5 Survival analysis of low-grade glioma patients based on four immune-related lncRNAs from the risk model
图中以颜色区分相关性程度,颜色越深,相关性越强。在图中方块上标记了每2个基因的相关系数,并剔除了P>0.05的方块图6 主要免疫检查点基因与风险模型中4个免疫相关lncRNA的相关性分析Fig.6 Correlation analysis between major immune checkpoint genes and four immune-related lncRNAs obtained from the risk model
近年来,越来越多的研究发现lncRNA在肿瘤的发生发展中扮演着重要角色,恶性肿瘤中异常表达的lncRNA可以作为预后、诊断和靶向治疗的分子标志物[10]。
本文通过下载TCGA数据库中477例LGG转录组数据和临床信息,从Molecular Signature Database下载免疫相关基因,通过免疫基因-lncRNA共表达网络筛选出79个显著差异的免疫相关lncRNA。我们将这79个lncRNA与TCGA数据库下载的LGG患者的生存时间和生存状态进行单因素Cox回归分析,初步筛选出8个与LGG患者预后相关的lncRNA,基于多因素Cox回归最终确定4个关键的lncRNA构建风险模型,分别为RFPL1S、AC090559.1、AC145098.1和TGFB2-AS1。根据构建的风险模型计算出每位患者的风险值,依据风险值的中位数将患者分为高风险组和低风险组。Kaplan-Meier生存分析显示高风险组患者生存率明显低于低风险组,ROC曲线下面积为0.788,显示出模型良好的预测能力。模型中4个lncRNA绘制的热图显示RFPL1S的表达量随着风险分数的增加逐渐降低,考虑为保护性lncRNA;相反,AC090559.1、AC145098.1、TGFB2-AS1的表达量随着风险值的增加逐渐增加,考虑为危险性lncRNA。生存分析显示RFPL1S高表达与LGG患者较好的预后密切相关,而高表达AC090559.1、AC145098.1、TGFB2-AS1的患者生存时间显著低于低表达组,差异均有统计学意义,与我们之前的分析一致。研究表明TGFB2-AS1过表达可以抑制体外肺腺癌细胞的增殖、迁移和侵袭能力,并能抑制小鼠体内肿瘤的生长[11]。Liu等[12]也发现下调TGFB2-AS1的表达可以抑制肝癌细胞的恶性生物学行为并诱导细胞凋亡。近来一些生物学信息分析研究发现AC090559.1可能是肺腺癌患者潜在的治疗靶点[13-14],RFPL1S和转移性黑色素瘤患者的预后密切相关[15]。尽管这些研究尚未通过实验证明,但为恶性肿瘤的发生发展机制提供了一些新的线索,对寻找新的预后标志物具有重要意义。AC145098.1尚未见文献报道,具有潜在的研究价值。
近年来,免疫治疗作为一种新兴的治疗方式备受瞩目。其中,免疫微环境被认为在肿瘤的发生发展及对免疫治疗的反应中起着重要作用[16]。已有许多研究揭示了浸润性免疫细胞在胶质瘤中的重要作用[3,17]。在当前研究中,M2型巨噬细胞在LGG中显著富集。尽管胶质瘤被定义为“冷肿瘤”,浸润的免疫细胞较少,但在胶质瘤的免疫微环境中巨噬细胞的比例仍然高达30%~50%[18]。有文献报道,在肿瘤微环境中高水平的M2型巨噬细胞[19]、中性粒细胞[20]和Treg细胞[21]与胶质瘤的不良预后密切相关。相反的,高水平的M1型巨噬细胞[19]和CD8+T细胞[22]被认为是胶质瘤的保护因素。本研究结果显示:在该风险模型中,高风险组LGG患者肿瘤中有较多单核细胞和M2型巨噬细胞浸润,与上述研究一致。近年来针对免疫检查点的靶向治疗是肿瘤免疫治疗的一种重要方法,靶向为T细胞提供抑制性信号的免疫检查点分子(如PD1、PD-L1、CTLA-4和CD47等)能够显著提高难治性肿瘤患者的生存率。为探讨风险模型中lncRNA在胶质瘤患者免疫治疗中的潜在意义,本文进一步评估了4个关键lncRNA和重要免疫检查点分子之间的关系,结果显示这些lncRNA与某些免疫检查点分子之间存在相关性,可为筛选LGG预测指标提供新的思路和靶标。
随着计算机科技的高速发展,生物信息分析技术越来越多地被用于筛选与肿瘤预后相关的分子标志物。本研究从TCGA数据库最终筛选出4个与LGG患者预后密切相关的lncRNA,基于它们构建的风险模型对LGG患者的预后有良好的预测作用。并且这4个lncRNA与部分免疫检查点靶点之间存在相关性,说明其可能通过影响免疫检查点基因而在胶质瘤的免疫治疗中起作用,或许能为我们探索胶质瘤免疫治疗提供新的靶点。当然,由于本研究采用大数据的分析方法,未经实验研究验证,尚存在一定局限性。