黄勋功 冯 旭 涂顺珂
(广西医科大学第一附属医院心胸外科,广西南宁市 530021)
肺癌是全球最常见的癌症之一,早期诊断是肺癌治疗过程中最关键的部分,但晚期患者占肺癌人群的比例依然很高,因此,对患者进行早期诊断及预后监测至关重要[1]。近年来,诸多研究发现多个基因与肺癌的发生、发展及预后相关,基因靶向治疗可有效识别肿瘤细胞及正常细胞,在发挥抗肿瘤作用的同时减少对正常细胞的损伤,这使其成为研究的重点。目前,肺腺癌约占全部肺癌的45%,在女性和抽烟者中发病率较高,但其具体的分子机制尚未完全清楚,因此,揭示潜在关键基因对肺腺癌的防治和预后评估非常重要[2]。G蛋白偶联受体116(G-protein coupled receptor 116, GPCR116)属于G蛋白偶联受体家族,该受体在维持肺表面活性物质稳态中起着关键作用,GPCR116丢失会引起肺气肿样病变[3]。有研究显示,GPCR116具有调节血管内皮的功能,其功能的缺失会导致脑血管渗漏风险显著增加[4]。此外,还有研究报道GPCR116可以预测胃癌和结直肠癌的不良预后[5-6]。然而,GPCR116基因在肺腺癌中的作用尚不清楚,本研究旨在探讨GPCR116基因与肺腺癌发生、发展的相关性及其作用机制。现报告如下。
1.1 数据来源 从高通量功能基因组(Gene Expression Omnibus, GEO)数据库(www.ncbi. nlm.nih. gov/geo)下载GSE68465数据集,该数据集包含442例肺腺癌组织样本和20例正常组织样本的mRNA数据和基本临床资料(包括T分期、N分期、年龄、性别、吸烟史等)[7]。
1.2 数据分析 利用R语言对基因名进行注释,用“limma”和“impute”工具包对其相应的基因表达量进行补缺矫正[8-9]。通过Wilcoxon秩和检验分析数据集中的正常组织与癌组织样本GPCR116表达量之间的差异。筛选出肿瘤患者,按照其中位值(20.438 865)将肿瘤患者分为高表达组和低表达组,使用R语言中的“survival”行Kaplan-Meier生存分析。使用R语言对GPCR116行单因素和多因素Cox回归,分析临床特征与肺腺癌患者预后的关系。使用R语言中的Kruskal-Wallis检验,探究GPCR116基因表达量与各临床特征的相关性。
1.3 基因集富集分析 运用基因集富集分析(Gene Set Enrichment Analysis, GSEA)软件4.2.3版输入GPCR116高表达组和低表达组的数据集文件和表型数据文件,选择c2.cp.kegg.v7.5.1.symbols.gmt [Curated]作为参考基因集,将P<0.05、错误发现率(false discovery rate,FDR)<0.25的基因集作为显著富集的基因集。
1.4 识别差异表达基因 根据GPCR116基因表达量对肿瘤样本数据进行重新排序,按照各基因表达中位值进行分组,使用R语言分析并输出同时满足|(log2FC)|>1且P<0.05的差异表达基因(differentially expressed genes, DEGs) ,使用R语言绘制火山图,并使用R语言中的“pheatmap”对上调与下调最显著的20个DEGs绘制差异基因热图。
1.5 GO功能富集和KEGG通路富集分析 使用R语言中的“clusterProfiler”进行基因本体论(Gene Ontology,GO)富集分析及京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,满足将P<0.05、最小富集差异基因计数为5、富集基因占整条通路所有基因的最小占比为0.05的基因作为显著性基因富集。
1.6 相关性分析 挑选出上调与下调最显著的DEGs各20个,利用R语言中的“corrplot”工具包分析GPCR116基因与这40个DEGs之间的相关性。
1.7 构建PPI网络并筛选关键基因 使用在线分析数据库 STRING(http: //string-db.org /cgi /input.pl)构建蛋白互作(protein-protein interaction,PPI)网络,设定最小互作评分>0.15。使用Cytoscape 3.9.1的插件CytoHubba中的5种拓扑分析算法(EcCentricity、Closeness、Radiality、Betweeness、Stress)分别计算PPI网络中DEGs的表达量并进行排列,取交集,筛选得到关键基因。
2.1 GPCR116基因在肺腺癌组织中的表达情况 与正常组织相比,GPCR116基因在肺腺癌组织中的表达量明显升高,差异有统计学意义(P<0.05),见图1。
图1 GPCR116在正常组织和肺腺癌组织中的表达
2.2 GPCR116基因表达量与肺腺癌患者预后的关系 生存分析结果显示,低表达组5年生存率为0.451(0.380~0.536),高表达组的5年生存率可达 0.651(0.578~0.733),高表达组预后较好,差异有统计学意义(P<0.05),见图2。单因素和多因素Cox回归分析结果均显示,GPCR116表达量是肺腺癌患者预后的独立影响因素(均P<0.05),见表1。
图2 GPCR116基因表达量与肺腺癌患者预后关系的Kaplan-Meier生存分析
表1 GPCR116基因表达量与肺腺癌患者预后关系的单因素及多因素Cox回归分析
2.3 GPCR116基因表达量与临床特征的相关性分析 GPCR116基因的表达量与T分期、N分期及吸烟史相关(均P<0.05),见图3。
图3 GPCR116基因表达量与临床特征的相关性
2.4 GPCR116基因的GSEA富集分析 GPCR116基因高表达组主要富集在溶酶体,低表达组主要富集在细胞周期、P53信号通路、错配修复、卵母细胞减数分裂等信号通路中,见表2;可视化分析得到的富集分析图见图4。
表2 GPCR116基因GSEA富集分析表达通路
图4 GPCR116基因GSEA富集分析图
2.5 差异基因的火山图与热图 共筛选出DEGs 235个,包括下调基因103个,上调基因132个。DEGs的火山图见图5,由最显著的40个DEGs绘制得到的差异基因热图见图6。
图5 DEGs火山图
图6 DEGs热图
2.6 差异基因GO分析和KEGG通路富集分析 GO富集分析结果显示:DEGs的生物过程主要涉及细胞核分裂、细胞器裂变、有丝分裂细胞周期相变等,见表3。KEGG通路富集分析结果显示:DEGs主要在人类T细胞白血病病毒1感染、细胞周期、类风湿性关节炎等信号通路中富集,见表4。
表3 DEGs的GO功能富集分析结果(生物过程,前5个)
表4 DEGs的KEGG通路富集分析结果(前5个)
2.7 相关性分析 GPCR116基因的表达量与13个显著性差异基因的表达量呈正相关,包括HSD17B6、CYP2B7P、RNASE1等;与20个显著性差异基因的表达量呈负相关,包括TMEM158、MCM10、NDC80等。见图7。
图7 GPCR116基因的表达量与上调和下调最显著的40个差异基因表达量的相关性
2.8 PPI网络构建及关键基因筛选 PPI网络共包含40个节点、129条连线,其中SFTPC、SFTPB、SFRPD、HOPX、WIF1与GPCR116基因均呈正相关(见图8)。5种拓扑分析算法分别计算出前20位基因,取交集得到10个关键基因,分别为NKX2-1、SFTPB、SFTPC、SCGB1A1、PITX1、FOXM1、MYBL2、CDCA3、TFF1、WIF1。
图8 与GPCR116基因相关的PPI网络(共预测40个功能蛋白)
肺腺癌是一种高度恶性的异质性疾病,采用生物标志物预测患者预后并寻找关键的治疗靶点或将成为未来研究的重点。本研究探讨了GPCR116基因预测肺腺癌预后的价值,并利用富集分析和PPI网络探究GPCR116基因可能的作用机制,然后筛选肺腺癌的潜在治疗靶点,旨在为阐明GPCR116基因与肺腺癌的相关性及其作用机制提供参考。
G蛋白偶联受体是参与信号传递的最大细胞表面分子家族,在肿瘤生长和转移中发挥重要作用。已有研究表明,恶性细胞常影响G蛋白偶联受体的正常功能[10]。GPCR116基因作为G蛋白偶联受体家族中的一员,其在不同类型的肿瘤中发挥作用。本研究结果显示,GPCR116基因在肺腺癌组织中低表达是肺腺癌预后较差的预测指标。GSEA富集的多个通路与肿瘤的进展相关,例如:P53是人类癌症中最常见的肿瘤抑制基因,它的缺失或突变可导致免疫逃避和癌症进展[11];错配修复可保护DNA,抑制突变,修复的缺失与癌变进展关系密切[12];细胞周期检查点为DNA复制的监控机制,可防止细胞分裂过程中遗传错误的积累,检查点缺陷是细胞癌变的前提[13];溶酶体中的溶酶体蛋白可使癌细胞凋亡从而发挥抑癌作用,也可为降解的ECM蛋白入侵癌细胞提供营养和能量,从而促进肿瘤的侵袭、生长[14]。由此预测,GPCR116基因可能参与肺腺癌细胞的自噬过程,其低表达可能促进了肺腺癌的发生、发展。
差异基因的GO功能富集分析与KEGG通路富集分析结果显示,差异基因富集的功能与通路在肺腺癌的发生、发展中起重要作用。GPCR116基因与其中的多个基因发挥交互作用,PPI网络预测的40个功能蛋白中,多种蛋白被证实与肺癌相关,例如:HOPX可诱导非小细胞肺癌细胞衰老、凋亡,发挥抑制肿瘤活性的作用[15-16];SFTPD可抑制EGFR突变型非小细胞肺癌细胞的生长和运动[17];WIF1可通过抑制Wnt/β-连环蛋白信号传导来抑制非小细胞肺癌细胞的增殖并诱导其凋亡[18];CDC45参与DNA复制并维护基因组稳定,CDC45功能缺失会促进肿瘤的发生[19-20]。由此可以预测,GPCR116基因可能通过正向调节HOPX、WIF1、SFTPD来诱导肺腺癌细胞衰老、凋亡,抑制肺腺癌细胞的增殖、黏附和侵袭。
本研究得到10个关键基因(NKX2-1、SFTPB、SFTPC、SCGB1A1、PITX1、FOXM1、MYBL2、CDCA3、TFF1、WIF1),其中SFTPC、SCGB1A1、PITX1、FOXM1、MYBL2、CDCA3、WIF1这7个基因在肺癌中的作用已明确[21-23]。但SFTPB、TFF1、NKX2-1这3个关键基因的作用尚不明确,可能与患者的预后相关,或可作为潜在的治疗靶点。例如,SFTPB可用于肺腺癌的前期筛查和预后评估[24];TFF-1在某些肺癌细胞中过度表达,可驱动肿瘤抑制[25];NKX2-1可通过抑制细胞外调节蛋白激酶的活性来控制肺癌进展[26]。本研究筛选出的关键基因有助于肺癌的诊断与治疗,但其具体的作用还有待进一步研究。
综上所述,GPCR116基因在肺腺癌组织中显著高表达,且其表达量与肺腺癌患者的预后相关,可作为肺腺癌患者预后的预测因素。P53信号通路、错配修复、溶酶体蛋白等通过调控GPCR116基因的表达而在肺腺癌的发生、发展中发挥重要作用。本文筛选出的10个关键基因,或可为揭示肺腺癌的一些潜在致病机制提供参考。