吕 楠,潘 楠,马太原,唐桂艳
(吉林大学第一医院 结直肠肛门外科,吉林 长春130021)
研究发现胃癌是世界上癌症死亡的第二大原因,是我国常见的恶性肿瘤,同样胃癌是世界上发病率和死亡率较高的恶性消化道肿瘤,做到早期诊断早期手术是决定患者预后的重要因素,且胃癌患者的预后严重影响着患者的生存质量,因此寻找新的预后基因对胃癌治疗恢复有重要的意义,胃癌的发生与基因调控、环境因素、饮食习惯等都有很密切关系,且认为基因调控是发病的主要因素,同时胃癌的预后也与很多基因有密切关系,因进展期、术后复发及耐药的患者而言,放化疗效果不佳且毒副作用大,匮乏有效的治疗,所以寻找早胃癌诊断的特异性分子标志物及低毒有效的治疗是一件很迫切的事情[1-8],本研究利用生物信息学方法筛选TCGA数据库中胃癌患者预后恢复的差异表达基因,对DEGs进行GO和KEGG功能富集分析,利用STRING数据库和Cytoscape模块分析确定调控胃癌预后不良的重要调控基因,进一步利用K-M生存分析和GEPIA中进行验证候选DEGs是否参与胃癌预后不良的调控,进一步对候选基因进行功能富集分析,为探讨胃癌预后恢复后相关基因的筛选提供理论依据和新的研究思路。
通过TCGA数据库(https://portal.gdc.cancer.gov/repository)下载胃癌患者的mRNA表达谱数据和临床数据,共包含32例正常组织,375例胃癌组织。并利用R语言(R 3.6.3,https://www.r-project.org/)对数据进行提取和标准化处理。由于TCGA数据库是公开获取资源,因此本研究免于伦理委员会的批准。
DEGs的筛选通过GEO2R[9]在线工具识别,FDR(false discovery rate)表示错误发现率,它是通过Pvalue进行校正得到的,是DEGs筛选的关键指标。在筛选中,选取Pvalue<0.05且|logFC |>=2作为标准(Fold Change表示差异倍数)筛选出DEGs,其中logFC<0的DEGs被认为是下调基因,logFC>0的DEGs被认为是上调基因。Gene ontology(GO)[10]是一种常用的方法定义基因及其RNA或蛋白质产物以识别高通量转录组或基因组数据的独特生物学特性的方法;KEGG[11]是一个涉及基因组、疾病、生物途径、药物和化学材料的数据库。用DAVID[12]对筛选到的DEGs进行GO和代谢通路富集分析。
PPI网络信息可以通过在线工具STRING[13](检索相互作用基因的搜索工具,string-db.org)进行评估。然后,Cytoscape[14]用于检查这些DEG之间的潜在相关性(maximum number of interactors=0,confidence score≥0.4)。此外,Cytoscape中的MCODE应用程序用于检查PPI网络的模块(degree cutoff=2,max Depth=100,k-core=2,and node score cutoff =0.2)。
Kaplan-Meier绘图仪[15]是一个常用的网站工具,基于TCGA数据库用于评估大量基因对生存率的影响,对于候选的核心DEGs进行生存曲线的绘制,对生存率分析都显著差异的基因进行差异表达量的分析,同时应用GEPIA网站[16]对于DEGs的表达数据进行作图分析。
TCGA数据库中的胃癌DEGs被鉴定,共鉴定筛选到1112个上调表达的DEGs,998个下调表达的DEGs。所有2110个DEGs均通过DAVID软件进行功能富集分析;GO分析结果表明(表1),对于生物过程(BP),上调表达的DEGs在胶原蛋白分解代谢过程(collagen catabolic process)、细胞外基质分解(extracellular matrix disassembly)和细胞外基质组织(extracellular matrix organization)中显著富集,下调表达的DEGs在补体激活(complement activation)、受体介导的内吞作用(receptor-mediated endocytosis)和蛋白水解(proteolysis)中显著富集,其中蛋白水解中富集了较多的Down-DEGs(76个),同样受体介导的内吞作用富集了较多的Down-DEGs(52个);对于细胞组分(CC),上调表达的DEGs在细胞外区域(extracellular region)、细胞外间隙(extracellular space)、蛋白质细胞外基质(proteinaceous extracellular matrix)和血液微粒(blood microparticle)中显著富集,其中在细胞外区域和细胞外间隙中富集了较多的Up-DEGs,分别有161和127个Up-DEGs,下调表达的DEGs在细胞外区域、细胞外外泌体(extracellular exosome)、血液微粒(blood microparticle)、质膜(plasma membrane)和细胞外间隙中显著富集,其中细胞外外泌体和质膜中富集了较多的Down-DEGs,分别有211和259个Down-DEGs;对于分子生物功能(MF),上调表达的DEGs在序列特异性DNA结合(sequence-specific DNA binding)、丝氨酸型内肽酶活性(serine-type endopeptidase activity)、胃素结合(heparin binding)、激素活性(hormone activity)、转录激活剂活性(transcriptional activator activity)中显著富集,其中序列特异性DNA结合中富集了较多的Up-DEGs(78个),下调表达的DEGs在抗原结合(antigen binding)、丝氨酸型内肽酶活性(serine-type endopeptidase activity)、免疫球蛋白受体结合(immunoglobulin receptor binding)、结构分子活性(structural molecule activity)和钙离子结合(calcium ion binding)中显著富集,其中丝氨酸型内肽酶活性和抗原结合中富集了较多的Down-DEGs,分别有53和48个Down-DEG。
表1 胃癌中DEGs的GO分析
KEGG分析结果表明(表2)上调表达的DEGs主要富集到补体和凝血级联(Complement and coagulation cascades)、细胞因子-细胞因子-受体相互作用(Cytokine-cytokine receptor interaction)、癌症中的转录失调(Transcriptional misregulation in cancer)、ECM受体相互作用(ECM-receptor interaction)和蛋白质的消化和吸收(Protein digestion and absorption)等14个代谢通路中显著富集,这14个代谢通路中其中细胞因子-细胞因子-受体相互作用、PI3K-Akt信号通路(PI3K-Akt signaling pathway)、癌症中的转录失调、神经活性配体-受体相互作用(Neuroactive ligand-receptor interaction)和趋化因子信号通路(Chemokine signaling pathway)这5个代谢通路中富集了较多的Up-DEGs,分别有19、17、15、15和12个Up-DEGs。下调表达的DEGs主要富集到细胞色素P450对外来生物的代谢(Metabolism of xenobiotics by cytochrome P450)、化学致癌(Chemical carcinogenesis)、脂肪的消化和吸收(Fat digestion and absorption)、药物代谢-细胞色素P450(Drug metabolism-cytochrome P450)和胃酸分泌(Gastric acid secretion)等43个代谢通路中显著富集,这43个代谢通路中其中代谢途径(Metabolic pathways)、神经活性配体-受体相互作用、细胞色素P450对外来生物的代谢、化学致癌和蛋白质的消化这5个代谢通路中富集了较多的Down-DEGs,分别有61、23、22、20和18个Down-DEGs。
表2 胃癌中DEGs的KEGG分析
利用Cytoscape对筛选到的DEGs进行蛋白网络互作分析,形成了胃癌中所有DEGs的蛋白互作图(图1a),共包含43个DEGs;利用Cytoscape中的MCODE应用程序进一步分析表明,共筛选到17个DEGs可以作为胃癌预后不良的重要调控节点(图1b),其中F5、FGG、ALB、HP和SERPIEN1显著上调表达。
(a)所有DEGs共有的PPI网络 (b)通过Cytoscape软件进行模块分析关键DEGs的确定
Kaplan Meier plotter (http://kmplot.com/analysis) 用于鉴定分析17个候选DEGs的存活数据(图2),共筛选到9个DEGs的存活率随着时间的延长明显降低(P<0.05),特别是SERPIEN1与MATN3的存活率极显著相关(P<0.01)。
图2 核心基因的预后信息。Kaplan-meier绘图仪在线工具用于识别患者的预后信息,9个基因的存活率显著降低(P<0.05)
为了进一步确定胃癌和正常样本之间的基因表达水平,通过GEPIA网站分析了这17个候选DEGs的表达水平。与正常标本相比发现其中5个DEGs在胃癌样本中具有显著表达水平(P<0.05),其中SERPINE1、F5和AGT的表达量均显著升高,而FGG和ALB的表达量显著降低(图3)。
图3 候选基因在胃癌和正常组织中的表达
为了了解这17个候选DEGs的可能途径,通过DAVID软件进行KEGG途径富集分析(P<0.05)。结果显示,FGG、SERPINE1和F5显著富集于补体和凝血级联(Complement and coagulation cascades)代谢途径(图4)。
图4 候选DEGs的KEGG通路分析
本研究通过生物信息学方法对TCGA数据库中胃癌患者的mRNA表达谱数据和临床数据进行筛选整合,首先对数据进行提取和标准化处理筛选DEGs进行功能注释分析,结果共筛选到1112个上调表达的DEGs,998个下调表达的DEGs,GO分析发现这些DEGs主要参与胶原蛋白分解代谢过程,丝氨酸型内肽酶活性,胃素结合,激素活性和转录激活剂活性等,下调DEGs在补体激活,受体介导的内吞作用,蛋白水解,抗原结合,免疫球蛋白受体结合和钙离子结合中显著富集;KEGG的分析结果与GO分析结果一致,DEGs主要富集到细胞因子-细胞因子-受体相互作用,癌症中的转录失调,细胞色素P450对外来生物的代谢,化学致癌和蛋白质的消化等代谢途径。进一步通过PPI网络和Cytoscape模块化分析进行胃癌预后关键基因的挖掘,对核心DEGs再进行生存验证分析和GEPIA验证,共确定了17个DEGs可以作为胃癌预后不良的重要调控节点,其中F5、FGG、ALB、HP和SERPIEN1显著上调表达。生存分析验证特别是SERPIEN1与MATN3的存活率极显著相关,GEPIA验证发现其中SERPINE1、F5和AGT的表达量均显著升高,而FGG和ALB的表达量显著降低,最后通过DAVID用于KEGG途径富集,并发现FGG、SERPINE1和F5 3个基因显著富集于补体和凝血级联代谢途径。
Serpin家族E成员1(SERPINE1)也称为纤溶酶原激活物抑制剂1,许多研究已经发现SERPINE1在癌症中的异常表达,例如SERPINE1被发现在结直肠癌中高表达并且与肿瘤侵袭性和侵袭性有关[17],在许多其他癌症中也发现了SERPINE1的过度表达,包括食道癌[18],膀胱癌[19],头颈癌[20],胶质瘤[21]和肺癌[22]等,它可被视为预后不良的生物标志物,本研究验证了这一理论,SERPINE1同样可以被视为胃癌预后不良的生物标记物。
母系蛋白3(Matrilin-3,MATN3)属于Matrilin家族成员之一,主要存在于原代软骨细胞中,能够调节细胞增殖和分化过程,是软骨细胞分化状态的标志物[23],MATN3基因突变可能导致软骨疾病的发生[24],有关MATN3基因在恶性肿瘤的研究也越来越多,其中MATN3基因的表达与骨肉瘤患者预后相关[25],MATN3作为关键基因之一参与了胰腺导管腺癌的细胞粘附过程,并且与钙离子结合相关[26]。本研究同样发现MATN3的高表达可以用作预测胃癌患者预后不良。
纤维蛋白原γ链(Fibrinogen gamma chain,FGG),是组成纤维蛋白原的成分之一。FGG失调也经常在许多恶性肿瘤类型中检测到,如食管鳞状细胞癌[27]和前列腺癌[28],有些研究中发现结直肠癌[29]、胰腺癌[30]和喉癌[31]等也与FGG的表达有关。本研究同样发现FGG的高表达可以用作预测胃癌患者预后不良。
综上,FGG、SERPINE1和F5 3个基因显著富集于补体和凝血级联代谢途径,推测胃癌的预后不良与补体和凝血级联代谢途径密切相关。