隋英丽 卢坤 傅琳
摘要:肝细胞癌是一种高死亡率的原发性肝癌,其有限治疗和较低的化疗敏感性,使得迫切需要寻找潜在的临床治疗靶点和预后判断的生物标志物.为此,采用生物信息学方法对肝细胞癌发生发展的关键基因进行挖掘.从基因表达数据库(GEO)中下载数据集,并筛选差异表达基因,使用在线数据库DAVID68对筛选到的DEGs进行基因本体(GO)富集分析和京都基因与基因百科全书(KEGG)通路分析,使用在线数据库STRING构建蛋白质-蛋白质相互作用网络(PPI),利用Cytoscape软件筛选核心DEGs,并进行GO和KEGG富集分析,使用UALCAN和KaplanGMeierplotter在线数据库筛选并验证关键基因的表达以及生存预后.研究结果表明,筛选出6个关键基因RAD51AP1、FANCI、SMC2、POLE2、CENPN、WDHD1,与HCC的发生发展以及生存预后显著相关,可能是HCC的潜在治疗靶点,可能为HCC的内在机制的探究提供理论依据.
关键词:生物信息学;差异表达基因;蛋白质-蛋白质相互作用网络;肝细胞癌;富集分析
中图分类号:R735.7文献标志码:A
近年来,生物信息学分析结合基因芯片技术已经广泛应用于基因相关肿瘤的研究当中.基因芯片可以高通量地完成基因筛选与分析,在医学研究领域占据重要位置.肝细胞癌(HepatocellularCarcinoma,HCC)是全球最常见的癌症之一[1],分为原发性和继发性两大类,是与癌症相关死亡的第二大主要原因,也是世界范围内的主要公共卫生问题[2],近年来发病率仍然呈现不断上升趋势.HCC的发生发展是涉及多种因素的复杂过程,其主要危险因素与丙型肝炎后的持续病毒学反应、治疗期间抑制的乙型肝炎病毒以及酒精性和非酒精性脂肪性肝病相关[3].早期肝细胞癌症状无特异性,且缺乏客观的诊断标准[4],中晚期肝癌的症状则较多,但是当HCC患者诊断时,大多已经发展成中晚期等治疗困难的阶段,肝癌的有限治疗和较低的化疗敏感性[5],使得迫切需要寻找潜在的临床治疗靶点以及早期诊断和预后判断的生物标志物.本研究基于生物信息学方法,从基因表达数据库(GeneExpressionOmnibus,GEO)中下载了大量的HCC芯片数据,包含HCC癌组织和癌旁正常组织,运用生物信息学方法筛选差异表达基因(DifferentiallyExpressedGenes,DEGs),对DEGs进行基因本体GeneDntology,GO)富集分析和KEGG(KyotoEncyclopediaofGenesandGenomes)通路分析,构建蛋白质—蛋白质相互作用网络(ProteinGProteinInteractionnetwork,PPI)筛选出6个HCC发生发展相关的关键基因,并进一步对这些关键基因进行了表达和生存分析的验证,在多个在线数据库中进行了全面系统的分析.本研究可能为HCC寻找潜在的临床治疗靶点、探究HCC发生发展的内在机制提供理论基础.
1材料与方法
1.1数据来源
从GEO数据库(http://www.ncbi.nlm.nih.gov/GEO/)检索并下载HCC相关数据集GSE60502[6]和GSE84402[7].其中GSE60502数据集对应的检测平台GPL96,GSE84402数据集对应的检测平台名称为GPL570.选择每个数据集中的HCC样本数据及其匹配的正常样本数据进行分析.其中GSE60502数据集包含肿瘤样本18个和正常样本18个,GSE84402数据集包含肿瘤样本14个和正常样本14个.
1.2數据的处理
利用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)在线分析,导出结果并汇总,初步筛选后,删除没有基因名称或探针以及同一个基因名称对应多个基因探针的重复数据.最后对筛选的DEGs进行火山图形式的可视化分析.
1.3数据的筛选
对数据再次筛选,筛选标准:P<001,差异倍数logFC>1或logFC<-1.将2个数据集中的上调基因或下调基因分别导入在线网站Bioinformatics&EvolutionaryGenomic(http://bioinformaticspsb.ugent.be/webtools/Venn/)中,取2个数据集中上调基因或下调基因的交集.
1.4GO分析和KEGG富集分析
利用DAVID6.8在线数据库[8](https://david.ncifcrf.gov/)分析组学和相关数据[9].GO用于分析大量注释基因的生物学过程,分为生物学过程(BiologicalProcess,BP)、分子功能(MolecularFunction,MF)以及细胞组成(CellularComponent,CC).KEGG分析数据库是系统分析基因产物在细胞中的代谢途径以
p及这些基因产物功能的数据库,在分子和更高水平上为基因和基因组分配功能性含义[10].将2个数据集中上调基因或下调基因的交集导入DAVID68中,将结果导出至Excel表格中进行筛选,筛选标准:P<001,count≥5,将筛选后的结果导入在线工具imageGP(http://www.ehbio.com/ImageGP/index.php/
Home/Index/index.html)中,可视化分析,P<005被认为有统计学意义.
1.5PPI网络的构建及关键基因的筛选
STRING数据库旨在通过合并大量生物体的已知和预测的蛋白质———蛋白质关联数据来收集和整合信息[11],其目标是建立一个全面,客观的全球网络,包括直接(物理)和间接(功能)交互[12].使用STRING数据库(http://stringGdb.org)分析蛋白质之间的相互作用关系,将上调基因和下调基因DEGs全部导入
STRING数据库,认为置信度≥04为PPI显著.分析结果导入Cytoscape3.6.1软件中进行可视化分析[13].利用cytoHubba插件并选择degree[14]算法,从PPI网络中筛选核心基因,选择degree≥85的79个DEGs作为核心基因.
1.6关键基因的表达与生存预后分析
使用在线工具UALCAN[15](http://UALCAN.path.uab.edu)分析并验证核心DEGs的表达,及KapGlanGMeierplotter(http://kmplot.com/analysis/)在线数据库分析核心DEGs的生存预后.筛选出表达与生存预后相符合的关键基因,利用在线工具UALCAN分析关键基因的表达与HCC不同肿瘤分期关系.参数设置为默认,P<005被认为有统计学意义.
2结果
2.1DEGs的筛选
从GSE60502数据集和GSE84402数据集(表1,HCC:肝细胞癌;GEO:基因表达数据库)中分别获取21156和22188个基因,结果通过火山图展示(图1(a)),其中,红色代表上调表达基因,绿色代表下调表达基因,黑色代表数据集中差异基因的表达水平不显著的基因).通过Bioinformatics&EvolutionaryGenomics在线网站对GSE60502数据集和GSE84402数据集的上调基因和下调基因分别取交集,获得这2个数据集中相同的DEGs.通过Venn图可视化分析,发现这2个数据集的DEGs共同具有上调基因340个(logFC>1,P<001)和下调基因469个(logFC<-1,P<001)(图1(b)).
2.2DEGs的GO分析和KEGG富集分析
生物過程中,上调的DEGs主要参与DNA复制起始、以DNA为模板的转录负调控、基于微管的运动、细胞增殖以及细胞分裂过程的调控;下调的DEGs参与氧化还原过程、炎症反应、凝血、蛋白水解以及免疫反应的调节(图2(a)).在细胞成分上,上调的DEGs主要参与构成细胞质、细胞核、核膜、核仁以及核浆的组成成分;下调的DEGs则主要参与构成外泌体、线粒体等细胞外区域(图2(b)).在分子功能上,上调的DEGs一般具有ATP结合能力、ATP依赖性微管运动活性、单链DNA结合能力以及DNA复制的起点结合能力;下调的DEGs一般具有钙离子结合能力,铁离子结合能力,血红素结合能力,丝氨酸型内肽酶活性以
及与受体结合的能力(图2(c)).在KEGG途径上,上调的DEGs多数参与细胞周期、DNA复制、卵母细胞减数分裂以及p53信号通路;下调的DEGs主要参与代谢途径、抗生素的生物合成、补体和凝血级联、碳代谢以及甾体激素的生物合成信号通路(图2(d)).
2.3PPI网络的构建及核心基因的筛选
为了进一步筛选核心的DEGs,使用STRING在线数据库分析得到2个数据集的340个上调基因和469个下调基因的蛋白调控网络.通过Cytoscape软件中的cytoHubba插件进一步筛选出79个核心基因(degree>85)(图3(a),表2),且均为上调基因.接下来对这79个核心DGEs进行GO分析和KEGG富集
分析,在生物学过程中,核心DEGs主要参与DNA复制起始染色体分离以及有丝分裂染色质浓缩过程(图3(b)).在细胞成分上,核心DEGs主要构成细胞质、细胞核以及细胞膜的组成成分(图3(c)).在分子功能上,核心DEGs一般具有ATP结合的能力.在KEGG途径上,核心DEGs主要参与细胞周期、DNA复制以及卵母细胞减数分裂途径(图3(d)).
2.4关键基因的表达、生存预后以及与不同肿瘤分期的关系
使用UALCAN以及KaplanMeierGplotter网站进行表达和生存预后分析,筛选到6个高表达的基因(图4,∗P<0.05,∗∗P<0.01,∗∗∗P<0.001),且在HCC中有显著预后差异(图5),分别为:
RAD51AP1(r=1.88,P<0.05)、FANCI(r=1.98,P<0.05)、SMC2(r=1.67,P<0.05)、POLE2(r=1.6,P
<0.05)、CENPN(r=1.69,P<0.05)、WDHD1(r=1.78,P<0.05),这些上调基因的预后生存分析结果表明,高表达的关键基因会显著降低HCC患者的生存率,且与不同肿瘤分期(正常,一级,二级,三级和四级)Grade1G3呈现正相关趋势(图6,∗P<0.05,∗∗P<0.01,∗∗∗P<0.001)).
3讨论
随着大数据时代正式到来,产生了大量的共享生物数据,大数据应用的关键在于挖掘其中的重要信息并进行分析解释[16].HCC是常见的恶性肿瘤,通常在慢性肝病的背景下出现.手术切除和移植是早期肝细胞癌治疗的基础[17].不幸的是,肝癌患者通常被诊断为晚期[18],采用现代治疗方法,晚期肝细胞癌患者治疗选择很少,并且预后很差,中位生存率低,HCC的全球负担正在增加,可能会超过每年100万例的发病率[19],因此,HCC潜在治疗靶点的探究显得格外重要.
本研究使用生物信息学的方法,对2个GEO数据集进行分析,筛选出HCC中癌组织和癌旁正常组织中的809个DEGs,包括340个上调DEGs,469个下调DEGs;GO和KEGG富集分析显示,上调的DEGs主要作为细胞质的组成成分,与ATP结合和DNA复制过程有关,参与细胞周期的调控;下调的DEGs是细胞
外泌体的主要组成成分,与钙离子结合和氧化还原过程有关,参与细胞代谢的调控.提示HCC的发生发展以及早期诊断和预后生存可能与调控细胞周期和DNA复制的DEGs有关.通过PPI网络分析、表达分析以及预后生存分析进一步筛选出了与HCC进展高度相关的6个新的关键基因,分别为RAD51AP1、FANGCI、SMC2、POLE2、CENPN、WDHD1.RAD51AP1是端粒选择性延长的重要介质[20],端粒延长与DNA复制和细胞周期密切相关[21G22],端粒的伸长受到细胞周期的调节,并在S期与DNA复制相关[23].有报道表明,RAD51AP1是神经胶质瘤中的促癌基因[24],沉默RAD51AP1可抑制非小细胞肺癌上皮—间质转化和转移[25].FANCI是Akt激活的负调节剂[26],在核糖体生物发生中也起作用[27].SMC2是膀胱癌的癌基因[28],POLE2可以参与调控肺腺癌[29].CENPN是着丝粒蛋白家族的重要成员,对于动粒组装和染色体分离至关重要,通过调控细胞周期调控口腔癌,CENPN还参与人间期细胞核质复合体的形成,WDHD1参与调控肺腺癌,并与胆管癌的上皮—间质转化,肿瘤生长和转移相关[30].这6个基因多数在不同肿瘤中作为癌基因发挥作用,调控细胞周期和DNA复制过程,与本研究的生物信息学分析的结果一致.
4结论
本研究通过运用生物信息学方法对2个GEO数据集GSE60502和GSE84402进行全面系统分析,最终筛选出6个新的可能与HCC密切相关的关键基因RAD51AP1、FANCI、SMC2、POLE2、CENPN、WDHD1,这些基因可能是HCC潜在的治疗靶点,有望为HCC的内在机制的探究提供理论依据.随着大数据共享以及生物信息学技术的不断进步,生物信息学在基因芯片研究的基础上,能全面系统地为疾病的研究提供更可靠的理论基础.
参考文献
[1]STEFANODEF,CHACONE,TURCIOSL,etal.Novelbiomarkersinhepatocellularcarcinoma[J].DigLiverDis,2018;50(11):1115G1123.
[2]JIANGHY,CHENJ,XIACC,etal.Noninvasiveimagingofhepatocellularcarcinoma:Fromdiagnosistoprognosis[J].WorldJGastroGenterol,2018;24(22):2348G2362.
[3]KULIKL,ELGSERAGHB.Epidemiologyandmanagementofhepatocellularcarcinoma[J].Gastroenterology,2019;156(2):477G491.e471.
[4]李海强,赵希梅,魏宾,等.基于多特征融合和ELM的肝病多分类识别[J].青岛大学学报(自然科学版),2018;31(4):42G48.
[5]LIUFF,LIUYN,CHENZ.TimG3expressionanditsroleinhepatocellularcarcinoma[J].JournalofHematologyOncology,2018,11(1):126.doi:10.1186/s13045G018G0667G4.
[6]WANGYH,CHENGTY,CHENTY,etal.Plasmalemmalvesicleassociatedprotein(PLVAP)asatherapeutictargetfortreatmentofhepatocellularcarcinoma[J].BMCCancer,2014,14:815.doi:10.1186/1471G2407G14G815
[7]WANGH,HUOX,YANGXR,etal.STAT3GmediatedupregulationoflncRNAHOXDGAS1asaceRNAfacilitateslivercancermetastaGsisbyregulatingSOX4[J].MolCancer,2017,16(1):136.doi:10.1186/s12943G017G0680G1
[8]DENNISJRG,SHERMANBT,HOSACKDA,etal.DAVID:Databaseforannotation,visualization,andintegrateddiscovery[J].GeGnomeBiol,2003,4(9):R60.
[9]KANEHISAM,FURUMICHIM,TANABEM,etal.Expansionofthegeneontologyknowledgebaseandresources[J].NucleicAcidsRes,2017,45(D1):D331GD338.
[10]KANEHISAM,FURUMICHIM,TANABEM,etal.KEGG:Newperspectivesongenomes,pathways,diseasesanddrugs[J].NucleicAcidsRes,2017,45(D1):D353GD361.
[11]SZKLARCZYKD,MORRISJH,COOKH,etal.TheSTRINGdatabasein2017:QualityGcontrolledproteinGproteinassociationnetGworks,madebroadlyaccessible[J].NucleicAcidsRes,2017,45(D1):D362GD368.
[12]SZKLARCZYKD,GABLEAL,LYOND,etal.STRINGv11:proteinGproteinassociationnetworkswithincreasedcoverage,supportingfunctionaldiscoveryingenomeGwideexperimentaldatasets[J].NucleicAcidsRes,2019,47(D1):D607GD613.
[13]DONCHEVANT,MORRISJH,GORODKINJ,etal.CytoscapestringApp:Networkanalysisandvisualizationofproteomicsdata[J].JProteomeRes,2019,18(2):623G632.
[16]易曙光,孟昕,李詠沙.基于大数据的档案管理及挑战[J].青岛大学学报(自然科学版),2019;32(3):44G48.
[17]GRANDHIMS,KIMAK,RONNEKLEIVGKELLYSM,etal.Hepatocellularcarcinoma:Fromdiagnosistotreatment[J].SurgOnGcol,2016,25(2):74G85.
[18]OGUNWOBIOO,HARRICHARRANT,HUAMANJ,etal.Mechanismsofhepatocellularcarcinomaprogression[J].WorldJGastroGenterol,2019,25(19):2279G2293.
[19]LLOVETJM,MONTALR,SIAD,etal.Moleculartherapiesandprecisionmedicineforhepatocellularcarcinoma[J].NatRevClinOnGcol,2018,15(10):599G616.
[20]BARROSOGGONZLEZJ,GARCAGEXPSITOL,HOANGSM,etal.RAD51AP1isanessentialmediatorofalternativelengtheningoftelomeres[J].MolCell,2019,76(1):11G26.e17.
[21]HASEGAWAY,YAMAMOTOM,MIYAMORIJ,etal.TelomereDNAlengthGdependentregulationofDNAreplicationtimingatinGternallatereplicationorigins[J].SciRep,2019,9(1):9946.
[22]POOLELA,ZHAOR,GLICKGG,etal.SMARCAL1maintainstelomereintegrityduringDNAreplication[J].ProcNatlAcadSciUSA,2015,112(48):14864G14869.
[23]LIS.CellGcycleGdependenttelomereelongationbytelomeraseinbuddingyeast[J].BiosciRep,2011,31(3):169G177.
[24]WANGQ,TANY,FANGC,etal.SingleGcellRNAGseqrevealsRAD51AP1asapotentmediatorofEGFRvIIIinhumanglioblastomas[J].Aging(AlbanyNY),2019,11(18):7707G7722.
[25]WUY,WANGH,QIAOL,etal.SilencingofRAD51AP1suppressesepithelialGmesenchymaltransitionandmetastasisinnonGsmallcelllungcancer[J].ThoracCancer,2019,10(9):1748G1763.
[26]ZHANGX,LUX,AKHTERS,etal.FANCIisanegativeregulatorofAktactivation[J].CellCycle,2016,15(8):1134G1143.[27]SONDALLESB,LONGERICHS,OGAWALM,etal.FanconianemiaproteinFANCIfunctionsinribosomebiogenesis[J].ProcNatlAcadSciUSA,2019,116(7):2561G2570.
[28]HANYH,WANY,XIONGH,etal.Structuralmaintenanceofchromosomes2isidentifiedasanoncogeneinbladdercancerinvitroandinvivo[J].Neoplasma,2020,67(2):364G370.
[29]LIJ,WANGJ,YUJ,etal.KnockdownofPOLE2expressionsuppresseslungadenocarcinomacellmalignantphenotypesinvitro[J].OnGcolRep,2018,40(5):2477G2486.
[30]LIUB,HUY,QINL,etal.MicroRNAG494GdependentWDHDIinhibitionsuppressesepithelialGesenchymaltransition,tumorgrowthandmetastasisincholangiocarcinoma[J].DigLiverDis,2019,51(3):397G411.BioinformaticsAnalysisofKeyGenesinHepatocellularCarcinoma
SUIYingGli,LUKun,FULin
(InstituteofChronicDiseases,SchoolofBasicMedicine,DepartmentofMedicine,
QingdaoUniversity,Qingdao266071,China)
Abstract:HepatocellularCarcinoma(HCC)isaprimaryhepatocellularcarcinomawithhighmortality.Duetoitslimitedtreatmentandlowchemotherapeuticsensitivity,itisurgenttofindpotentialclinicaltheraGpeutictargetsandbiomarkersforprognosis.Therefore,bioinformaticsmethodwasusedtominethekeygenesintheoccurrenceanddevelopmentofHCC.DatasetsweredownloadedfromGeneExpressionOmniGbus(GEO)andDifferentiallyExpressedGenes(DEGs)werescreened.OnlinedatabaseDAVID6.8wasusedforGeneOntology(GO)enrichmentanalysisandKEGGpathwayanalysis.OnlinedatabaseSTRINGwasusedtoconstructProteinGProteinInteractionnetwork(PPI),CytoscapsoftwarewasusedtoscreencoreDEGs,andGOandKEGGenrichmentanalysiswasperformed,UALCANandKaplanGMeierplotter
onlinedatabaseswereusedtoscreenandverifytheexpressionofkeygenesandsurvivalprognosis.ThereGsultsshowedthatsixkeygenesRAD51AP1、FANCI、SMC2、POLE2、CENPN、WDHD1werescreenedout,whichweresignificantlyrelatedtotheoccurrence,developmentandsurvivalprognosisofHCC.TheymaybepotentialtherapeutictargetsforHCCandprovidetheoreticalbasisfortheexplorationoftheinternalmechanismofHCC.
Keywords:bioinformatics;differentiallyexpressedgenes;proteinGproteininteractionnetwork;hepatocelGlularcarcinoma;enrichmentanalysi