陈林波,李先鹏,姜昊,曾丽丽,郑静蕾,许丰
(宁波市鄞州人民医院,浙江 宁波 315040,1.消化内科;2.感染科;3.内镜中心)
原发性肝癌是一种消化系统常见的恶性肿瘤,我国每年因肝癌死亡的人数在所有恶性肿瘤中位居第三[1]。虽然近年来肝癌的治疗方式发展迅速,但患者5年生存率仍不容乐观,全世界范围内每年约有75万人因肝癌死亡[2]。近年来基因芯片技术的快速发展在研究肿瘤基因表达谱和寻找肿瘤关键基因中发挥重要作用[3]。本研究从GEO(Gene Expression Omnibus)数据库下载包含正常癌旁组织、肝硬化组织、肝癌组织的基因芯片(GSE45050),利用生物信息学技术筛选出肝癌相关差异表达基因,之后进行功能富集分析并构建蛋白-蛋白相互作用(protein-protein interaction,PPI)网络,进一步筛选出关键基因并进行验证,为阐明肝癌的发病机制提供重要理论依据。
1.1 芯片数据来源 本研究从GEO(https∶//www.ncbi.nlm.nih.gov/geo/)数据库下载基因芯片数据集GSE45050,芯片总共包含16例样本,其中3例正常癌旁组织,2例脂肪肝组织,5例肝硬化组织和6例肝细胞肝癌组织,其芯片平台是GPL6244[HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array[transcript (gene) version]。
1.2 DEGs筛选 用R语言软件读取下载矩阵文件,使用limma包[4]对正常癌旁组织和肝癌组织、肝硬化组织和肝癌组织进行分析,分别得到各自差异表达基因(differentially expressed genes,DEGs)。DEGs筛选标准:log2基因表达差异倍数(foldchange,FC)绝对值≥1,adjust P<0.05。
1.3 DEGs的GO和KEGG分析 通过DAVID(the Database for Annotation,Visualization and Integrated Discovery,https∶//david.ncifcrf.gov/)数据库[5]对DEGs行基因本体论(Gene Ontology,GO)和KEGG(Kyoto Encyclopedia of Genes and Genomes)信号通路分析,得到DEGs的生物学过程分析结果和KEGG信号通路分析结果,P<0.05为差异有统计学意义。
1.4 DEGs的PPI网络构建和关键基因筛选验证 通过在线分析网站STRING(Search Tool for the Rtrieval of Interacting Genes,https∶//string-db.org/)[6]得到DEGs的PPI网络,筛选条件为combined score>0.4,之后进一步用Cytoscape[7]筛选出PPI网络中处于关键位置的前10个基因,并在GEPIA(Gene Expression Profiling Interactive Analysis,http∶//gepia.cancerpku.cn/)[8]数据库行大样本验证,筛选出肝癌中可能发挥关键作用的基因。
2.1 筛选DEGs 将正常癌旁组织和肝癌组织比较后,总共筛选出350个DEGs(用DEGs1表示),其中在肝癌组织中上调的有106个,肝癌组织中下调的有244个。肝硬化组织和肝癌组织比较后共得到223个DEGs(用DEGs2表示),其中肝癌组织中上调55个,下调168个。分别对DEGs1和DEGs2进行聚类分析,其结果分别如图1A和图1B所示。
图1 肝癌DEGs分析
2.2 DEGs的GO和KEGG分析结果 将DEGs1和DEGs2取交集后得到共同DEGs(见图2),对共同DEGs行GO分析,结果显示其生物学过程(biological process,BP)主要和端粒合成、DNA复制、基因表达调控等密切相关(见图3A),KEGG分析结果显示共同DEGs涉及信号通路主要为矿物质吸收、系统性红斑狼疮、肿瘤细胞碳代谢等过程(见图3B)。
图2 筛选共同DEGs
图3 DEGs的功能注释
2.3 DEGs的PPI网络分析结果 将共同DEGs导入STRING和Cytoscape进行分析后得到PPI网络,该网络由36个节点蛋白和139条相互作用关系构成,最终筛选出处于关键位置的10个基因(见图4),分别是DNA拓扑异构酶IIα(DNA topoisomerase II alpha,TOP2A)、着丝粒蛋白F(centromere protein F,CENPF)、异常纺锤体微管装配(abnormal spindle microtubule assembly,ASPM)、NIMA相关蛋白激酶2(NIMA related kinase 2,NEK2)、细胞周期蛋白A2(cyclin A2,CCNA2)、细胞质分裂调控蛋白1(protein regulator of cytokinesis 1,PRC1)、母系胚胎亮氨酸拉链蛋白激酶(maternal embryonic leucine zipper kinase,MELK)、细胞周期蛋白B2(cyclin B2,CCNB2)、RacGTP酶激活蛋白1(Rac GTPase activating protein 1,RACGAP1)、核仁纺锤体相关蛋白1(nucleolar and spindle associated protein 1,NUSAP1)。
图4 DEGs的PPI网络构建和关键基因筛选(关键基因用红色、橙色、黄色标
2.4 10个共同DEGs筛选并验证 用GEPIA数据库进一步验证10个关键基因在肝癌中的表达情况,发现10个关键基因均在肝癌组织中高表达,生存分析结果显示它们的高表达均和患者不良预后密切相关。其中ASPM、NUSAP1、RACGAP1与肝癌相关的报道相对较少,对三者验证结果进行展示,ASPM、NUSAP1和RACGAP1在肝癌组织中mRNA表达水平明显升高,其结果如图5所示,图6结果显示三者高表达均与肝癌患者不良预后有关。
图5 肝癌组织关键基因表达情况验证结果
图6 肝癌患者生存分析验证结果
肝癌的发生发展是一个多分子、多步骤、多因素的动态生物学过程,目前人们对其发生机制的了解依然十分有限。典型的肝癌会经历肝炎-肝硬化-肝癌这样一个演进过程,在这过程中会不断出现基因突变和表观遗传学改变,这些改变进一步导致细胞生物学功能异常,最终引起细胞癌变。以往的研究大多局限在单个基因对肿瘤的影响,但在细胞癌变过程中往往涉及多个基因的改变,并且这些基因之间能够相互作用,通过调控网络发挥作用[9],因此在多基因水平研究癌症基因表达谱有助于我们更好地探索发病机制。基因芯片作为新一代高通量检测技术,可以同时检测上万个基因的表达水平,是一种研究基因组和基因间相互作用的强有力工具。
本研究首先比较正常癌旁组织和肝癌组织中的基因表达情况,共筛选出350个DEGs。之后又对肝硬化组织和肝癌组织进行比较,共发现223个DEGs。为了更好地了解那些在肝癌发生中始终处于表达异常状态的基因,我们将2组DEGs取交集,得到154个共同DEGs。基因突变常导致细胞功能改变,对154个DEGs行功能富集分析发现主要涉及细胞端粒合成、DNA复制、基因表达调控,而信号通路分析显示它们参与矿物质吸收、系统性红斑狼疮、肿瘤细胞碳代谢等过程。之后我们利用STRING和Cytoscape构建DEGs的PPI网络,进而筛选出最关键的10个基因,分别是TOP2A、CENPF、ASPM、NEK2、CCNA2、PRC1、MELK、CCNB2、RACGAP1、NUSAP1。
查阅文献后我们发现这10个关键基因编码的蛋白质大部分参与细胞周期进展,也有部分属于蛋白激酶,通过影响蛋白质修饰发挥作用。比如CCNA2和CCNB2是比较著名的细胞周期蛋白,两者在细胞周期进展中必不可少,本研究结果显示两者均在肝癌组织中高表达,并且高表达的患者总体生存率更低,这和目前已有的报道[10-11]结果相似。TOP2A的主要功能是在DNA复制和转录过程中维持染色体拓扑状态,通过催化DNA双链断裂和重连,控制细胞周期进展[12],目前在人类多种癌症中的作用已经被研究得较为透彻,比如胃癌、结直肠癌、前列腺癌、肝癌、乳腺癌等,也因此被广泛用于癌症治疗[13]。作为着丝粒蛋白家族成员之一,CENPF最主要的功能就是调控细胞分裂。目前的研究表明CENPF是一个明确的癌基因。在肝癌方面,已经有学者发现CENPF有成为肝癌早期诊断标志物的潜能,和甲胎蛋白(alpha fetoprotein,AFP)联合更是能显著提高肝癌诊断率[14]。另外,ASPM、PRC1、NUSAP1也均和细胞分裂密切相关,其中PRC1在肝癌中相关研究较多,促癌功能也较为明确[15],但ASPM和NUSAP1的研究相对较少,目前的报道认为两者在肝癌中表达水平明显升高并且和患者不良预后有关[16-17],这和我们的分析结果相符,此外ASPM还被认为与肝硬化进展为肝癌密切相关[18],这更加说明其在肝正常组织-肝硬化-肝癌这一过程中的关键作用。MELK和NEK2虽然属于蛋白激酶家族,但两者最终也是通过影响细胞周期发挥作用。MELK最初一直被认为是包括肝癌在内的癌细胞所必须的一种蛋白质[19],但利用CRISPR/Cas9基因编辑系统敲除MELK基因后发现并未对癌细胞产生任何影响[20]。NEK2在肝癌中也存在研究结果相反的报道[21-22],促癌或是抑癌,仍需要进一步研究去阐明,而我们的研究结果更支持NEK2和MELK是癌基因。RACGAP1属于GTP酶激活蛋白家族,目前认为其在肿瘤中广泛高表达并且发挥促癌作用,但和肝癌相关的报道极少,仅有WANG等[23]研究发现RACGAP1在肝癌组织中表达明显升高,并且肿瘤患者中那些具有高复发风险的患者表达水平更高,这预示其具有成为肝癌预后判断标志物的可能,但目前缺少功能和机制研究。
本研究共筛选出10个肝癌相关关键基因,有的目前被研究得较为透彻,比如TOP2A已经用于癌症临床治疗;有的基因正在从实验室走向临床,比如CENPF和PRC1表现出可用于肝癌诊断和治疗的潜能;也有一些基因目前所了解的仍十分有限,例如ASPM、NUSAP1、RACGAP1仍需要更多实验去深入探索。总而言之,对这些关键基因的研究将使我们在肝癌早期诊治上拥有更多的选择。