宋秀道,马 锦
(1.南京中医药大学苏州附属医院苏州市吴门医派研究院,中国江苏苏州215009;2.苏州大学附属儿童医院药剂科,中国江苏苏州215025)
肝细胞肝癌(liver hepatocellular carcinoma,LIHC)是世界范围内常见的高度恶性肿瘤之一,对人类健康构成严重威胁,具有早期病程隐匿、发病率高、预后差以及术后高复发与高转移等特点[1]。尽管目前包括手术、介入治疗、放疗、化疗和分子靶向治疗等在内的诸多治疗方法已经取得了很大进步,但由于LIHC转移与复发高,其预后仍然较差[2]。学者们致力寻找LIHC发生发展过程中的高度稳定和特异的分子靶点,这对LIHC的早期诊断、靶向治疗以及预后评价具有重要的临床意义。目前,生物信息学在肿瘤研究各方面的应用越来越广泛,采用生物信息学分析可快速挖掘出肝癌组织与正常组织的差异表达基因,获得靶基因表达水平与患者生存预后的关系,为寻找与肝癌发生发展相关的分子靶标提供线索。
微RNA(microRNA,miRNA)是一类长度大约22个核苷酸的小分子非编码RNA,其通过与靶基因的3′端非翻译区的碱基配对,促进靶基因降解或抑制靶基因翻译,从而抑制靶基因表达[3]。miRNA参与细胞分化、增殖、凋亡等生物体内多种调控过程,其功能失调与肿瘤、类风湿性关节炎和心肌纤维化等多种疾病的发生发展有着密切的联系[4]。目前,miRNA已经成为肿瘤治疗领域的一个新亮点,引起了相关研究人员的广泛关注。有研究利用miRNA芯片等最新的高通量技术手段获取癌组织与配对的正常组织中miRNA的差异表达谱,发现其中某些特异miRNA的改变参与肿瘤的发生发展[5]。作为miRNA家族一员,miRNA-195在某些癌症中已被提出可作为肿瘤抑制因子、肿瘤转移抑制因子以及肿瘤治疗的靶标[6~7]。最新研究表明miRNA-195-5p在肝癌组织中的表达明显降低[8],但其发挥作用的分子机制尚不清楚。据此,本研究综合应用数据挖掘和网络分析等生物信息学方法,研究miRNA-195-5p在LIHC组织中的表达及其对患者预后的影响;预测其调控的靶基因,同时对其靶基因进行基因本体论(Gene Ontology,GO)富集、京都基因和基因组途径百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集、蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络分析,筛选出PPI网络中的核心基因,并在公开访问的数据库中进一步验证筛选出的核心基因。这将有助于更深入地研究miRNA-195-5p在LIHC发生发展中的作用,评估miRNA-195-5p在LIHC中的临床意义和诊断价值。
利用miRbase 22数据库(http://www.mirbase.org/)查找各物种已知的成熟miRNA-195-5p序列,比对分析miRNA-195-5p序列在各物种之间的保守性。
癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库包含了40种常见癌症的DNA、RNA和蛋白质的高通量数据及临床信息。利用TCGA数据库在线分析工具bioinfo[9](http://bioinfo.life.hust.edu.cn/miR_path/index.html)获得各种人类癌症和邻近正常组织的miRNA-195-5p表达谱。
Kaplan-Meier plotter数据库[10](http://kmplot.com/analysis/)将 GEO、EGA、TCGA 数据库中肝癌等癌症的mRNA与miRNA的表达和预后数据进行整合。文中利用Kaplan-Meier plotter数据库进行LIHC患者生存分析。
miRWalk 2.0数据库[11](http://zmf.umm.uniheidelberg.de/apps/zmf/mirwalk2/)是一个综合性数据库,不仅提供基因全长序列上潜在的miRNA结合位点,而且可以将预测结果与12个miRNA靶基因预测软件(miRWalk,DIANA-microTv 4.0,miRanda,miRbridge,miRDB,miRMap,miRNAMap,PICTAR,PITA,RNA22,RNAhybrid,Targetscan)的预测信息进行结合关联。此外,miRWalk 2.0数据库还记录了通过自动文本挖掘搜索收集的经过实验验证的miRNA靶基因。文中利用miRWalk 2.0数据库获取hsa-miRNA-195-5p的预测和经实验验证的靶基因,去除重复基因后剩下的基因合并作为hsa-miRNA-195-5p靶基因。
利用DAVID 6.8在线软件[12](https://david.ncifcrf.gov/)对hsa-miRNA-195-5p靶基因进行GO功能富集分析与KEGG通路富集分析。在DAVID软件中选择物种为Homo sapiens,背景也选择Homo sapiens,获得所提交的基因的功能富集结果。FDR<0.01且基因数目≥10代表该预测结果具有统计学意义。
利用STRING数据库[13]分析和Cytoscape软件构建hsa-miRNA-195-5p靶基因PPI网络。将hsa-miRNA-195-5p靶基因的蛋白质名称列表输入到STRING数据库(https://string-db.org/cgi/input.pl),选择物种为human species,蛋白质相互作用评分>0.4且经实验验证,执行PPI网络分析。使用Cytoscape 3.6.1软件绘制PPI网络,节点度≥10的蛋白质编码基因被设定为PPI中的核心基因。
基因表达谱数据动态分析(Gene Expression Profiling Interactive Analysis,GEPIA)数 据 库[14]包括来自TCGA和GTEx的RNA测序表达数据。人类蛋白质图谱(The Human Protein Atlas,HPA)数据库[15]提供24 000种人类蛋白质的组织和细胞分布信息。利用GEPIA在线分析工具(http://gepia.cancer-pku.cn)和HPA数据库(https://www.proteinatlas.org)分别分析miRNA-195-5p靶基因PPI网络中的核心基因在LIHC和正常肝组织中的mRNA与蛋白质表达水平。
通过miRbase在线数据库对miRNA-195-5p进行保守性分析。人类成熟hsa-miRNA-195-5p的序列号为MIMAT0000461,序列为“15-UAGCAGCACAGAAAUAUUGGC-35”,在猕猴、大鼠、大猩猩、倭黑猩猩、牛以及黑猩猩6个哺乳物种之间具有高度保守性,提示hsa-miRNA-195-5p具有潜在的重要生物学功能(表1)。
表1 不同物种中miRNA-195-5p的成熟序列Table 1 The mature sequences of miRNA-195-5p in different species
通过bioinfo在线工具挖掘TCGA数据库中大样本的LIHC miRNA表达谱数据,分析miRNA-195-5p在人体各肿瘤组织及其邻近正常组织中的表达差异。结果显示,与邻近正常组织相比,miRNA-195-5p在肝癌、肺癌、乳腺浸润性癌等人体大多数肿瘤组织中均呈现低表达(图1),提示miRNA-195-5p在肝癌、肺癌、乳腺浸润性癌等大多数肿瘤组织中可能扮演着抑癌基因的角色,并通过其下调表达的方式参与这些肿瘤的发生发展。
对Kaplan-Meier plotter数据库中肝癌患者的总生存时间进行Kaplan-Meier分析,结果显示hsa-miRNA-195低表达的LIHC患者总生存时间低于hsa-miRNA-195高表达的LIHC患者,差异有统计学意义(P=0.011,图2)。
利用miRWalk 2.0数据库(包括12个在线预测软件)对hsa-miRNA-195-5p进行靶基因预测,筛选出至少在8个数据库预测中都存在靶向关系的基因。预测结果显示,去除重复基因后,共有822个共同基因被至少8个预测软件同时预测到。此外,利用miRWalk 2.0软件获取经实验验证的靶基因,去除重复基因后,筛选出605个基因。由图3可见,实验数据支持的靶基因中有209个被预测到了,说明靶基因预测是比较准确的。对hsa-miRNA-195-5p的预测和经验证的靶基因进行整理,取其并集,去除交集基因209个后,共得到1 218个靶基因(图3)。
图1 TCGA数据库中miRNA-195-5p的表达谱Fig.1 Expression profile of miRNA-195-5p from TCGA datasetACC:Adrenocortical carcinoma;BLCA:Bladder urothelial carcinoma;BRCA:Breast invasive carcinoma;CESC:Cervical and endocervical cancers;CHOL:Cholangiocarcinoma;COAD:Colorectal adenocarcinoma;DLBC:Diffuse large B-cell lymphoma;ESCA:Esophageal carcinoma;FPPP:FFPE pilot phaseⅡ;GBM:Glioblastoma multiforme;HNSC:Head and neck squamous cell carcinoma;KICH:Kidney chromophobe;KIRC:Kidney renal clear cell carcinoma;KIRP:Kidney renal papillary cell carcinoma;LAML:Acute myeloid leukemia;LGG:Lower grade glioma;LIHC:Liver hepatocellular carcinoma;LUAD:Lung adenocarcinoma;LUSC:Lung squamous cell carcinoma;MESO:Mesothelioma;OV:Ovarian serous cystadenocarcinoma;PAAD:Pancreatic adenocarcinoma;PCPG:Pheochromocytoma and paraganglioma;PRAD:Prostate adenocarcinoma;READ:Rectum adenocarcinoma;SARC:Sarcoma;SKCM:Skin cutaneous melanoma;STAD:Stomach adenocarcinoma;TGCT:Testicular germ cell tumors;THCA:Thyroid carcinoma;THYM:Thymoma;UCEC:Uterine corpus endometrial carcinoma;UCS:Uterine carcinosarcoma;UVM:Uveal melanoma.
图2 hsa-miRNA-195表达量与LIHC患者预后的Kaplan-Meier总生存分析Fig.2 Kaplan-Meier overall survival analyses for hsamiRNA-195 expression in LIHC patients
图3 hsa-miRNA-195-5p的预测与验证的靶基因数目Venn图Fig.3 Venn diagram of predicted and validated target genes of hsa-miRNA-195-5p
对筛选出的预测和验证的1 218个靶基因进行GO功能富集分析和KEGG信号通路富集分析。GO功能富集分析结果显示:在生物学功能方面,hsa-miRNA-195-5p的靶基因主要富集于蛋白质磷酸化、RNA聚合酶Ⅱ启动子转录的正调节、RNA聚合酶Ⅱ启动子转录的负调节等;在细胞组分方面,hsa-miRNA-195-5p的靶基因主要富集于细胞质、核质以及胞液等;在分子功能方面,hsamiRNA-195-5p的靶基因主要富集于蛋白质的结合功能、泛素蛋白连接酶活性以及ATP结合功能等(表2)。KEGG信号通路富集分析显示,hsa-miRNA-195-5p的靶基因主要富集于调节干细胞多能性的信号通路、癌症通路以及前列腺癌通路(表2)。
应用STRING数据库对hsa-miRNA-195-5p靶基因构建PPI网络图,通过Cytoscape软件将其可视化,利用CytoHubba插件计算PPI网络中每个基因的节点度(degree),筛选PPI网络中核心蛋白质的编码基因(核心基因)。选择节点度≥10作为标准,共选出6个核心基因,分别为POLR2A(degree=19)、MAPK3(degree=12)、MIB1(degree=12)、ASH1L(degree=11)、ACACA(degree=11)以及MAP3K3(degree=10)(图 4)。
表2 hsa-miRNA-195-5p靶基因的GO功能与KEGG信号通路显著性富集分析结果Table 2 Significantly enriched GO terms and KEGG pathways of target genes of hsa-miRNA-195-5p
GEPIA表达分析显示,6个核心基因中,只有MAPK3 mRNA水平在LIHC组织中高于正常肝组织,差异具有统计学意义(P<0.01,图5)。HPA免疫组化分析显示,相比正常肝组织,LIHC组织中MAPK3蛋白的表达水平增加(图6)。Kaplan-Meier分析结果显示,MAPK3 mRNA高表达的LIHC患者总生存时间低于MAPK3 mRNA低表达的LIHC患者组,差异有统计学意义(P<0.001,图7)。
图4 hsa-miRNA-195-5p靶基因PPI网络构建及核心基因PPI网络中核心基因的颜色由黄至红,颜色越深代表该基因在整个PPI网络中所起的作用越大。Fig.4 The PPI network constructed with the target and hub genes of hsa-miRNA-195-5pThese hub genes are shown in the PPI network with a color scheme from yellow(essential)to red(highly essential).
图5 LIHC组织与正常肝组织中MAPK3 mRNA的表达差异LIHC样本有369个,标记为红色;正常样本有160个,标记为灰色;*:P<0.01。Fig.5 Difference of MAPK3 mRNA expression levels between LIHC and normal liver tissuesThere are 369 LIHC samples(marked in red)and 160 normal samples(marked in gray).*:P<0.01.
LIHC的发生和发展被认为是一个涉及多种基因和多种蛋白质相互作用以及多种信号通路相互调节的复杂过程。miRNA是一类高度保守的非编码RNA,通过转录后调控抑制其靶基因表达而广泛参与发育、生理和病理过程,如细胞分化、增殖、凋亡、侵袭和转移[16]。新近证据表明miRNA在LIHC发生和发展中发挥关键作用[17]。miRNA-195-5p是miRNA-15家族的成员之一,因其在多种肿瘤中高度异常表达,近年来越来越受到人们关注。Zheng等[18]报道,miRNA-195可通过靶向染色盒同源物4抑制HepG2细胞增殖。Xu等[19]报道,miRNA-195-5p在肝癌组织中的表达水平明显低于配对的癌旁组织,其可通过靶向PHD锌指蛋白19来抑制肝癌细胞的增殖、迁移和生长,并诱导细胞凋亡。尽管已有上述研究报道了miRNA-195-5p表达下调对肝癌细胞恶性生物学行为的影响,但用于评估miRNA-195-5p在肝癌和配对的正常组织中表达的样本数相对较小,且miRNA-195-5p在肝癌中的调控机制还有待阐明。基于TCGA数据库中的LIHC miRNA-Seq数据,本研究综合荟萃分析了miRNA-195-5p在LIHC组织中的表达。相对于正常肝组织,miRNA-195-5p在LIHC组织中表达降低(图1),这与Shi等[20]的研究相一致。在此基础上,本研究通过Kaplan-Meier生存分析证实,miRNA-195低表达的LIHC患者的总生存时间明显低于miRNA-195高表达的LIHC患者(图2)。这些结果提示miRNA-195-5p在LIHC的发生发展过程中起抑癌基因的作用,且其低表达可能导致LIHC患者不良预后,为进一步深入研究miRNA-195-5p与肝癌之间的关系奠定了基础。
图6 HPA免疫组化分析LIHC组织与正常肝组织中MAPK3蛋白的表达差异Fig.6 Difference of MAPK3 protein expression between LIHC and normal liver tissues analyzed by the HPA database
图7 MAPK3 mRNA表达量与LIHC患者预后的Kaplan-Meier总生存分析Fig.7 Kaplan-Meier overall survival analyses of MAPK3 mRNA expression level and prognosis in LIHC patients
为了进一步分析miRNA-195-5p参与肝癌发生发展的分子机制,本研究利用生物信息学软件构建了hsa-miRNA-195-5p靶基因所编码蛋白质之间的相互作用网络,并探索其在肝癌中的潜在分子功能。因为单个miRNA可以通过靶向多个基因发挥其功能,所以我们将生物信息学预测得到的hsa-miRNA-195-5p靶基因与经实验数据支持的hsa-miRNA-195-5p靶基因进行了整合(图3),这样对hsa-miRNA-195-5p功能的研究会更加全面。通过对1 218个靶基因进行GO功能富集和KEGG信号通路富集分析,产生了大量有用的信息。GO富集分析表明,hsa-miRNA-195-5p可能会通过参与蛋白质磷酸化、RNA聚合酶Ⅱ启动子转录的正调节、RNA聚合酶Ⅱ启动子转录的负调节等生物学过程影响肝癌的发生、发展(表2)。KEGG信号通路富集分析揭示了hsa-miRNA-195-5p参与肝癌发病机制可能涉及多条信号途径(表2),如癌症通路,进一步证明了hsa-miRNA-195-5p与肝癌的相关性。此外,本研究筛选出的6个核心基因(图4)中,仅分裂原活化蛋白激酶基因MAPK3的mRNA(图5)与蛋白质(图6)水平在LIHC组织中均显著增加。Kaplan-Meier生存分析也显示,MAPK3 mRNA高表达LIHC患者的总生存时间明显低于MAPK3 mRNA低表达的LIHC患者(图7)。MAPK3基因编码的蛋白质属于MAP激酶家族,也称为细胞外信号调节激酶(ERK),在MAPK/ERK级联反应中起到重要作用。MAPK/ERK信号通路通过调节转录、翻译以及细胞骨架重排介导多种生物学功能,例如增殖、分化和细胞周期进程,在肝癌发生中起到至关重要的作用[21]。已有文献报道,抑制MAPK/ERK信号通路是索拉非尼(Sorafenib)抗肝癌的重要机制之一[22]。理论上,miRNA-195-5p与MAPK3的3′-UTR存在结合关系(表3),MAPK3有可能是miRNA-195-5p在肝癌中的直接靶基因,但仍有待进一步实验证实。因此,我们推测miRNA-195-5p在肿瘤发生发展中的作用可能与其对PPI网络中的核心蛋白质MAPK3的调控有关。
本研究首次通过生物信息学挖掘了miRNA-195-5p在LIHC中的表达情况以及对预后的影响,并构建了miRNA-195-5p的靶基因调控网络。这些生物信息学结果为miRNA-195-5p作为LI-HC新的诊断指标和治疗的潜在靶点提供了依据,也为今后研究miRNA-195-5p在肝癌发生发展中的作用提供了潜在的作用机制以及进一步的研究思路。
表3 MAPK3基因3′-UTR与hsa-miRNA-195-5p的结合位点预测Table 3 The 3′-UTR sequences of MAPK3 targeted by hsa-miRNA-195-5p