王庆高,何亚州,李丽娟,黄彩依,黄景伟,梁 珊
microRNA(miRNA)是一种小型的非编码区RNA,具有极强的生物活性,目前认为其能特异性地与mRNA结合从而影响转录后基因表达水平[1]。从miRNA被发现至今,人类对其的探索已有十余年,足够多的证据表明miRNA广泛地参与到细胞增殖、凋亡、器官的形成与发育等生理过程及肿瘤生长、靶器官损害等病理过程[2-3],miRNA的发现给人类对疾病的诊断及治疗提供了新的方法。但尽管经过多年的研究,仍有大量miRNA的功能尚未被挖掘,相关的作用机制也未得到彻底的阐明,故miRNA仍是一个值得深入探究的巨大宝库。本研究基于GEO(Gene Expression Omnibus)数据库,通过筛选在CHF中差异表达的miRNA,利用生物信息学方法预测其靶基因并结合Gene Ontology(GO)及KEGG通路分析,探讨差异表达的miRNA在CHF中生物信息学价值,为日后研究miRNA调控CHF的机制提供前期基础。
1.1 资料 GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)是目前面向社会公开的、最大的高通量分子丰度数据库,其储存了大量的基因表达数据。通过该数据库用户可以检索、上传或是下载高通量基因表达的实验研究数据,并通过数据分析找到某个领域内差异表达的基因。
R语言是一种免费、开源的工作语言,通过加载种类繁多的软件包赋予了R强大的数据统计及数据分析功能。Bioconductor的Limma为目前主流的基因分析软件包,利用该软件包可对基因数据进行标准化、背景矫正、差异基因筛选等处理,为后续分析奠定了坚实的基础。
Targetscan(www.targetscan.org/)、miRPathDB(https://mpd.bioinf.uni-sb.de/overview.html)数据库,提供来自人类、大鼠、小鼠miRNA 的预测信息和经过验证的位于其靶基因上的结合位点,在数据库中直接检索miRNA名称后在结果页面即可得到预测结果。
Cytoscape是一个可以将基因高通量表达数据及其分子相互作用整合成一个可视化网络结构的开源多功能图形可视化软件,通过现有的基因表达信息可直观地观察生物分子间的关联性。BinGO(Biological Networks Gene Ontology tool)为CytoScape的功能插件,其可让宿主软件链接至GO数据库,实现GO注释及富集分析,并构建层次网络图。
David(http://david.abcc.ncifcrf.gov/)数据库是一个综合性数据库,包含了生物学数据及其分析工具,并为基因或蛋白提供了系统的生物功能注释。通过将基因列表或基因序号上传后在数据库中可实现靶基因的功能富集、通路富集。
1.2 方法
1.2.1 筛选差异表达miRNA 进入GEO数据库将检索平台的主要对象设定为miRNA芯片。检索与CHF相关的数据集,查看相关数据集的介绍,以miRNA在CHF病人及健康对照组中的表达分析为标准筛选出适合的数据集纳入分析,下载数据并进行数据预处理。运行R语言(版本3.4.0),加载Bioconductor 的 Limma软件包进行数据处理及差异基因的筛选。
老太太猜得没错,她刚刚走,思蓉和思远就到。与老太太不同的是,思蓉并没有旁敲侧击,而是直奔主题。念蓉说:“我与楚墨有些无聊,正好替你救救场子。”思蓉问楚墨:“这是谁的主意?”楚墨说:“当然是亲爱的念蓉。”思蓉说:“救场子也不必说自己的老公有外遇啊!你可以说……”
1.2.2 miRNA的靶基因预测 利用miRNA靶基因数据库Targetscan、miRPathDB查询miRNA的预测靶基因,所得结果以Excel文件下载至本地。将数据导入R,利用intersect命令代码取两数据库结果的交集。
1.2.3 Gene Ontology、KEGG通路富集分析 进入GO官网(http://www.geneontology.org/),下载最新版本的GO功能分类信息及人类基因注释信息。将所得靶基因列表上传至Cytoscpe的BinGO插件中,在GO功能分类文件、GO注释文件选项上分别导入上述下载文件,根据需求选择Biological process(生物学过程)、Cellular component(细胞组分)、Molecular function(分子功能)后点击运行,Bingo将开始进行分析并生成结果及层次网络图。
应用David数据库,对预测靶基因进行人类物种识别,在数据库页面中勾选“Functinal Annotation Tool”作为分析工具后进行KEGG通路富集分析。
1.2.4 统计学处理 在GO 分析中采用超几何分布计算P值,以P<0.05为界值。KEGG 通路分析中采用Fisher精确概率法计算,以P<0.05 为差异有统计学意义。
2.1 数据集结果 在GEO数据库中共检索出5个与CHF相关的研究,经过筛选后选择数据集GSE104150进行分析,该数据集共有样本16个,其中包括9个CHF病理样本,7个健康对照样本,每个样本包含2 570个miRNA检测数据。
2.2 差异基因筛选 对16个样本的芯片数据进行差异基因处理,将所得结果绘制火山图(见图1)。经过Limma包差异miRNA筛选后,得到185个差异表达miRNA,取Top20绘制热图(见图2)。芯片分析结果显示miR-197在CHF样本中明显上调,结合目前现有文献发现miR-197已被报道与心肌梗死等心血管疾病相关,故推测其对CHF的发生、发展有一定影响,因此,选择miR-197其作为进一步分析的对象,miR-197表达情况见图3。
注:绿色为下调基因,红色为上调基因。
图3 miR-197在GSE104150数据集中的表达情况
2.3 miR-197的靶基因 Targetscan、miRPathDB数据库预测靶基因数目及两数据库取交集结果见图4。
图4 miR-197靶基因数据库预测基因数及交集数
2.4 GO分析 针对上述2 408个预测靶基因进行GO 注释、富集分析。共得到1 712个基因的GO生物学功能注释信息、1 577个基因GO细胞组分注释信息以及1 656个基因的GO分子功能注释信息。将这些靶基因分别投射至GO生物学过程、细胞组分、分子功能上,结果显示miR-197的预测靶基因集合分别富集在生物调控、基因表达、RNA生物合成等生物学过程,细胞质膜、细胞核等细胞组分上以及离子结合、核苷酸结合等分子功能中,所得结果以靶基因富集数量从高到低排序,取Top10及P<0.05的结果见表1~表3,制作生物学过程网络层次图(见图5)。
表1 miR-197预测靶基因GO生物学过程分类
表2 miR-197预测靶基因GO细胞组分分类
表3 miR-197预测靶基因GO分子功能分类
注:分子大小代表基因数量的多少;颜色深浅代表P值大小。
2.5 KEGG通路富集分析 miR-197的靶基因在KEGG通路富集分析上共得到1 023基因的富集结果,取Top10且P<0.05的结果见表4。
表4 miR-197预测靶基因KEGG通路数据库富集分析结果
3.1 miR-197与CHF病因的相关性 目前认为CHF的常见病因主要有原发性心肌损害、心脏负荷过重两大类,其中原发性心肌损害包括:①缺血性心肌损害;②心肌炎、心肌病;③心肌代谢性疾病。而miR-197与上述因素相关的研究已经取得一定的进展,如Petaki等在研究心肌梗死的miRNA标志物时发现miR-197与心肌梗死的进展密切相关[4]。Schulte等[5]进一步研究后发现miR-197与miR-126、miR-223一起参与到血小板活化和血管内炎症的调控中,对冠心病等心肌缺血疾病具有潜在的预测价值。在与代谢类心肌疾病相关因素的研究中,Zampetaki等[6]证实miR-197在2型糖尿病中明显上调,猜测其可能与糖尿病的发生或糖代谢的调节有关。Mcmanus等[7]研究发现miR-197与心血管代谢疾病相关,其或许通过调控下游转录因子在疾病风险中发挥作用。
本研究结果发现,miR-197的靶基因虽然在GO生物学过程中主要富集于生物学调控、基因表达调控等方面。但仍有多数基因富集于如心脏生长发育、平滑肌的发育与增殖、电解质代谢等与心肌功能关联的生理过程中,而KEGG通路富集结果显示miR-197的靶基因也显著富集于Wnt、Hippo信号通路以及心律失常性右室心肌病(arrhythmogenic right ventricular cardiomyopathy,ARVC)等与CHF相关的信号通路中,miR-197或许在CHF进程中发挥一定的作用。
3.2 基于KEGG结果的相关通路分析
3.2.1 Wnt信号通路 Wnt通路是一条多元复杂的信号通路,在器官发育、调控组织形态等生理过程中发挥重要作用。散乱蛋白(Dvl)是Wnt通路需要激活的下游蛋白,研究证实Dvl在心肌肥厚中有着重要的介导作用。Malekar等[8]利用转基因技术将小鼠体内的Dvl过表达后发现小鼠出现了严重的心肌肥厚。核质穿梭蛋白(Dprl)则是Wnt信号通路的组成部分,其与Dvl相结合后可激活wnt/β-catenin信号通路诱导心肌肥厚[9],而抑制Dprl则可以显著阻止心肌肥厚的进程[10]。另一方面,目前已有足够多的证据显示,经典或是非经典的Wnt通路都与CHF心肌纤维化的发生、发展关系密切[11-13],miR-197与Wnt通路间的关系有待进一步挖掘。
3.2.2 Hippo信号通路 Hippo通路是近年来发现的相对保守的一条通路,其同样在器官的生长、细胞的增殖与凋亡上发挥显著调控作用。有报道显示,Hippo通路也广泛地参与CHF[14]。Heallen等[15]研究发现Hippo通路能与Wnt通路相互协作,调控心肌细胞增殖及心脏大小。Leach等[16]研究也发现Hippo信号通路能够阻止心肌细胞的再生,通过沉默Hippo信号通路的活性后能够有效促进心脏功能并逆转重度心力衰竭。
3.2.3 钙信号传导通路(calcium signaling pathway) 钙信号传导通路对心血管疾病的发生发展有重要作用,研究显示,心肌的收缩与舒张功能受到Ca2+浓度的影响及控制,心肌梗死后心室重塑及心力衰竭中心肌功能异常的主要原因与Ca2+的转运障碍密切相关,心肌缺血后心肌细胞内Ca2+超载可直接引起心肌细胞的凋亡[17-18]。
综上所述,miR-197的靶基因在生物学过程及生物信号通路中富集在与CHF关系密切的因素上,miR-197或许对CHF的发生、发展有潜在作用。值得关注的是,根据GO的富集结果,miR-197的靶基因也同样富集于囊泡运输、细胞因子介导的信号传导、细胞旁分泌等外泌体相关的模块上,或许其可以通过外泌体转运从而对CHF发挥调控作用,未来有望进一步探索与研究。
miRNA从被发现至今就已逐步成为研究热点之一,有报道显示,miRNA参与调解蛋白编码的基因数约占人类基因总数的三分之一。而目前已有足够多的证据表明,miRNA通过调节其下游靶基因的表达水平广泛地参与生理及病理等生命活动。迄今为止,虽然人类对miRNA的探索已颇具成果,可仍有大量的miRNA在许多领域的潜能未被挖掘,而利用高通量基因表达数据库及生物信息学分析能有效地筛选出特定条件下差异表达的miRNA,并快速地预测出其潜在靶基因以及明确miRNA与靶基因的相互作用关系,对miRNA生物学功能的研究具有重要的临床价值。