曲浩宁,朱文韬,何群
(中国医科大学生命科学学院生物信息学教研室,沈阳 110122)
我国阿尔茨海默病(Alzheimer’s disease,AD)患者数量随着人口老龄化而不断增加[1]。AD是一种渐进性中枢神经退行性疾病,目前认为AD的主要致病机制有β-淀粉样蛋白(Aβ)生成增加、tau 蛋白沉积、神经系统免疫炎症反应、氧化应激损伤、糖代谢异常等[2-3]。长链非编码RNA(long non-coding RNA,lncRNA)在神经退行性疾病中有重要作用,并可能通过竞争性结合微RNA(microRNA,miRNA)形成复杂的内源竞争RNA(competing endogenous RNA,ceRNA)调控网络,从而引发神经退行性疾病[4]。
lncRNA是一组长度不小于200个核苷酸、没有明显编码蛋白潜能的非编码RNA(non-coding RNA,ncRNA)[1]。研究[2-4]表明,lncRNA在转录和转录后水平参与基因表达的调控,并具有明显的组织特异性、细胞特异性、时空特异性和发育阶段特异性,其变化和发育也与疾病状态有关,故在多种疾病的进展中起着关键作用。lncRNA有多种功能,细胞质中的lncRNA可以诱捕miRNA与之结合,通过ceRNA机制竞争性地结合miRNA来调节基因表达。[5]
从基因表达综合数据库(gene expression omnibus,GEO)(https://www.ncbi.nlm.nih.gov/geo/)中下载数据GSE28146,使用GEO数据库GEO2R以P< 0.05为条件分别筛选AD轻度组、中度组和重度组与正常对照组比较的差异基因(differentially expressed genes,DEGs),AD轻度组筛选出DEGs 2 612个,AD中度组筛选出DEGs 3 120个,AD重度组筛选出DEGs 3 187个。应用Venny 2.1.0 [Venny 2.1.0(csic.es)],取轻、中、重度组DEGs的交集为候选差异基因(candidate differentially expressed genes,pDEGs),在pDEGs中 筛选差异表达的lncRNA进行后续分析。
利用在线分析工具RegRNA(http://regrna2.mbc.nctu.edu.tw/)预测lncRNA的靶基因。RegRNA是专门用来进行RNA功能性的motif预测网站,该网站预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。
应 用lnclocater(http://www.csbio.sjtu.edu.cn/bioinf/lncLocator/)和iLoc-mRNA(http://lin-group.cn/server/iLoc-mRNA/predictor.php)对lncRNA的亚细胞定位进行预测,找到lncRNA具体存在的细胞位置。
应用miRDB(https:/www.mirdb.org/)、TargetScan(https://www.targetscan.org/)和TargetMiner(https://www.isical.ac.in/~bioinfo_miu/final_html_targetminer/hsamiR-1254.html)3个在线数据库预测mRNA的靶基因,并用Venny 2.1.0绘制韦恩图,将此3个数据库得到的靶基因与GSE28146数据集中轻、中、重度3组共有的表达上调的pDEGs取交集作为最后miRNA靶基因集合。将靶向基因集提交DAVID(https://david.ncifcrf.gov/tools.jsp)网站以P< 0.05为条件进行基因本体(gene ontology,GO)分析和PATHWAY分析。
将靶向基因集提交DAVID(https://david.ncifcrf.gov/tools.jsp)网站以P< 0.05为条件进行GO富集分析分析和PATHWAY分析。使用Cytoscape(3.8.0版)绘制ceRNA网络,构建GSE28146数据集中pDEGs得蛋白质相互作用(protein-protein interaction,PPI)网络并用Cytoscape找到其关键基因,与miRNA靶基因集合做交集,以确定ceRNA网络中的lncRNA在疾病中是否有关键作用,调控关键蛋白。
AD轻度组筛选出DEGs 2 612个,中度组筛选出DEGs 3 120个,重度组筛选出DEGs 3 187个。为了筛选在AD中其关键作用的基因,取早中晚3组与正常相比异常的252个DEGs,然后从数据集GSE28146中早中晚差异表达的pDEGs中筛选出LINC02047、LINC01124、LINC00582和LINC02478,均为表达上调基因。
为了分析这些差异lncRNA是否参与ceRNA竞争机制,利用lnclocater和iLoc-mRNA网站对其亚细胞定位进行分析,结果显示,LINC02047、LINC01124和LINC02478定位于细胞质,见表1。
表1 亚细胞定位Tab.1 Data of subcellular localization
RegRNA预测LINC02047的靶基因为hsa-miR-132-3p,LINC011124的靶基因有4个,分别为hsa-miR-1254、hsa-miR-4640-5p、hsa-miR-4690-3p和hsa-miR-4786-3P,LINC02478的靶基因为hsa-miR-3612。
使用数据库miRDB、TargetMiner和TargetScan分别预测hsa-mir-132-3p、hsa-mir-1254、hsa-mir-3612、hsa-mir-4640-5p、hsa-mir-4690-3p、hsa-mir-4786-3p的靶基因。其中hsa-mir-132-3p用在线韦恩图工具Venny 2.1.0可得到靶基因交集126个,占总数4.4%。hsa-mir-1254靶基因交集722个,占总数11.6%。hsamir-3612靶基因交集290个,占总数3.3%。hsa-mir-4640-5p靶基因交集231个,占总数的3.3%(图1)。hsa-mir-4690-3p靶基因交集126个,占总数2.2%。hsa-mir-4786-3p靶基因交集234个,占总数的3.4%。再将3个数据库预测到的靶基因交集在与早中晚3组共有表达上调的pDEGs取交集,见表2。GO富集分析及京都基因与基因组百科全书(Kyoto encyclopedia of genes,KEGG)通路分析结果见表3、4。
图1 miRNA靶基因预测结果Fig.1 Prediction results of miRNA target genes
表2 miRNA靶基因预测结果与早中晚3组pDEGs的交集Tab.2 Intersection of prediction results of miRNA target genes and early,middle,and late differentially expressed genes
表3 miRNA靶基因GO富集分析结果Tab.3 Gene ontology enrichment analysis results of miRNA target genes
表4 miRNA靶基因KEGG通路分析结果Tab.4 KEGG pathway analysis results of miRNA target genes
将所得lncRNA、miRNA与mRNA在Cytoscape3.8.0中绘制出ceRNA网络,共21条通路,30个节点,27条边。见图2。构建PPI网络后经Cytoscape hubba分析得分较高的基因与miRNA交集后得到了4个得分较高的关键基因,分别为NMNAT2、DLGAP2、SVOP和UBE3A,得分分别为20 541、17 936、12 362和95。
图2 lncRNA、miRNA与mRNA 组成的ceRNA网络Fig.2 Competing endogenous RNA network composed of lncRNA,miRNA,and mRNA
AD是全球痴呆最常见的类型,全球约有4 000万人患有AD,并且患病率逐年上升[7-8]。lncRNA的DEGs已被证实与神经退行性疾病的发生发展有密切关系[9],但尚无在AD调控网络作用机制中针对lncRNA的差异表达研究。
为了寻找与AD相关的关键lncRNA,本研究选取了GEO数据库GSE28146,分析了其正常组织与各个时期AD病例组织中DEGs,筛选差异表达的lncRNA。其中,LINC02047、LINC01124和LINC02478在AD早期、中期和晚期的病理组织中均存在差异。为进一步探讨上述3种lncRNA在AD发病机制中起到的关键作用,本研究通过亚细胞定位确定了这3个lncRNA在细胞质中的表达,表明上述lncRNA可通过ceRNA机制调控基因表达参与AD发病。
RegRNA预测结果显示,lncRNA通过调控miRNA而影响神经退行性病变中的基因表达。LINC01124具有抑制细胞增殖、迁移和侵袭的能力[10];miR-132被证实是AD神经元中最显著下调的miRNA,miR-132可促进神经突起的延长和分支,减少神经元死亡[11];miR-1254通过与靶区的非结构位点结合也可以起到阻遏作用[12],以上结果揭示了ceRNA的部分调控关系,然而对于LINC01124,LINC02478,miR-4060,miR-4090,miR-4786,miR-3612的分子机制及其如何作用于神经退行性病变,迄今尚无研究阐明。
基于lncRNA-miRNA-mRNA调控关系,本研究对各项功能节点的可信度进行了筛选,并对ceRNA的调控过程构建了可视化网络。基于David对ceRNA网络进行分析的结果,基因组整体展现了抑制细胞增殖、迁移和侵袭与类固醇激素受体的功能。
KEGG通路分析提示其参与Hedgehog信号通路。Hedgehog信号通路在人胚胎干细胞神经分化的d6~d14持续活化,而Sonic Hedgehog作为Hedgehog信号通路家族成员之一,对基底前脑胆碱能神经元(basal forebrain cholinergic neurons,BFCNs)的发育分化起到至关重要的作用[13]。BFCNs投射系统的退行性病变是导致AD患者出现空间认知功能障碍的主要原因[14]。枢纽基因NMNAT2的缺失可能会导致自发性的轴突变性,使轴突运输受阻,进而引发AD[15-17];Dlgap2和AD表型在变异、基因和蛋白质表达以及甲基化水平上存在关联[18];Ube3A的缺失触发Arc和Ephexin-5的积累,分别驱动GluR1的内化和RhoA的激活,最终导致突触的剪断被Ube3A的恢复所阻断[19];神经元表达转运蛋白SV2相关蛋白(SVOP和SVOPL)在调节胞吐中起到关键作用[20]。
本研究利用生物信息学软件挖掘了各时期AD中共差异表达的lncRNA,并绘制了其与靶向miRNA、mRNA的ceRNA网络图。结果验证了部分已被阐明的AD作用机制,同时也发现了尚未得到充分研究且可能成为潜在药物靶点的重要lncRNA与miRNA。本研究基于临床样本数据,探寻各期AD存在的共同差异,构建了完整的ceRNA调控网络,为AD分子机制的深入研究提供了严谨的数据支持。