王馨雅,王华峰,2,边煜青,杨鲁红*
(1山西师范大学生命科学学院遗传学教研室,临汾 041004;2阿拉巴马大学伯明翰分校医学院神经系;*通讯作者,E-mail:ylh1010309@126.com)
自身免疫性疾病(autoimmune disease,AID)是指机体免疫系统中的免疫应答反应对自身抗原发生作用,造成组织细胞破坏或损害的一类疾病,其病因及其致病机制目前尚不完全清楚且仍未找到有效治疗药物[1,2]。通常可分为两大类:器官特异性自身免疫性疾病和全身性自身免疫性疾病,其主要区别在于前者引起的机体病变主要发生于某些特定器官,而后者则引起机体多系统、多器官的免疫反应[3]。近几年,自身免疫性疾病已经引起人们的广泛关注,其中多发性硬化症(multiple sclerosis,MS)的特征是中枢神经系统的病变,已有研究表明,该疾病是由免疫系统异常引起的一种自身免疫性疾病[4]。同时,Witoelar等[5]的研究表明帕金森病(Parkinson’s disease,PD)可能是一种自身免疫性疾病,帕金森病和自身免疫性疾病的表型之间有着共同的遗传途径[5]。故本文就多发性硬化症和帕金森病两种自身免疫性疾病进行研究,从基因表达方面探寻二者发病机制的相同点。
自Schena等[6]从事基因芯片的研究以后,基因芯片技术已经广泛应用于生物科学的诸多领域,其发展和应用为探究疾病的发病机制创造了条件[7]。基因芯片技术又称微阵列(microarray)技术,即在固相支持物上紧密放置诸多的DNA样本或寡聚核苷酸,与模板进行杂交并获取图像,用计算机处理后获得样本信息[8]。由于基因芯片所具有高效稳定的特性,因此用多发性硬化症和帕金森病相关的基因芯片探究自身免疫性疾病的致病机制具有十分重要的意义,为其后续的治疗和药物研发提供了理论基础[9,10]。
本研究采用生物信息学的方法筛选多发性硬化症和帕金森病患者和正常人的差异表达基因,对其中共有的差异基因进行生物学功能(GO)和信号通路富集分析,从中找出多发性硬化症和帕金森病共有的关键基因,为进一步探索自身免疫性疾病发病的分子机制提供参考。
本实验采用的两组基因芯片数据GSE83670和GSE22491均来源于美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的共享数据库GEO(https://www.ncbi.nlm.nih.gov/geo/)。多发性硬化症GSE83670的芯片数据由Paul Roy Heath上传,登录号GSM2212224-GSM2212227为4个多发性硬化症患者的白质星形胶质细胞转录组的基因表达谱样本数据,登录号GSM2212228-GSM2212230为3个神经正常的人体白质星形胶质细胞转录组基因表达谱样本数据。帕金森病GSE22491的芯片数据由frédéricleprêtre上传,登录号GSM558679-GSM558686为8个健康老年人(对照组)外周血单核细胞的基因表达模式数据,登录号GSM558687-GSM558696为10个帕金森病患者外周血单核细胞的基因表达模式数据。
下载多发性硬化症组织芯片数据GSE83670的CEL数据压缩包和探针文件后,通过RStudio软件的affyPLM对芯片数据进行质量分析,以P<0.05和|logFC|>1为标准筛选多发性硬化症患者和正常人的差异表达基因。打开帕金森病GSE22491的芯片数据,将帕金森病患者样本和正常老年人样本分为两组,通过GEO2R在线分析工具获取帕金森病患者和正常老年人的差异表达基因。最后,通过Venny 2.1.0在线分析网站(http://bioinfogp.cnb.csic.es/tools/venny/index.html)找出二者共同的差异基因。
DAVID数据库(https://david.ncifcrf.gov/)是一个在线生物信息学网站,用于分析基因组数据集并将收集到的数据赋予生物学意义。本文利用DAVID在线分析工具,对筛选出来的共有差异基因进行GO分析和信号通路富集分析[11],利用Cytoscape软件对GO功能富集的结果进行可视化分析。
通过对多发性硬化症组织芯片GSE83670和帕金森病组织芯片GSE22491数据分析,分别筛选出737个多发性硬化症和1 081个帕金森病中表达差异明显的基因(见图1),有36个基因在这两种病中均存在有明显的差异(见表1,图2),分别为:CTAGE5、C14orf79、ASB9、PROS1、CCDC186、PLAA、GP1BA、LIG4、C2orf88、GABRP、ZNF85、EPB42、GCM2、RAB13、CAAP1、DYNC2LI1、SGCE、PCOLCE2、CCPG1、TRMT61B、C1QC、NLK、GPR78、UHRF1、DCBLD1、C1QB、IRX3、GUCY1B3、DMXL2、THAP9-AS1、ANGPT2、FAM19A2、TMEM17、CA2、CAV1和PARM1。
将得到的36个差异基因输入到DAVID在线分析网站,通过对差异基因的生物过程(biological process)、细胞成分(cellular component)和分子功能(molecular function)的分析,发现差异基因参与了白细胞移行、肽酶活性的正调控、凝血调节、纤维蛋白溶解等生物过程;细胞成分分析显示差异基因主要参与了质膜和血液微粒的组成;分子功能与肽酶的激活有关(见表2)。
利用Cytoscape软件对差异基因GO功能富集进行的可视化分析结果表明,颜色越深富集到该功能上的差异基因越多,主要与5个功能关系程度最大,即免疫球蛋白介导的免疫应答、B细胞介导的免疫、淋巴细胞介导的免疫、基于免疫球蛋白超家族域构建的免疫受体体细胞重组的适应性免疫应答和适应性免疫反应(见图3)。
A.多发性硬化症的差异基因火山图 B.帕金森病的差异基因火山图图1 多发性硬化症和帕金森病的差异基因火山图Figure 1 Valcano plot of differentially expressed genes in mRNA expression profiling dataset of MS and PD
表1 帕金森病和多发性硬化症共有的36个差异基因
Table 1 Results of 36 differentially expressed genes in Parkinson’s disease and multiple sclerosis
基因名称帕金森病的logFC多发性硬化症的logFC基因名称帕金森病的logFC多发性硬化症的logFCCTAGE5C14orf79ASB9PROS1CCDC186PLAAGP1BALIG4C2orf88GABRPZNF85EPB42GCM2RAB13CAAP1DYNC2LI1SGCEPCOLCE2-1.6620-1.0975-1.0520-2.0972-1.0324-1.1981-1.4053-1.0165-1.3828-1.5305-1.0004-4.9199-1.0029-1.3522-1.0020-1.0493-1.3849-2.2095-1.1971-1.3444-1.2108-1.0032-1.5436-1.0326-1.3625-1.19761.4022-1.2205-1.1588-1.1595-1.00872.2605-1.3333-1.5165-1.28671.5961CCPG1TRMT61BC1QCNLKGPR78UHRF1DCBLD1C1QBIRX3GUCY1B3DMXL2THAP9-AS1ANGPT2FAM19A2TMEM17CA2CAV1PARM1-1.0909-1.1925-1.0244-1.01621.58241.6100-1.2058-1.30641.9081-1.1108-1.2103-1.14673.1958-1.4754-1.4463-1.0640-1.0356-1.0929-1.5210-1.70691.4257-1.3652-1.00681.3508-1.30821.24791.8110-1.1308-1.0766-1.43361.0837-1.5238-1.31811.43031.0076-1.1128
图2 两类疾病共有基因分析的Venny图Figure 2 Venny diagram of common gene analysis for both diseases
通过DAVID在线分析网站对36个差异基因进行信号通路富集分析。结果显示,符合P<0.05的信号通路只有一条,即补体和凝血级联信号通路(has04610:补体和凝血级联)(P=0.007),富集在这条通路上的差异基因包括C1QB、PROS1和C1QC(见表3)。
表2 差异基因的富集分析
Table 2 Enrichment analysis of different genes
类型GO ID基因功能 数量P生物过程GO:0050900白细胞迁移(leukocyte migration)30.019生物过程GO:0010952肽酶活性的正调控(positive regulation of peptidase activity)20.022生物过程GO:0030193凝血调节(regulation of blood coagulation)20.029生物过程GO:0042730纤维蛋白溶解(fibrinolysis)20.036细胞成分GO:0005886质膜(plasma membrane)140.013细胞成分GO:0072562血液微粒(blood microparticle)30.027分子功能GO:0016504肽酶激活(peptidase activator activity)20.016
图3 GO功能富集的可视化分析Figure 3 Visual analysis of GO functional enrichment
表3 差异表达基因所涉及的信号通路
Table 3 Differentially expressed genes involved in the signaling pathway
序列号名称数量P基因hsa04610补体和凝血级联30.007C1QB,PROS1,C1QC
自身免疫性疾病的发病机制十分复杂,且发病人数呈逐年上升趋势,之前已有对于遗传、环境和免疫等方面的相关研究,但尚且没有特异性的生物标记和筛查诊断方法[12]。在本次研究中,我们借助了生物信息学的手段分析筛选出帕金森病和多发性硬化症共有的差异表达基因,得到了36个差异表达显著的基因。为了探讨这些差异基因潜在的作用机制,我们通过DAVID在线生物学分析网站对这36个基因进行了GO和Pathway功能富集分析。
GO富集分析和可视化结果显示,这些差异基因主要参与了免疫球蛋白介导的体液免疫应答过程。现有研究表明,免疫球蛋白、B细胞、淋巴细胞介导的免疫调节机制是自身反应性细胞免疫的关键机制之一,与固有免疫应答和适应性免疫应答的相互作用有关,在炎症反应和自身免疫性疾病中发挥重要作用[13-16]。
Pathway信号通路富集结果为补体和凝血级联信号通路(hsa04610:补体和凝血级联)。补体系统是先天免疫的主要系统,凝血系统在止血功能中起到主要作用,补体和凝血级联信号通路与血液介导的炎症反应具有一定的关系[17,18]。分析富集于该信号通路上的差异基因发现,C1QB和C1QC基因编码的蛋白质均为补体C1q的亚成分,而补体C1q参与自身免疫和炎症反应等过程,补体级联的第一步就是补体C1q与抗体的结合[19],C1q在自身免疫性疾病如红斑狼疮、类风湿性关节炎等发病机制的研究上具有重要的临床价值[20-24]。PROS1基因通过与酪氨酸激酶等受体相互作用共同调控TAM信号通路,在炎症的消除过程中发挥着至关重要的作用[25];PROS1基因突变导致S蛋白缺乏[26],而S蛋白能够激活凝血级联通路[27],调节基因转录和炎症细胞因子的表达[28],其抗凝功能能够对类风湿关节炎这种自身免疫性疾病的治疗产生积极作用。同时,PROS1基因还是与甲状腺病变相关的7个关键基因之一[29]。
综上所述,我们推测,自身免疫病的发病机制可能通过补体和凝血级联反应信号通路实现,该信号通路上的差异基因:C1QB、C1QC和PROS1通过对补体和凝血级联信号通路的影响,可能在帕金森病和多发性硬化症等自身免疫性疾病中起到关键作用,有望成为自身免疫性疾病的潜在治疗靶点。