高雯琪 肖 晗 邓艾平 刘 珏 邓志芳
(1. 华中科技大学 同济医学院附属武汉儿童医院 妇女儿童健康研究所, 湖北 武汉 430015; 2. 华中科技大学 同济医学院附属武汉市中心医院 药学部, 湖北 武汉 430022)
抑郁症是常见的神经精神疾病,位于全球疾病负担的第三位[1]。世界卫生组织统计结果显示,全球范围内约有3.5亿抑郁症患者[2]。由于抑郁症的高患病率、高致残性,给个人和社会带来了严重的健康风险和沉重的经济负担。目前,重度抑郁症(major depressive disorder,MDD)的诊断和治疗是基于患者的症状和体征,对于MDD患者早期诊断的客观标准仍有待阐明[3, 4]。基因组学技术的发展使研究人员能够在基因组水平上研究多种疾病的基因表达和表观遗传学改变,而生物信息学分析方法的迅速发展为基因组学结果的解读带来了全新的思路,已广泛用于分析差异表达基因、筛选疾病诊断和治疗的生物标志物[5-8]。
本研究中,我们从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中下载MDD的表达谱数据集GSE32280。采用R软件筛选出差异表达基因(differentially expressed genes,DEGs),并对DEGs进行功能注释和通路富集分析。之后构建蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络并鉴定疾病相关的关键(hub)基因,通过ROC曲线对hub基因进行诊断价值分析,以期筛选出MDD的分子诊断标志物。
从美国国立生物信息中心(National Center for Biotechnology Information, NCBI)的GEO数据库[9]中下载表达谱数据集GSE32280。GSE32280数据集中一共包括16例外周血样本,其中正常对照样本8例(GSM799727, GSM799728, GSM799729, GSM799730, GSM799731, GSM799732, GSM799733, GSM799734)和MDD样本8例(GSM799722, GSM799723,GSM799724,GSM799725,GSM799726, GSM799738, GSM799740, GSM799743)。数据集中的所有样本均采用Agent GPL570平台([HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array)进行分析。GSE32280数据集的样本下载自同一个平台,上传的数据已经经过均一化处理,不需要进一步校正。
使用R软件的Limma包对GSE32280表达谱数据集筛选DEGs。设定阈值为调整后P<0.05、log FC<-0.5(下调基因)、log FC>0.5(上调基因)定义DEGs,并使用ggplot2包[10]绘制DEGs的火山图,直观展示DEGs的差异表达情况。
利用David(https://david.ncifcrf.gov/home.jsp)进行GO(gene ontology)分析。GO分析包括细胞组分(cell component,CC)、分子功能(molecular function,MF)和生物过程(biological process,BP)三个方面。KEGG(kyoto encyclopedia of genes and genomes)是一个通路集合的数据库。我们使用R软件Cluster Profile包[11]对DEGs进行GO和KEGG通路富集分析。
STRING (https://string-db.org/)是一个旨在评估蛋白-蛋白互作的在线工具[12]。采用Cytoscape软件中MCODE模块对STRING的结果进行分析和可视化。运用CytoHubba模块选择最大相关标准中的前16个基因作为hub基因。Network Analyst (https://www.networkanalyst.ca/faces/home.xhtml)是一个PPI网络可视化分析平台。我们将16个hub基因输入Network Analyst中,以实现PPI网络的可视化。
采用R软件的pROC包[13]进行ROC曲线分析,评估16个hub基因的诊断价值,并筛选出MDD的诊断生物标志物。
数据测量采用R软件(3.5.2版),P<0.05认为有统计学意义。
GSE32280数据集中一共包括16例外周血样本,其中8例为正常样本,8例为MDD样本。采用R软件筛选正常和MDD样本之间的DEGs,设定阈值为调整后P<0.05、log FC<-0.5(下调基因)、log FC>0.5(上调基因)。如图1所示,GSE32280数据集中共发现104个DEGs,其中上调基因47个,下调基因57个。
对GSE32280数据集中筛选出来的104个DEGs进行GO功能注释分析。结果显示,下调DEGs的BP变化主要富集在细胞增殖、炎症反应、转运调控;CC的变化包括血小板颗粒和分泌颗粒;MF的变化主要富集在细胞因子活性、趋化因子活性、趋化因子受体结合程度(见图2A)。上调DEGs主要涉及的BP包括免疫反应、肿瘤坏死因子生成以及防御机制;CC的变化包括细胞质膜、细胞表面;MF的变化主要富集在MHC蛋白和多糖锚定(见图2B)。KEGG通路富集分析结果显示,DEGs主要富集于NK细胞介导的细胞毒性、细胞因子与其受体相互作用和趋化因子信号通路(见图2C和2D)。
GSEA分析结果显示,富集的通路包括成熟型糖尿病通路、糖胺聚糖生物合成、糖酵解合成途径、钙信号通路、背腹轴形成等(见图3)。Ryanodine受体2 (RYR2)、钙电压门控通道亚基alpha 1c (CACNA1C)和钙电压门控通道亚基alpha 1s (CACNA1S)是这些通路的重要基因(见图4)。
通过STRING对GSE32280数据集中筛选出来的DEGs进行分析。将分析结果导入Cytoscape,采用MCODE插件构建PPI网络,PPI网络如图5A所示,获得10节点,41对PPI关系。然后,运用CytoHubba插件,获取16个与MDD密切相关的hub基因,分别为CXCL8、IFNG、EGF、CXCL1、TLR3、PTGS2、CXCL5、CCL20、IL1RN、CXCL3、FASLG、CCR10、THBS1、CLEC7A、TNFSF4、OSM (见图5B)。
采用ROC分析评估16个hub基因在MDD中的诊断价值。CXCL1、EGF、CXCL8和IFNG的ROC曲线下面积(area under the curve,AUC)分别为0.865、0.799、0.737、0.705(图6),AUC在0.700~0.900之间被认为是具有较高的诊断价值。因此,CXCL1、EGF、CXCL8和IFNG是MDD中具有较高诊断价值的基因。
抑郁症已成为一个全球性的精神健康问题[14]。近年来,MDD的患病率不断上升,但仍没有实验室血液检测来支持MDD的早期诊断[15]。微阵列基因芯片技术的快速发展和广泛应用揭示了疾病病理生理过程中的数千种基因表达变化,生物信息学结合微阵列基因芯片系统地对疾病中表达变化基因进行全面分析,可以为疾病的早期诊断筛选出重要的生物标记物[16]。因此,我们希望借助生物信息学分析和微阵列基因芯片结果对MDD的mRNA表达谱进行分析,以筛选出MDD相关的诊断生物标志物。
本研究中,我们首先从GEO数据库中下载表达谱数据集GSE32280,使用R软件在此数据集中筛选出104个DEGs。对104个DEGs进行GO功能注释分析发现,DEGs主要富集在细胞增殖、炎症反应、转运调控等生物学过程;参与细胞因子活性、趋化因子活性、趋化因子受体结合等分子功能;DEGs的细胞成分主要富集于血小板颗粒和分泌颗粒。DEGs主要介导了NK细胞相关的细胞毒性、细胞因子与其受体相互作用和趋化因子信号通路。其次,我们运用GSEA鉴定DEGs与MDD相关的基因和通路,富集的通路主要与钙信号通路和心律失常性右心室心肌病(arrthythmia right ventricular cardiomyopathy, ARVC)通路相关。细胞内钙通道Ryanodine受体(RYR)、钙电压门控通道亚基alpha 1c (CACNA1C)是这些通路的重要基因。
RYR定位于神经元的轴突、树突棘和突触前终端,在小脑、海马、嗅区、基底神经节和大脑皮层呈高表达。RYR负责介导Ca2+从细胞内钙池释放[17],构成了内质网膜和肌浆网膜上的细胞内钙释放通道。经过细胞膜进入细胞的Ca2+能够通过激活Ryanodine受体而直接触发Ca2+从细胞内钙池释放。在发育和衰老的生理过程中,细胞内钙稳态主要受RYR的调节。RYR表达异常会引发细胞内Ca2+水平失衡、细胞脆弱以及突触神经元功能受损,导致神经元死亡,最终可能导致抑郁症的发生[18]。
CACNA1C编码L-型电压依赖Ca2+通道α1C亚基,α1C亚基是Cav1.2的主要亚单位。Cav1.2是介导Ca2+进入细胞内的重要途径,在树突发育、神经元存活、突触可塑性、记忆形成、学习和行为中起着重要作用[19]。研究表明,CACNA1C已成为双相情感障碍、重性抑郁症和精神分裂症等神经精神疾病的候选风险基因[20]。CACNA1C杂合子缺失小鼠的Cav1.2蛋白水平、LTCC 电流降低,探究行为降低,对苯丙胺的反应降低,在强迫游泳和悬尾试验存在抗抑郁样行为[21]。抑制小鼠前额皮层CACNA1C表达后,小鼠出现显著的抗抑郁样行为[22]。本研究中的数据表明,CACNA1C、RYR很可能在抑郁症患者外周血中表达出现明显异常,因此我们推测CACNA1C、RYR可能参与MDD的病理生理机制。
本研究对hub基因进行诊断价值评估发现,4个基因(CXCL1、EGF、CXCL8和IFNG)与MDD病理生理机制密切相关,可能成为MDD的诊断生物标志物。其中,CXCL1和CXCL8均为趋化因子。趋化因子是由多种细胞分泌的、可引起白细胞趋化特性的细胞因子。趋化因子除了趋化及激活白细胞外,还具有刺激细胞增殖、促进新生血管形成等多方面的生物学活性,在炎症的致病机制中发挥重要作用[23]。研究表明,CXCL1在慢性不可预知抑郁模型的脑脊液中明显升高[24]。CXCL8在抑郁症患者外周血表达显著升高[25]。表皮细胞生长因子(epidermal growth factor,EGF),是一种重要细胞生长因子。抑郁症患者外周血中EGF水平升高,抗抑郁治疗显著降低EGF水平[26]。由此,我们推测CXCL1、CXCL8和EGF可能参与MDD的病理生理过程,可能成为潜在的MDD诊断生物标志物。
本研究通过生物信息学的方法,对MDD的mRNA表达谱数据集进行分析,共获得104个DEGs和16个hub基因。进一步对hub基因进行ROC分析,得到4个诊断标记物,分别是CXCL1、EGF、CXCL8和IFNG。本研究的结果为开发新型MDD诊断生物标记物提供了理论依据。基于此研究结果,我们后续会在细胞和分子水平上进一步研究MDD的病理生理机制。