利用基因表达芯片探索多发性硬化的关键基因和通路

2019-07-17 01:09唐玉兰廖韦静邝慧敏
安徽医科大学学报 2019年7期
关键词:差异基因多发性硬化

黄 帆,唐玉兰,廖韦静,邝慧敏,蓝 岚

多发性硬化(multiple sclerosis,MS)是一种中枢神经系统的炎症性和神经退行性疾病,其发生是由遗传和环境因素共同作用的结果[1]。在西方国家MS是造成青壮年神经性残疾中仅次于外伤的第二大因素,据2013年统计,估计全球约有230万人患有MS,患病率约为(50~300)人/10万,且由于印度和中国等大型人群相对缺乏数据,数据可能被低估[2]。早期MS的特征通常是神经功能缺损急性发作,其依赖于中枢神经系统急性炎症性脱髓鞘病变的区域及炎症反应的程度,而导致病变髓鞘再生的形成机制尚未完全了解。位于主要染色体6p21中组织相容性复合体(major histocompatibility complex,MHC)区域内的人类白细胞抗原(human leukocyte antigen,HLA)等位基因,已被确定为该疾病的主要遗传决定因素。另外,已经描述了超过100种非MHC MS的易感性变体,携带已知的易感性变体相关基因参与调节免疫细胞分化或信号传导[3]。不恰当的诊断标准用于不典型症状的脱髓鞘患者是导致其误诊的主要原因,遗传研究的目标是实现更精确的表示疾病发病机制中的相关基因、通路和网络,并利用这些信息发现预防、治疗和修复的新靶点。

该研究拟基于GEO基因表达数据,通过生物信息学分析多发性硬化疾病状态,构建基因网络并筛选潜在的关键分子靶点,为寻找MS发病机制提供新途径,或许可以用于早期诊断多发性硬化并为临床治疗提供新思路。

1 材料与方法

1.1 数据来源Gene Expression Omnibus(GEO)数据库隶属于美国国立卫生研究院的美国国立生物技术信息中心,是高通量基因表达数据和杂交阵列、芯片、微阵列的数据库。以“Multiple Sclerosis”为搜索词进入数据库获取基因表达谱GSE21942,种属为人类,芯片平台GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。该芯片数据包括14例多发性硬化患者及15例健康人的基因表达阵列数据。

1.2 差异表达基因(differentially-expressed genes,DEGs)处理使用R语言和Bioconductorhttp://www.bioconductor.org/)进行基因芯片数据分析。利用GPL570平台对应的hgu133plus2.db注释R包进行基因探针注释,取每个探针的最大值作为该探针的表达值,除去无法注释的探针。通过稳健多元阵列平均(robust multivariate array average,RMA)对原始表达数据进行对数转换,背景校正和归一化处理。按照|log2FC|>1和P<0.05作为筛选标准,使用limma包筛选14名正常人样本和15名多发性硬化患者样本基因得出88个DEGs,绘制DEGs热图和火山图。

1.3 样本的主成分分析主成分分析可将高维数据处理成低维数据,利用R语言factoextra包对DEGs数据集进行主成分分析。

1.4 样本的聚类分析聚类分析是一种无监督机器学习分析方法,可以把相似的对象分成不同的组别或更多的子集。利用R语言cluster包进行聚类分析,并利用factoextra包将聚类分析结果可视化处理。

1.5 基因本体论和pathway分析DEGs将获得的DEGs通过在线软件数据库(DAVID,https://david.ncifcrf.gov/)进行注释、可视化分析,以确定过度表现的GO类别和Pathway生物通路。GO分析可以确定大量基因的生物学意义,并对基因产物功能进行分类,包括生物过程(biological processes,BP)、分子功能(molecular functions,MF)和细胞组分(cellular components,CC)。通过Pathway生物通路富集分析,筛选的基因可能与两个或更多信号传导途径有关,由于不同途径中的基因相同,因此途径之间的重叠是不可避免的。基于KEGG数据库对DEGs进行基因信号通路富集分析,选择DEGs富集最显著的10个功能进行排序并分析。

1.6 蛋白-蛋白相互作用信号网络分析DEGs用于检索交互基因/蛋白质的搜索工具(STRING)数据库(http://string.embl.de/)提供了PPI的关键评估和整合,用于评估直接(物理)和间接(功能)关联的DEGs。本研究通过STRING数据库绘制靶基因编码蛋白互作网络图,以便了解差异基因之间的相互调控关系。

2 结果

2.1 DEGs数据对数化标准处理前后的多发性硬化组和健康对照组基因芯片数据结果见图1、2,可知本研究标本经对数化处理后数据均一性较好,两组之间具有可比性。

图1 样本芯片数据对数化标准处理前

图2 样本芯片数据对数化标准处理后

2.2 DEGs筛选结果通过对两组数据的DEGs进行筛选,构建火山图并显示88个DEGs(图3A),与对照组比较,多发性硬化组上调基因76个、下调基因12个,图3C显示了上调基因和下调基因中有显著差异的10个;88个基因构建的热图(图4),其中横坐标表示15个MS组和14个健康组样本;红色代表上调的基因,绿色代表下调的基因,差异越大,颜色越深。

2.3 样本聚类分析通过R语言factoextra包的增强聚类分析函数对差异基因数据集进行层次聚类,自动计算最佳聚类簇两簇,并且对结果进行可视化处理(图5)。此聚类结果表明,筛选的差异基因能较好的区分出健康组和MS组。

2.4 DEGs数据集主成分分析使用R语言FactoMineR包对差异基因数据集进行主成分分析,实现高维数据降维成为简化的数据,用factoextra包可视化主成分分析结果(图6A、B),主要有贡献率最大的两个主成分,主成分分析结果能较好地区分健康组和MS组(图6C)。

2.5 DEGs GO分析结果采用线软件数据库(DAVID,https://david.ncifcrf.gov/)对DEGs进行GO功能富集分析,生物学过程中,富含MS中DEGs的GO术语包括固有免疫反应、血液凝固、体液免疫反应和氧转运。在细胞组分类别中,富含GO的术语主要是血红蛋白复合物、质膜和细胞外间隙。在分子功能分类中,包括蛋白结合,血红素结合和跨膜信号受体活性(图 7);从红色到蓝色,颜色越蓝,表示负相关程度越大;颜色越红,表示正相关程度越大(图8)。

2.6 DEGs pathway分析结果表1显示了4个差异最显著的富集通路,其主要涉及造血细胞谱系、B细胞受体信号通路、破骨细胞分化、氮代谢等。

2.7 DEGs信号网络分析结果利用STRING在线数据库构建差异基因所编码的蛋白互作网络,可得出27个蛋白存在相互作用(图9)。图9A是差异基因表达蛋白互作网络,图9B所示的是互作网络中筛选出的核心基因节点数,其中节点数≥4的DEGs,如HBD、IL-8、SNCA、ALAS2等。

图3 DEGs的火山图

A:所有样本基因;红色:上调基因,蓝色:下调基因;B:88个DEGs;红色:76上调基因;绿色:12个下调基因;C:最显著上调、下调的前10基因;红色:上调基因;绿色:下调基因

图4 差异基因表达值参差聚类热图

图5 聚类分析图

表1 DEGs的KEGG通路分析

3 讨论

MS的特征在于脱髓鞘和进行性神经功能障碍,既往研究报道了线粒体参与MS中的神经变性和残疾,包括核编码的电子传递链亚基基因的表达降低和呼吸复合物的抑制[4]。本研究中通过使用微阵列的方法从基因水平揭示MS发病机制可能涉及的关键基因:ALAS2、CA1、SNCA、HBB、IL8等。其中血红蛋白亚基β(亦称β-珠蛋白,hemoglobin-β,HBB)与α珠蛋白(HBA)一起构成成人中最常见的血红蛋白形式HbA,血红蛋白是一种可以诱导局部氧化应激,炎症和组织损伤的反应性分子[5],变异的血红蛋白表达可能与各种神经退行性疾病有关[6];HBB被发现在MS大脑病变皮层分离的线粒体部分中水平增加,被认为可能是将神经元能量学与细胞核中组蛋白的表观遗传变化联系起来的机制的一部分,并且可以通过支持神经元代谢在MS中提供神经保护[7]。碳酸酐酶(carbonic anhydrase 1,CA1)通过激肽释放酶原激活和丝氨酸蛋白酶因子XIIa生成来介导出血性视网膜和脑血管通透性,这些现象诱发增殖性糖尿病性视网膜病变和糖尿病性黄斑水肿疾病进展,是视力丧失的主要原因[8],这可能与多发性硬化临床表现中的视力受损发生机制相关。α-突触核蛋白(alpha-synuclein,SNCA)的过量产生可能是帕金森病的致病因素,其主要存在于神经细胞(神经元)的突触前末端,通过聚集突触小泡在维持突触前终末突触小泡的供应方面发挥作用[9],它也可能有助于调节多巴胺的释放。白细胞介素-8(interleukin-8,IL-8)是先天免疫系统反应中免疫反应的重要介质,其分泌增加了氧化应激,从而引起炎症细胞的募集和诱导氧化应激介质的进一步增加,使其成为局部炎症的关键因素[10];IL-8也被称为嗜中性粒细胞趋化因子,能诱导靶细胞趋化,主要是嗜中性粒细胞以及其他粒细胞,导致它们向感染部位迁移,IL-8在抵达后也会诱导吞噬作用;研究发现,MS患者脑脊液中IL-8的水平显著高于对照组,血清IL-8水平显著低于对照组,这些差异可能与血脑屏障的损伤有关[11]。由此,本文筛选的DEGs可能在MS发病相关的炎症反应或神经退行性过程中扮演重要角色。

图6 样本和DEGs数据集主成分分析

A:DEGs数据集主成分分析;B:样本数据集主成分分析;C:样本数据集主成分分析(左侧为健康组,右侧为MS组)

图7 GO功能富集分析差异基因

图8 差异基因GO功能富集分析

图9 差异基因表达蛋白互相作用网络及核心基因节点数

A:DEGs蛋白互相作用网络分析;B:DEGs共表达显著差异的节点数

通过对DEGs进行GO分析显示,二者差异最显著的功能主要涉及体液免疫反应、固有免疫反应、蛋白结合、血红素结合和跨膜信号受体活性等方面。通过对二者进行pathway分析发现,其差异最显著富集通路主要涉及造血细胞谱系、B细胞受体信号通路、破骨细胞分化、氮代谢等方面。小胶质细胞属于成体组织中存在的髓系细胞谱系,其在器官发生过程中从不同于造血干细胞的卵黄囊红细胞-骨髓祖细胞(yolk-sac erythro-myeloid progenitors,EMPs)发育而来,研究显示:BRAF(V600E)在小鼠EMP中的镶嵌表达导致组织驻留巨噬细胞的克隆性扩增和严重的迟发性神经退行性疾病[12]。部分研究[13]已经证明,在特定条件下Tregs可以产生炎性细胞因子,其中自身反应性CD4+T细胞对髓鞘自身抗原发生免疫应答参与发病过程,自身反应性CD8+T细胞和B细胞等也参与免疫损伤作用。Strom et al[14]利用基于ApoE-/-小鼠颈动脉周围的血管周围环的放置的新内膜形成模型来确定B细胞和B细胞亚群是否赋予针对损伤发展的保护,结果显示源自淋巴结的B2-B细胞或纯化的CD21(hi)CD23(hi)CD24(hi)B细胞向同基因小鼠的继发性转移减少了损伤大小和炎症,而不改变血清胆固醇水平,IL-10阻断或转移IL-10缺陷型B细胞阻止了淋巴结衍生的B细胞介导的保护,这可能为多发性硬化中的免疫调节方法开辟道路。Niedziela et al[15]通过评估血清一氧化氮及其反应性衍生物(NOx)作为复发缓解型多发性硬化患者的氮类和炎症参数之一,并比较各种类型的减少一氧化氮和炎性生物标志物的疾病缓解疗法的有效性,在一线药物治疗的受试者中证实血清NOx水平和MS持续时间之间呈负相关。随后的前瞻性研究将需要进一步确定这些核心基因在MS发病机制中的功能。

2017年修订版MS诊断标准提出,应结合MRI和血清学检测及临床特征和病史,探索特发性炎症疾病的差异诊断,包括视神经脊髓炎谱系障碍以及其他可以类似MS的复发性疾病。视神经脊髓炎谱系疾病和 MS同为中枢神经系统脱髓鞘疾病,二者的临床表现和影像学特征相似,但治疗策略却有所不同,如预防MS复发的疾病修饰治疗(如β干扰素、芬戈莫德、那他珠单抗)可加重视神经脊髓炎[16]。因此,筛选识别期生物靶标,结合基因功能和参与的通路分析,有助于研究疾病的发病机制,为尽早确诊及制定治疗方案提供判别依据。

猜你喜欢
差异基因多发性硬化
山东:2025年底硬化路铺到每个自然村
硼替佐米治疗多发性骨髓瘤致心律失常2例并文献复习
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
Apelin-13在冠状动脉粥样硬化病变临床诊断中的应用价值
磨削硬化残余应力分析与预测
紫檀芪处理对酿酒酵母基因组表达变化的影响
额颞叶痴呆伴肌萎缩侧索硬化1例
坚固内固定术联合牵引在颌面骨多发性骨折中的应用
SSH技术在丝状真菌功能基因筛选中的应用
肾阳虚证骨关节炎温针疗效的差异基因表达谱研究