刘玲玲,王国佐,李子滢,李晟,陈彦霖,林霞,黄娟,秦莉花
《美国心脏协会心脏病和卒中统计报告——2020年更新版》[1]显示,脑卒中是世界人口死亡的第二大原因。研究显示,脑卒中是我国居民死亡的第一大病因[2]。数据调查显示,2017年全球脑卒中患者总数为1.042亿例,其中自发性脑出血1 790万例(占17.2%),占因脑卒中死亡患者总数的50%[1,3-4]。自发性脑出血好发于中老年期,且随着我国老龄化社会进程的加快,老年自发性脑出血的发生率呈大幅上升趋势[5]。近年来,自发性脑出血的诊断、治疗、预防等方面已取得重大进展,常用的诊断方法有脑成像和血管成像如CT或MRI等;治疗包括急性医疗管理、外科手术管理、二级预防和抗血栓药物管理等[6]。然而,自发性脑出血患者的临床预后仍很差,具有高死亡率和高致残率的特点[7],给患者、家庭和社会带来巨大的负担。因此,需要进一步明确自发性脑出血发生、发展的分子机制,寻找用于早期筛查的潜在分子靶标和诊断标志物。本研究从基因表达数据库(gene expression omnibus,GEO)下载GSE24265数据集,利用生物信息学技术分析在老年自发性脑出血发生、发展中可能发挥重要作用的相关通路及关键基因,从而为老年自发性脑出血的早期诊断和防治提供借鉴。
1.1 数据集的获取 2021年9—10月,从GEO下载GSE24265数据集,平台号为GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。GSE24265数据集包括4例老年自发性脑出血死亡患者(中位年龄为79岁)的11个脑样本,本研究从其中选取4个血肿周围区域样本(包括GSM596842、GSM596845、GSM596848、GSM596850)作为实验组,相应的4个对侧灰质样本(包括GSM596843、GSM596846、GSM596849、GSM596851)作为对照组。
1.2 数据预处理 去掉GSE24265数据集中一个探针对应多个分子的探针,当遇到对应同一个分子的探针时,仅保留信号值最大的探针;采用R软件(3.6.3版本)对过滤后的数据进行统计分析与可视化,其中统一流形逼近与投影(uniform manifold approximation and projection,UMAP)包(0.2.7.0版本)用于UMAP分析,ggplot2包(3.3.3版本)用于绘制样本数据归一化的箱式图、主成分分析(principal components analysis,PCA)散点图和UMAP图。
1.3 差异基因的筛选 差异基因的筛选参数标准为logFC>1,校正P值<0.05。采用R软件(3.6.3版本)进行数据的统计分析与可视化:采用ggplot2包(3.3.3版本)绘制火山图,以直观地展示每个差异基因在每个样本中的分布情况;采用ComplexHeatmap包(2.2.0版本)绘制热图,以直观地展示每个差异基因在每个样本中的表达情况[8]。
1.4 GO功能、KEGG通路富集分析及基因集富集分析(gene set enrichment analysis,GSEA) 利用R软件(3.6.3版本)进行GO功能、KEGG通路富集分析及GSEA,其中org.Hs.eg.db包(3.10.0版本)用于ID转换,clusterProfiler包(3.14.3版本)用于富集分析,ggplot2(3.3.3版本)包用于可视化图的制作[9]。GSEA参考的基因集为c2.cp.v7.2.symbols.gmt[Curated],基因集数据库为MSigDB Collections。GO功能、KEGG通路富集分析以校正P值<0.05为阈值来筛选差异基因的主要富集功能和通路;GSEA以错误发现率(false discovery rate,FDR)<0.25且校正P值<0.05为显著富集[10]。
1.5 蛋白质互作网络(protein-protein interaction networks,PPI)的制作及关键基因的选取 采用STRING数据库[11](http://string-db.org)对差异基因制作PPI,其互作分数阈值为0.40,再将所得结果导入cytoscape软件(3.8.2版本)以分析PPI图,采用MCOD、cytoHubba插件的MCC计算法进行关键基因的筛选;利用韦恩图在线工具将MCOD、cytoHubba插件筛选出来的关键基因进行交叉比对,最终获得老年自发性脑出血的关键基因。
2.1 数据预处理结果 箱式图分析结果显示,各个样本中位数基本在一个水平线上,提示样本间归一化程度好,见图1;PCA散点图和UMAP图分析结果显示,各组的样本基本分开,提示后续差异分析有意义的结果可能会较多,见图2~3。
图1 两组样本数据的箱式图Figure 1 Boxplots of two sets of sample data
图2 两组样本数据的PCA散点图Figure 2 PCA scatter plot of two sets of sample data
图3 两组样本数据的UMAP图Figure 3 UMAP plot of two sets of sample data
2.2 差异基因筛选结果 两组样本数据比较共有415个差异基因,其中高表达53个、低表达362个,见图4~5。
图4 差异基因的火山图Figure 4 Volcano map of differential genes
图5 差异基因的热图Figure 5 Heatmap of differential genes
2.3 GO功能、KEGG通路富集分析及GSEA结果 GO功能富集分析共得到226条有明显差异的GO条目,包括145条生物过程(biological process,BP)条目、44条细胞组成(cellular component,CC)条目、37条分子功能(molecular function,MF)条目,差异基因介导的BP主要富集于化学突触传递的调节、突触信号转导的调控、神经元投射发育的调节、树突发育、轴突发生,CC主要富集于突触膜、突触后密度蛋白、谷氨酸能突触、神经元到神经元突触、非对称性突触,MF主要富集于阳离子通道活性调控、门控通道活性调控、钙离子跨膜转运蛋白活性调控、离子门控通道活性调控、跨膜肾上腺素受体活性调控,见图6A~6C。KEGG通路富集分析结果显示,差异基因主要富集于轴突导向信号通路、催产素信号通路、肥厚型心肌病、扩张型心肌病、致心律失常性右心室心肌病等17条通路,见图6D。GSEA结果显示,共有734个基因集,其中显著富集的基因集共有364个,包括人体补体系统、无意义介导的衰变、流感病毒感染、含硒氨基酸的代谢、信号识别粒子(sigllal recogllition panicle,SRP)依赖性共翻译蛋白靶向膜、真核翻译起始、Slits和Robos的表达调节、细胞核和胞质中的rRNA修饰等,见图7。
图6 GO功能、KEGG通路富集分析排名前5位的差异基因的可视化图Figure 6 Visualization of the top 5 differential genes in GO function and KEGG pathway enrichment analysis
2.4 PPI及关键基因选取结果 MCOD插件分析结果显示,一共有11个聚类,选择分数最高的聚类1,得分为10.364分、节点为12个、边数为57条,筛选出的关键基因为RPS6、RPL8、KCNV1、FAU、RPL35、KCNS1、SMKR1、RPS5、DOCK4、KCNQ5、RPS19、RPLP1,见图8;cytoHubba插件分析结果显示,按照得分由高到低的关键基因依次为RPS6、RPS5、RPS19、RPL8、RPL35、RPLP1、FAU、EPHB1、EFNB3、EFNB2,见图9。最终筛选出老年自发性脑出血的关键基因为RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。
图8 MCODE插件分析结果Figure 8 MCODE plug-in analysis results
图9 cytoHubba插件分析结果Figure 9 cytoHubba plug-in analysis results
自发性脑出血是一种致命的脑血管疾病,具有高死亡率和高发病率的特点,占所有脑卒中患者的10%~20%[12-13],会导致不良预后和严重的精神运动性障碍。随着全球人口老龄化的加剧,老年自发性脑出血患者越来越多,尤其在人口老龄化问题尤为突出的中国[13]。迄今为止,尚未发现有效的手术或药物疗法可以改善自发性脑出血患者的功能预后。因此,探索并寻找老年自发性脑出血新的生物标志物和治疗靶点非常重要。本研究旨在利用生物信息学技术分析老年自发性脑出血的相关通路及关键基因。
本研究结果显示,两组样本数据比较共有415个差异基因,其中高表达53个、低表达362个。进一步进行GO功能富集分析,结果显示,差异基因介导的BP主要富集于化学突触传递的调节、突触信号转导的调控、神经元投射发育的调节、树突发育、轴突发生,CC主要富集于突触膜、突触后密度蛋白、谷氨酸能突触、神经元到神经元突触、非对称性突触,MF主要富集于阳离子通道活性调控、门控通道活性调控、钙离子跨膜转运蛋白活性调控、离子门控通道活性调控、跨膜肾上腺素受体活性调控。既往研究表明,突触后密度蛋白有望成为改善脑出血患者预后的靶标,并可提高脑出血大鼠的认知功能和学习能力,减轻脑出血后继发性脑损伤和行为认知障碍[14-15]。谷氨酸能突触在大鼠脑出血发病12 h和24 h后过渡到细胞内进行信号转导[15]。本研究KEGG通路富集分析结果显示,差异基因主要富集于轴突导向信号通路、催产素信号通路、肥厚型心肌病、扩张型心肌病、致心律失常性右心室心肌病等17条通路。既往研究表明,轴突导向蛋白浓度与脑出血的炎症反应、出血严重程度和临床预后密切相关[16];脑卒中后抑郁患者差异表达基因主要作用于轴突导向信号通路[17]。
由于传统筛选差异基因的方法会掩盖一些表达上调倍数较低但具有重要生物学意义的基因,本研究采用GSEA来筛选与老年自发性脑出血有关的基因集,结果显示,共有734个基因集,其中显著富集的基因集共有364个,包括人体补体系统、无意义介导的衰变、流感病毒感染、含硒氨基酸的代谢、SRP依赖性共翻译蛋白靶向膜、真核翻译起始、Slits和Robos的表达调节、细胞核和胞质中的rRNA修饰等。既往研究表明,补体系统在脑出血发生后被激活,主要表现为症状出现后的最初24 h内脑出血患者补体系统的凝集素通路介导的蛋白浓度与健康个体存在明显差异[18],激活的补体系统可对神经元产生细胞毒性作用,对脑组织产生继发性损伤[19]。突变体COL4A1的无意义介导的衰变明显减少,使COL4A1的单倍体不足,这是脑出血的原因[20]。流感病毒感染触发细胞因子级联反应,可加重缺血性脑损伤并增加组织纤溶酶原激活剂治疗后脑出血的发生风险[21],也可使脑卒中后溶栓患者的血浆MMP-9水平升高,而血浆MMP-9水平升高与溶栓后脑出血相关[22]。Slits是一种分泌型糖蛋白,可与跨膜受体家族成员Robos结合,在大脑海马区中广泛表达,具有区域偏好[23]。
本研究最终筛选出老年自发性脑出血的关键基因为RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。其中RPS6是一种核糖体蛋白,是40S核糖体亚基的关键结构成分[24],在胶质母细胞瘤干细胞的发育和维持中起着至关重要的作用,且与放化疗和多形性胶质母细胞瘤复发相关[25];限制RPS6可抑制上皮性卵巢癌细胞的增殖、侵袭和迁移能力,故RPS6可能成为上皮性卵巢癌的新型生物标志物和分子靶标[26]。RPS6是第一个显示出磷酸化作用的核糖体蛋白[27],RPS6磷酸化是被广泛使用的跟踪脑神经元活性变化的标志物[28],且RPS6磷酸化对于神经元的整个蛋白质合成是不可或缺的,可能控制特定大脑区域[29]。RPL8是一种核糖体蛋白,研究表明,RPL8在脑出血患者脑组织中的表达水平增加[30]。FAU是一种核糖体蛋白,可能是缺血性脑卒中的新预后生物标志物和潜在治疗靶标[31]。RPL35是一种核糖体蛋白,研究表明,人类神经母细胞瘤组织中RPL35水平升高提示预后不良[32]。RPS5是一种核糖体蛋白,与酒精相关性肝癌的发展有关,对患者预后具有重要的预测价值[33],且被确定为结肠癌患者复发和进展的危险因素[34]。RPS19是一种核糖体蛋白,是40S核糖体亚基的构成成分,其精氨酸67缺失,先天性纯红细胞再生障碍性贫血患者可表现出颅面、骨骼和脑部异常,并伴有各种神经行为异常[35]。RPLP1是一种关键的核糖体蛋白,对神经系统胚胎和大脑发育至关重要[36],其与肿瘤发生和原代细胞永生化有关,是三阴性乳腺癌患者预后不良的潜在生物标志物和阻止癌症转移的治疗靶标[37]。
综上所述,与老年自发性脑出血发病机制有关的信号通路包括轴突导向信号通路、催产素信号通路、肥厚型心肌病、扩张型心肌病、致心律失常性右心室心肌病等;其关键基因为RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。这为进一步研究老年自发性脑出血的机制提供了理论基础,为脑出血的临床诊治和预防提供了理论依据。但本研究是基于生物信息学方法对GEO中的4例老年自发性脑出血死亡患者的4个血肿周围区域样本和相应的4个对侧灰质样本进行比较分析,研究结果具有一定局限性,只能对相关信号通路和关键基因参与老年自发性脑出血的发生发展过程提出合理猜想,其相互作用的具体机制还需要更多的探究与实验证实。
作者贡献:秦莉花进行文章的构思与设计,负责文章的质量控制及审校,对文章整体负责、监督管理;刘玲玲撰写、修订论文;王国佐、李子滢、黄娟负责数据收集、整理;李晟、陈彦霖、林霞负责数据分析。
本文无利益冲突。