基于GEO数据库筛选阿尔茨海默病的关键基因*

2023-09-20 11:09李方舟郗雪艳杜伯雨戴文敬
现代医药卫生 2023年17期
关键词:表型关键标志物

李方舟,郗雪艳,杜伯雨,2,戴文敬△

(湖北医药学院:1.生物医药研究院;2.基础医学院,湖北 十堰 442000)

阿尔茨海默病(AD)是一种由阿诺斯·阿尔茨海默(Alois Alzheimer)发现、埃米尔·克雷佩林(Emil Kraepelin)命名的常见并伴随缓慢进展的神经性退行痴呆[1-2]。AD主要以淀粉样β肽沉聚在大脑最容易受影响的部位,例如大脑内侧颞叶、皮层而形成的神经斑块和神经纤维缠结为特征[3]。AD是一个全球性的健康难题,影响着全世界范围内近5 000万人口的健康,是造成人类痴呆的主要原因。根据预测,AD的患病人数将会在10年之后翻倍,并在2050年达到近1.5亿[4-5]。因此,AD的诊断与治疗方法的开发应用变得尤为重要。

AD的病理特征主要分为两大类:(1)通过积聚而造成的正向损伤,如神经纤维缠结、淀粉样斑块和其他在AD患者脑内发现的沉积物;(2)由于萎缩而造成的负向损伤,如神经细胞、轴突、树突、海马体等大面积萎缩[6-8]。

到目前为止,关于AD的发病进展及发病机制提出了一些假设,但具体病因和疾病进展机制还有待证明。关于AD的病因提出了2条主要的假说,胆碱成因假说和淀粉样蛋白成因假说。胆碱成因假说认为胆碱功能受损是造成AD的关键因素;淀粉样蛋白成因则认为淀粉样蛋白生成及修饰过程中有异,产生淀粉样蛋白异构体是AD的主要发病原因[5,9-10]。作为一种多因素疾病,其病程的进展与多种风险因素相关,如年龄的增长、遗传、头部损伤、血管疾病、细菌或病毒的感染、重金属等环境因素等[5]。其中最为主要的风险因素是年龄,绝大多数AD患者的年龄均在65岁以上,年轻人(30岁左右)除非是家族遗传性AD,否则基本不会患有这种疾病[11]。衰老是迟发性AD的最大危险因素,占AD病例的95%以上。但近期确诊1例排除已有基因突变和家族性AD的19岁AD患者,表明AD将不再局限于老年人[12]。

截至目前,AD没有治愈的方法,只有一些改善症状的治疗手段[13-14]。而最大限度地减轻AD对患者损害的方法是在AD进展为轻度症状前给予患者神经性保护的药物[15]。所以对潜在AD患者的早期诊断是缓解疾病症状极为关键的影响因素。2011年美国国家衰老研究所阿尔茨海默病协会提出了新的诊断标准,这包括临床症状及生物标志物的共同诊断[5]。AD有2类生物标志物:(1)可以通过正电子成像术和脑脊液中检测到的脑淀粉样蛋白标志物;(2)神经元损伤标志物,如脑脊液tau蛋白、与代谢相关的氟脱氧葡萄糖(FDG)及通过核磁成像技术直接观测到的大脑萎缩等[16-18]。

过去的生物信息学分析仅仅分析筛选了AD的差异性表达基因作为AD的诊断标志物,如EGFR、CD44、BCL2L1、HGG4、LPP、CTAGE等[19-20]。为了进一步了解AD的发病原因及发病机制,发掘AD的特征标志物,提高诊断效率,本研究综合WGCNA、差异性分析及Lasso回归分析,基于GEO数据库中AD患者组及对照组基因表达图谱,用R语言更准确地筛选AD的关键基因及信号通路,以达到初步筛选AD关键基因、开阔疾病的诊断思路、开发有效治疗方法的目的。

1 资料与方法

1.1数据来源及去批次 研究所用数据来源于美国国立生物技术中心的GEO数据库。以“Alzheimer′s disease”“Homosapiens”检索高通量测序数据集。筛选出注释平台分别为GPL570、GPL27556的2个数据集GSE5281和GSE138260。运用R语言对2个数据集中的数据进行ID转换、数据合并,并对GEO 2组数据集进行去批次运算,以去除2组数据的批次效应,增加接下来生物信息学分析的准确性。

1.2WGCNA筛选与疾病相关基因 用R语言进行WGCNA分析,排除异常信息及异常样本,构建共表达网络,将基因分为不同的模块。不同基因模块与表型数据关联分析,计算筛选出与患病相关性最高的基因模块。输出这个模块基因的表达数据集以进行后续生物信息学分析。

1.3基因表达差异性分析 用R语言对数据按照表型进行分组后,进行表达差异性分析,筛选出|logFC|>1.2且P<0.05的差异表达基因。

1.4Lasso回归进一步筛选关键基 应用R语言对筛选出的差异表达基因进行Lasso回归筛选与表型相关基因。

1.5功能富集分析 应用R语言对差异表达基因进行京都基因和基因组数据库(KEGG)和基因本体(GO)富集分析。KEGG富集分析可以用于分析筛选出基因可能的生物学功能和其涉及的相关信号通路;而GO富集分析则可用于分析基因的相关功能,又可分为生物过程(BP)、分子功能(MF)和细胞成分(CC)。

2 结 果

2.1GSE5281和GSE138260数据合并及对数据进行去批次效应 GSE5281数据集包含74例正常和84例AD患者的基因表达信息;GSE138260数据集则包含19例正常和17例AD患者的基因表达信息。2组数据未处理的数据点散乱(图1B),进行去批次效应后数据点相对集中在一个范围内(图1A);减小后续分析的误差。

注:A.GEO 归一化数据图;B.GEO 原始数据图。

2.2WGCNA筛选与疾病相关的基因集 数据集去批次效应后,R语言排除异常离群样本GES5281_GSM119676(图2A)。通过表达矩阵与表型数据的共同载入,确定软阈值为8,构建表达网络(图2B)。

注:A.GEO 样本聚类树;B.AD与健康的模块-性状关系图;C.尺度独立性和平均连接阈值图;D.基因模块聚类树。

通过WGCNA分析基因共被分为14个模块(图2C);是否患病与14个基因模块的相关性计算表明brown模块的704个基因与AD的相关性最高,其相关性系数为0.53,P值为9e-16(图2D)。

2.3筛选疾病相关基因中差异性表达的基因 以brown模块中704个基因的表达矩阵为对象,以|logFC|>1.2且P<0.05为阈值筛选表达差异的基因并作图。结果显示共有39个表达差异的基因,其中10个下调基因,29个上调基因(图3A、B)。

注:A.火山图;B.热图。

2.4Lasso回归筛选关键基因与验证 通过Lasso回归构建表型模型,Lasso算法推荐有2个阈值;lambda.min对应出9个关键基因,lambda.1se对应出7个关键基因(图4A、B)。R语言对模型进行自我预测,选择曲线下面积(AUC)值更接近1的lambda.min。筛选出9个关键基因为MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX(表1)。通过受试者操作特征曲线(ROC曲线)验证Lasso回归筛选的基因,其AUC值均在0.74以上(图4E、F),证明这9个基因均可作为潜在AD的生物标志物。其中,MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX这8个基因在AD中表达上调;ATP5B这个基因在AD中表达下调(图5)。

表1 Lasso筛选的12个关键基因

注: A.系数分布图;B.Lasso 交叉验证曲线;C、D. min,1se ROC 曲线;E.MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1 ROC曲线; F.MKNK2、ZC3H7B、CMBL、JPX 曲线。

图5 9个关键基因的表达箱线图

2.5KEGG和GO的信号通路富集分析 对差异表达的基因进行KEGG富集分析和GO富集分析显示,KEGG富集分析显示这39个基因主要参与矿物质元素的吸收、近端小管碳酸氢盐回收等通路调控(图6A);GO富集分析表明,差异表达基因的主要分子功能与氧化还原驱动的活性跨膜转运蛋白、磷脂酰胆碱翻转酶活性等相关(图6B)。

注:A.KEGG分析气泡图;B.GO分析气泡图。

3 讨 论

为了更准确地了解AD的内在发病机制,挖掘其生物标志物,本研究使用现代生物信息学方法,从GEO数据库2个数据集GSE5281和GSE138260的AD患者与健康对照组的基因表达数据进行R语言综合分析,筛选AD患病关键基因及对基因进行富集分析。首先R语言数据合并后,对合并数据进行标准化处理;WGCNA分析对基因表达数据中的基因分为14个模块,对模块和患病与否进行相关性分析筛选出704个关键基因。随后,对这704个关键基因进行差异性分析进一步筛选出上调29个、下调10个,共39个差异表达关键基因。本研究构建了表型模型,利用Lasso回归分析最终筛选出MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 9个关键基因,其可能是潜在的AD生物标志物。ATP5B在AD患者中显著性下调,ATP5B参与多种细胞功能,包括腺苷基核糖核苷酸结合活性、血管抑素结合活性和质子转运ATP酶活性等,参与脂质代谢过程[21-22]。MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 8个基因在AD患者中表达上调,其中MALAT1是多种基因的转录调节因子,并参与调控细胞周期[23],NSUN6、SRRM2、SLC35E1、MKNK2等基因均与基因的转录调控相关。这些基因参与调控AD的具体机制及其在其中起到的作用需要进一步的实验验证。

本研究对差异性表达基因的富集分析显示,这些关键基因与矿物质元素的吸收、近端小管碳酸氢盐回收等通路相关,其分子功能主要涉及氧化还原驱动的活性跨膜转运蛋白、磷脂酰胆碱翻转酶活性过程,提示了在AD疾病的进展中,微量元素的吸收、氧化还原等代谢反应、脂质代谢可能起到关键作用。

本研究虽然以GEO数据库中的2个数据集为研究对象,筛选出了潜在的AD诊断标志物,即MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX,为AD的诊断、机制和治疗靶点提供了新的思路,但需实验进一步验证。生物信息学综合差异基因表达、WGCNA及Lasso回归分析的筛选方法可极大地缩短疾病关键基因、生物标志物的选择确认,有助于揭示疾病的内在分子机制,从而开发更加精准的诊断方法与更加有效的治疗方式。

猜你喜欢
表型关键标志物
硝酸甘油,用对是关键
高考考好是关键
建兰、寒兰花表型分析
脓毒症早期诊断标志物的回顾及研究进展
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
冠状动脉疾病的生物学标志物
慢性乙型肝炎患者HBV基因表型与血清学测定的临床意义
肿瘤标志物在消化系统肿瘤早期诊断中的应用
MR-proANP:一种新型心力衰竭诊断标志物
72例老年急性白血病免疫表型分析