段凯旋,曹珊,祁祥,聂兴源
河南中医药大学,河南 郑州 450046
动脉粥样硬化(atherosclerosis,AS)是一种由脂质和纤维物质过度积聚,导致动脉变得狭窄和硬化的慢性炎症性疾病,是许多致命性心血管疾病的病理基础[1-2]。据世界卫生组织(WHO)公布,全球每年约1 700万人死于心血管疾病,其中AS是最主要的致死原因[3]。随着药物、手术和介入等疗法的不断发展,AS的病死率呈下降趋势。尽管他汀类药物在AS的治疗方面取得了一些进展,但单一化学成分药物对多基因、多因素相关的AS疾病的疗效并不理想[4]。AS的病因非常复杂,涉及家族性高胆固醇血症(familial hypercholesterolemia,FH)、高脂血症、高血压、吸烟、糖尿病、肥胖、免疫损伤和遗传因素等[5]。由于AS病因复杂,并发症多,确定与AS相关生物标志物,不仅可以改善患者的治疗,降低发病风险,还可以指导新疗法的设计。
微阵列常用于进行大规模生物信息学研究,阐明多个不同基因与特定疾病之间的关系[6]。自21世纪以来,生物信息学技术越来越多地用于挖掘疾病的潜在遗传靶点,助力研究人员鉴定与AS发生和发展相关的差异表达基因(differentially expressed genes,DEGs)及其潜在通路[7-8]。研究发现,微阵列已被广泛用于预测AS的潜在靶点[9]。例如,最近的一项综合生物信息学分析强调了肿瘤坏死因子(tumor necrosis factor,TNF)信号通路在AS发展中的作用[10]。故本研究通过获取GSE13985和GSE6088数据集,进行样本的GEO2R分析,得出DEGs分为上调基因和下调基因。进一步利用生物信息学方法分析相关生物学过程,以期为中医药治疗AS探索新的靶点。
1.1 数据集的获取以“Atherosclerosis”为关键词,在美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)创建并维护的GEO数据库(https://www.ncbi.nlm.nih.gov/geo)[11]检索筛选与AS研究相关的数据集GSE13985(平台GPL570)和GSE6088(平台GPL570)。
1.2 DEG的数据处理使用GEO2R工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/)识别AS样本中DEGs,设置筛选标准|log2FC|>1且P<0.05,利用R(3.6.3版本)的“pheatmap”包和“ggplot2”包将表达数据以热图和火山图呈现,同时筛选出两个数据集中共同表达的上调、下调DEGs以韦恩图呈现。
1.3 DEGs的富集分析将“1.2”项获取的共同DEGs导入DAVID(Database for Annotation,Visualization and Integrated Discovery;https://david.ncifcrf.gov/)数据库[12],利用R的“ggplot2”包进行基因本体(Gene Ontology,GO)功能富集分析、京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析(P<0.05)。根据P值选取最佳结果进行可视化分析。
1.4 蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络和Hubba插件分析为了探究DEGs之间的相互作用,将上调、下调的DEGs导入到STRING(Search Tool for the Retrieval of Interacting Genes;https://string-db.org/)数据库中构建PPI网络,最高置信度大于0.900[12]。保存结果并下载TSV文件导入Cytoscape 3.9.1,基于cyto-Hubba插件根据度值进行基因排名,获取前10个最高程度值Hub基因及前4个关键基因。
1.5 核心基因中药及成分预测将排名靠前的核心基因作为预测靶标,以P<0.05为标准将其导入医学本体信息检索数据库(Coremine Medical)中,以药物被《中华人民共和国药典》收录为条件,进一步筛选对各预测靶标具有生物学效应的前10位中药并统计频数[13]。
2.1 DEGs分析使用PCA来验证数据集GSE13985和GSE6088的可重复性。根据PCA,数据集GSE13985和GSE6088的组内可重复性是可靠的(图1)。GSE13985包含5例FH组,5例对照健康组;GSE6088包含3例纯合FH组,7例杂合FH组,13例健康组。在GSE13985数据集中总共鉴定出 2 135 个DEGs(744个上调,1 391个下调)(图2),在GSE6088数据集中鉴定出1 725个DEGs(773个上调,952个下调)(图3)。其中,两个数据集共有186个上调的DEGs和220个下调的DEGs(图4)。
图1 GSE13985和GSE6088的PCA验证
注:A:GSE13985数据集中前40个DEGs的表达热图;B:GSE6088数据集中前40个DEGs的表达热图。
注:A:GSE13985数据集对应的火山图;B:GSE6088数据集对应的火山图。
注:A:GSE13985和GSE6088数据集中的上调DEGs;B:GSE13985和GSE6088数据集中的下调DEGs。
2.2 GO功能、KEGG通路富集分析GO功能富集分析显示406个DEGs主要通过对核糖体RNA代谢过程、β-连环蛋白TCF复合物组装、RNA剪接、RNA转录、RNA转录后加工、脂质磷酸化、肽基赖氨酸修饰、酯交换反应、组蛋白修饰等生物过程影响AS;其影响的分子功能主要定位在赖氨酸乙酰化组蛋白结合、乙酰化依赖性蛋白结合、钙黏蛋白结合、细胞黏附分子结合、甲状腺激素受体结合、转录辅压子活性、转录辅激活因子活性、核激素受体结合、组蛋白甲基转移酶活性、激素受体结合、细胞-基质-黏附物结、细胞皮层、剪接体复合体、黑素小体、色素颗粒等;细胞组分参与U2型催化前剪接体、U12型剪接体复合体、催化前剪接体、黏着斑、组蛋白甲基转移酶复合物、甲基转移酶复合物、液泡膜、溶酶体膜等(图5)。
注:A:DEGs和前15个GO功能的富集结果,红色表示上调基因,蓝色表示下调基因;B:前12个GO功能富集的Z-score结果。
KEGG通路主要包括代谢途径、缺氧诱导因子-1(hypoxia-inducible factor-1,HIF-1)信号通路、沙门菌感染、剪接体、卡波西肉瘤相关疱疹病毒感染、甲状腺激素信号通路、RNA降解、肾细胞癌、前列腺癌、磷脂酰肌醇信号系统、癌症中的胆碱代谢、急性髓系白血病、赖氨酸降解、粘合连接、乙型糖尿病等(图6)。
注:A:DEGs与前10条KEGG通路之间的关系;B:对应DEGs和前10条富含KEGG二级通路的关系。
2.3 PPI网络构建和Hub基因确定采用STRING数据库构建DEGs的PPI网络,确定DEGs相互之间作用关系,其中,主要涉及313个节点,982条边(图7),将DEGs信息导入Cytoscape3.9.1,利用cyto-Hubba插件,构建DEGs上调、下调基因PPI(图8)。根据度值确定前10个Hub基因,分别为CTNNB1、POLR2A、CREBBP、BPTF、SMARCA4、KMT2D、KMT2A、POLR2F、SETD1A和HSPA5。其中,前4个关键基因为CTNNB1、POLR2A、CREBBP和BPTF(图9和表1)。
表1 Top模块中前10个基因的程度
图7 基于STRING数据库构建DEGs的PPI网络图
注:红色为上调基因;蓝色为下调基因。
图9 使用cyto-Hubba根据度值确定前10个Hub基因及前4个关键基因(基因按照颜色从深到浅的程度降序排列)
2.4 抑制AS的中药筛选最终得到与关键基因相关的中药共122种,根据频数统计,黄芩、人参、三七、桑叶、藏红花、冬虫夏草、雷公藤可同时作用于3个靶基因,结果提示上述中药具有多靶点多机制发挥治疗AS的潜力,频数统计结果见表2。
表2 抑制AS的中药预测
AS作为一种慢性炎症性疾病,其主要特征是胆固醇升高、血管壁增生、脂质堆积等[14-15]。胆固醇是类固醇激素的前体,也是细胞膜的重要组成部分。胆固醇的合成、吸收及排泄改变的人群易患AS起源的心血管疾病[16]。过量的胆固醇可以加重AS,引起动脉管壁狭窄,并在动脉内膜形成斑块[17]。FH是常见的遗传性代谢疾病之一,血液中异常高水平的低密度脂蛋白胆固醇(low density lipoprotein cholesterol,LDL-C)会导致AS过早发作。
本研究通过获取GSE13985和GSE6088数据集,进行样本的GEO2R分析,得出DEGs分为上调基因和下调基因。其中分析GSE13985数据集,确定了744个上调和1 391个下调与AS相关的DEGs;分析GSE6088数据集,确定了773个上调和952个下调与AS相关的DEGs。GO功能和KEGG通路富集分析表明,AS中的DEGs主要参与核糖体RNA代谢过程、RNA剪接、酯交换反应、组蛋白修饰、黏着斑、细胞-基底黏附结和代谢途径,涉及HIF-1信号通路、甲状腺激素信号通路等。抑制AS的中药筛选结果表明,黄芩、藏红花、冬虫夏草等可以通过关键靶基因CTNNB1、POLR2A、CREBBP富集在代谢途径和HIF-1信号通路发挥抗AS作用。
AS的早期阶段,高胆固醇血症会增加LDL的浸润和滞留,释放炎症因子,激活炎症细胞[18]。LDL与其受体(LDLR)的结合促进其吸收和释放游离胆固醇,LDL与肝脏分泌的游离失脂蛋白结合形成脂蛋白a,并与细胞外基质结合沉积在血管中,在LDL过量的情况下导致AS发生[19]。HIF-1α主要通过转录激活、调节内皮细胞、巨噬细胞和平滑肌细胞的反应,从而促进AS的发展[20]。血管内皮细胞的缺氧是加速AS过程的另一个重要因素,它会导致血管内皮细胞中活性氧(reactive oxygen species,ROS)增加,加剧脂质氧化,并在缺氧条件下引起蛋白质和核酸变性[21]。HIF-1α可以促进血管生成、AS斑块中的炎症细胞浸润、平滑肌细胞的增殖和迁移以及促进巨噬细胞泡沫化[22]。斑块内缺氧和血红蛋白:结合珠蛋白复合物激活巨噬细胞中HIF-1α依赖性信号,导致血管内皮生长因子(vascular endothelial growth factor,VEGF)分泌增强,进而增加斑块内血管生成、血管通透性和白细胞募集[23]。
通过Cytoscape软件插件分析,与AS相关的hub基因主要是CTNNB1、POLR2A和CREBBP。故CTNNB1、POLR2A和CREBBP有望成为新型治疗AS药物开发的生物标志物。由于AS的发病机制与多基因遗传相关,表观遗传修饰对心血管疾病发病和防治起着重要作用[24]。表观遗传学是不断发展的生物医学研究领域。在AS中,多种血管细胞(主要包括内皮细胞、血管平滑肌细胞和单核细胞/巨噬细胞)存在整体表观遗传改变,从而补充遗传异常[25]。CTNNB1基因编码的蛋白β-catenin是一种黏着连接蛋白,与钙黏蛋白、α-catenin共同组成黏附连接复合体,调控细胞生长以及细胞间的黏附,对上皮细胞层的构建与维持起着重要作用[26]。CTNNB1即WNT/β-catenin信号通路,经典的WNT/β-catenin通路在心血管疾病的几种病理生理机制中起着关键作用,例如炎症、钙化、纤维化和脂质浸润等[27]。WNT/β-catenin通路的激活增强了与炎症、内皮功能障碍、血管平滑肌细胞增殖和血管钙化有关靶标的转录[28]。POLR2A是细胞存活的必需基因,参与催化活性和转移酶活性,对大多数蛋白质编码基因的转录至关重要,包括细胞增殖、迁移等[29]。POLR2A的丢失会触发整体基因表达的失调并促进衰老表型,最终造成细胞异常死亡[30]。CREBBP是一种多功能转录共激活因子,可与多种转录因子相互作用并充当组蛋白乙酰转移酶,同时也参与细胞转录、血管重塑、内膜增生、细胞凋亡和信号传导等生物学功能[31-32]。由于CREBBP受多种途径调控,CREBBP缺陷型平滑肌细胞在体外表现出血清非依赖性增殖和肥大,并分泌可刺激外膜成纤维细胞增殖和表达细胞外基质蛋白的可溶性因子促进AS发生[33]。CREB蛋白不仅可以维持肝脏脂质代谢,而且在脂质合成、脂肪酸氧化和脂蛋白代谢的调节中,可以通过刺激Bnip3诱导的线粒体自噬来改善肝脏脂质代谢和肝功能,从而减少线粒体依赖性细胞死亡并防止肝脂肪变性、纤维化[34]。随着对表观遗传学的深入研究,染色质调控因子在心肌缺血再灌注损伤、高血压、AS等心血管疾病中发挥重要作用[35]。通过关键基因CTNNB1、POLR2A和CREBBP反向预测相关的中药,获得了黄芩等7种中药。从中提炼出AS主要以活血化瘀、益气滋阴为基本治法,为临床运用中医药治疗AS提供有益参考。
FH对于AS的形成至关重要,遗传变异可以调节LDL-C的水平促进AS发展。借助生物信息学分析,发现中药黄芩、人参、三七等7种中药通过关键基因CTNNB1、POLR2A和CREBBP富集在代谢途径和HIF-1信号通路上发挥抗AS作用。CTNNB1、POLR2A和CREBBP这3个基因有望成为诊断AS生物标志物的关键Hub基因,为进一步深入探索诊断AS提供靶点,也为中医药治疗AS的研究提供新的理论依据。