基于生物信息学筛选特发性肺纤维化差异基因及中药预测

2022-09-27 10:07于晓涛杨忠杰应真真裴瑗张永威王瑞
中医药信息 2022年9期
关键词:胞外基质差异基因特发性

于晓涛,杨忠杰,应真真,裴瑗,张永威,王瑞,2✉

(1.漯河市中心医院,河南 漯河 462000;2.河南省中药制剂与加工中医药重点实验室,河南 漯河 462000)

特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)是一种特殊的慢性、进展性纤维性肺炎,表现为普通型间质性肺炎的组织学和胸部高分辨CT特征,多发人群为老年人[1]。IPF 的特征是呼吸困难和肺功能的进行性恶化,且预后较差,肺纤维化诊断后的中位生存期仅为2~3年[2]。特发性肺纤维化是由肺泡上皮局部微损伤、遗传和环境等多种因素相互作用的结果[3]。这些肺泡上皮微损伤引发了异常的上皮-成纤维细胞交流,诱导基质产生肌成纤维细胞,以及大量细胞外基质积累和肺间质重塑[4-5]。肺纤维化进展中纤维细胞活化过程和细胞外基质合成过程是复杂的病理过程,是由多种信号通路和细胞因子共同作用的结果。因此,明确IPF 进展中准确可靠的基因和生物标志物,挖掘潜在的治疗中药,对特发性肺纤维化的诊断与治疗具有重要意义[6]。

近年来基因芯片技术与高通量技术被广泛应用于疾病致病机制基因的识别及药物治疗新靶点的筛选[7-8]。本研究利用GEO 数据库下载特发性肺纤维化的基因芯片数据,确定特发性肺纤维化组织中的差异基因,并构建蛋白互作网络,利用CytoHubba 插件确定关键基因,对关键基因进行GO 功能、KEGG 通路分析以明确关键基因的生物学过程。最后采用Coremine Medical 数据库对关键基因预测可能的治疗中药,为特发性肺纤维化的分子机制研究及治疗性中药挖掘提供理论依据。

1 资料与方法

1.1 数据提取

查找基因表达数据库(https://www.ncbi.nlm.nih.gov/geo/)中特发性肺纤维化组织样品数据,下载编号GSE110147 的基因表达数据[9]。GSE110147 数据集中包含22 例特发性肺纤维化患者和11 例正常人肺组织的基因表达数据。

1.2 数据处理

基于R 语言“limmar”包对IPF 和正常组织基因数据中的探针进行数据归一化,对数据进行t检验和贝叶斯检验,当一个基因对应多个探针时取其平均值,以箱式图和主成分分析图检查样本标准化的情况和分组间聚类情况。

1.3 差异基因

利用R 语言,通过GPL6244 平台对应“hugene10 sttranscriptcluster.db”包对探针进行基因名称注释,差异表达基因(differentially expressed genes,DEGs)以log2(fold change)的绝对值>2 和P<0.01 为筛选条件,以log2(fold change)的正、负代表基因的上、下调,最后以差异表达基因的归一化表达情况构建火山图和热图。

1.4 筛选关键基因

以medium confidence >0.4 为筛选条件,利用STRING 数据库[10](https://string-db.org/)对DEG 进行蛋白质相互作用(protein-protein interaction,PPI)分析,并将得到的PPI 互作网络导入Cytoscape 软件(Version 3.7.2),利用CytoHubba插件对差异基因筛选获得关键基因,CytoHubba 插件具有11 种拓扑分析方法(MCC、DMNC、MNC、Degree、Clustering Coefficient、EPC、BottleNeck、EcCentricity、Closeness、Radiality、Betweenness Stress),以Degree对节点进行排名,前15名为关键基因(Hub gene)。

1.5 关键基因的功能注释

将所筛选的关键基因利用DAVID 数据库进行功能富集(GO 基因本体论)。采用Reactome 数据库(https://reactome.org/)[11]对Hub gene 进行KEGG 的通路富集分析及可视化。以P<0.05作为显著性富集筛选标准。

1.6 Coremine Medical数据库

将Hub gene 输入Coremine Medical 数据库(http://www.coremine.com/)中,下载该基因的相关中药信息,以P<0.05为条件确定可能的治疗性中药。

2 结果

2.1 数据预处理

所得箱式图可见各个样本中位数在一个水平线上,PCA图显示两组分离显著,说明样本间的归一化程度好,IPF和正常组样本表达相互独立。见图1。

2.2 差异基因结果

对GSE110147 的基因数据筛选共得到343 个差异表达基因(下调基因219个,上调基因124个)。火山图及热图分别见图2和图3。

2.3 差异基因PPI网络构建及关键基因筛选

差异基因的PPI网络中共包含298个节点,节点间共649 个相互作用关系。将相互作用关系导入Cytoscape软件,利用软件中的CytoHubba插件中提供的11种拓扑分析算法对网络中基因节点进行评分并构建重要模块,并依据Degree度值评分排序来确定差异基因的关键基因。结果共得到两个重要模块,包含15 个关键基因,分别为CCL2、SKIV2L2、SPP1、HSP90AA1、POLR2B、TPR、RPS13、COL1A1、VCAN、SMC3、COL3A1、COL1A2、MMP1、ESF1 和NCL。见图4和表1。

表1 差异表达基因中Degree排名前15名的基因

2.4 关键基因GO功能富集和KEGG通路分析

对CCL2、SKIV2L2、SPP1、HSP90AA1、POLR2B、TPR、RPS13、COL1A1、VCAN、SMC3、COL3A1、COL1A2、ESF1、MMP1和NCL共15个关键基因的GO分析显示,主要富集的生物过程(BP)为细胞外基质的组织、胶原蛋白分解代谢的过程、骨骼系统发育、胶原原纤维组织以及对氨基酸刺激的细胞反应;细胞成分(CC)为细胞外基质、胶原蛋白三聚物、细胞外区域、细胞外空间以及I 型胶原三聚体;分子功能(MF)为细胞外基质结构成分、血小板衍生生长因子结合、poly(A)RNA结合、mRNA结合以及相同的蛋白结合。见图5。

Reactome 富集分析(P<0.05)共筛选出14 条通路,包括糖尿病并发症中的AGE/RAGE 信号通路、松弛素信号通路、蛋白质消化吸收、IL-17 信号通路、阿米巴病、血小板激活、PI3K/Akt 信号通路、细胞外基质受体相互作用、类风湿性关节炎、癌症通路、流体剪切应力与动脉粥样硬化、NOD-like 受体信号通路、黏着斑和人类乳头瘤病毒感染路。见图6。

2.5 中药预测结果

对筛选出的15 个关键基因预测相关中药,其中12 个关键基因预测得到黄芪、三七、桂枝、黄芩、人参、丹参、党参、桂丁、黄药和紫苏等多味中药。见表2。

表2 关键基因相关中药预测表

3 讨论

3.1 特发性肺纤维化的患者和健康人之间的差异表达基因

IPF 的发病机制非常复杂,目前尚不完全清楚。纤维化细胞的增殖、迁移和活化增加,以及炎症和氧化应激都与IPF 的病因有关,细胞外基质成分的过量产生也会导致肺纤维化。目前,IPF 的发病率在全球范围内不断上升,伴随着高发病率、高病死率和不断增长的经济卫生负担,而临床可用的治疗方法却十分有限。因此,识别新的生物标志物以发现IPF 的潜在治疗靶点极为重要。

本研究提取芯片GSE110147 信息,通过生物信息学方法分析,筛选出特发性肺纤维化的患者和健康人的343 个差异表达基因,其中包括219 个下调基因和124 个上调基因;通过PPI分析筛选出了15 个与IPF 发病机制相关的关键候选基因,分别为CCL2、SKIV2L2、SPP1、HSP90AA1、POLR2B、TPR、RPS13、COL1A1、VCAN、SMC3、COL3A1、COL1A2、MMP1、ESF1 和NCL。CC 趋化因子配体2(CCL2)在人类IPF 患者中增加,并且与预后不良、疾病进展和加重的纤维化结果相关[12]。分泌性磷蛋白1(SPP1)是一种磷酸化的酸性糖蛋白,主要包括破骨细胞、活化的T 细胞和活化的巨噬细胞[13],在IPF 患者肺中增加超过20 倍,是区分IPF 肺中上调最多的基因之一[14]。基质金属蛋白酶(MMPs)可以通过降解细胞外基质(ECM)蛋白来限制肺纤维化。除了ECM 蛋白之外,MMPs 还参与了蛋白质活性的调节,包括潜在生长因子、炎症介质、细胞表面分子的分裂、抗纤维化生长因子和受体[15]。1 型胶原蛋白(COL1A1、COL1A2)是骨骼、皮肤和肌腱等许多人体组织中最丰富的胶原蛋白,其过表达与组织纤维化疾病呈正相关[16]。

3.2 关键表达基因的功能与代谢和炎症信号通路密切相关

通过对关键基因的KEGG 富集分析发现,通路主要涉及IL-17 信号通路、糖尿病并发症中的AGERAGE 信号通路、松弛素信号通路、蛋白质消化吸收、血小板激活、PI3K-Akt 信号通路以及细胞外基质受体相互作用等,进一步表明特发性肺纤维化与代谢和炎症反应关系密切。

研究显示IL-17B 可直接作用于肺部上皮细胞,诱导下游基因表达,促进中性粒细胞的招募以及Th17细胞的分化,进而造成肺部严重的炎症损伤及纤维化发生,抗生素可能对治疗肺纤维化(如IPF)有效果,并且IL-17B 可以作为潜在抗纤维化靶点[17]。AGE/RAGE 信号通路激活可刺激多种促纤维化生长因子的分泌,促进胶原沉积增加,导致组织纤维化,以及RAGE 表达增加[18]。研究显示纤维化肺呈现AGEs/RAGEs 失衡,这可能与加速衰老过程中的氧化损伤有关[19]。PI3K/Akt信号通路主要参与细胞的生长、分化、凋亡及血管生成,能使受体酪氨酸激酶(RTK)活化,使细胞质上的PI3K 转移至细胞膜,调控下游缺氧诱导因子-1α(HIF-1α)及活性氧类(ROS)系统等参与肺纤维化过程[20-21]。所筛选的15 个关键基因及其相关信号通路可作为特发性肺纤维化预防及治疗的未来研究靶点。

3.3 特发性肺纤维化治疗的潜在中药

目前没有治疗效果确切的药物用于特发性肺纤维化,临床以糖皮质激素和免疫抑制剂为主要治疗药物,虽然对特发性肺纤维化疗效较好,但也常引起较严重的不良反应[22]。本文以关键基因筛选治疗IPF 的潜在中药,得到黄芪、三七、丹参、党参、桂丁、桂枝、黄芩、黄药、人参和紫苏等多味中药。研究发现三七总皂苷可使肺纤维化小鼠肺组织中PI3K、AKT、mTOR 蛋白磷酸化水平降低,减少细胞外基质以及胶原纤维沉积,以缓解肺纤维化进程[23]。黄芪苷可降低波形纤维蛋白和人Ⅰ型胶原蛋白的表达,并且阻断H2O2对自噬相关蛋白如Beclin-1 和LC3A/B 的诱导表达,从而抑制气道中自噬的形成以缓解ROS 介导的支气管纤维化[24]。丹芍化纤胶囊由丹参、赤芍、黄芪、银杏叶等组成,可减轻肺组织的胶原沉积,并调控TGF-β1/Smads 信号转导通路以发挥抗肺纤维化的作用[25-26]。

通过对GEO 数据库中特发性肺纤维化基因数据的差异表达分析,共得到CCL2、SKIV2L2、SPP1、HSP90AA1 和POLR2B 等15 个特发性肺纤维化疾病相关的关键基因,通过对关键基因富集分析发现特发性肺纤维化与代谢和炎症反应关系密切,预测发现黄芪、三七、丹参、党参、桂丁、黄芩等多味中药可作用于相关的关键基因,可作为特发性肺纤维化疾病潜在的治疗中药。特发性肺纤维化所筛选的关键基因及预测的相关中药可为后续特发性肝纤维化机制研究及药物治疗提供参考,本研究也需要进一步实验来验证关键基因及相关中药的治疗作用。

猜你喜欢
胞外基质差异基因特发性
黄芪对细胞毒素相关蛋白A 诱导的大鼠系膜细胞外基质分泌的影响
特发性肺纤维化急性加重期证候与血清生物标志物的相关性研究
整体护理在全身型幼年特发性关节炎中的应用
维生素D联合GnRHa在特发性性早熟患儿中的应用
基于“土爰稼穑”探讨健脾方药修复干细胞“土壤”细胞外基质紊乱防治胃癌变的科学内涵
脱细胞外基质制备与应用的研究现状
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
运动对衰老的骨骼肌中MMPs及TIMPs的影响
紫檀芪处理对酿酒酵母基因组表达变化的影响
SSH技术在丝状真菌功能基因筛选中的应用