基于生物信息学分析挖掘与糖尿病和结核病免疫浸润相关的生物标志物*

2024-04-24 05:32彭英杰吴尚英王媛媛
医学理论与实践 2024年8期
关键词:差异基因信息学粒细胞

高 岩 彭英杰 吴尚英 王媛媛

1 山东省潍坊市妇幼保健院 261000; 2 潍坊市人民医院; 3 北京大学深圳医院

糖尿病(Diabetes Mellitus,DM)是一种由胰岛素分泌缺陷或其生物作用受损或两者兼有引起的,以高血糖为主要特点的慢性代谢紊乱性疾病[1]。2021年全球约有5亿多成年人(20~79岁)患有糖尿病,预计这一数字还会持续增加[2]。结核病(Tuberculosis,TB)是由于结核分枝杆菌感染(Mycobacterium tuberculosis,Mtb)引起的慢性传染病,可在多个器官中发病,其中肺结核的发病率在80%以上[3]。2022年世界卫生组织报告显示:2021年新增结核病感染人数1 060万,并且耐药结核病同比增长3%,死亡人数达到160万[4],严重危害中国公共卫生安全问题。而中国恰好是DM和TB的双重高负担的大国,如何防治成为一个亟待解决的问题。

虽然大量研究表明DM和TB有许多共同危险因素,例如免疫功能低下或损伤。使得在DM患者中TB患病率增加,反之亦然[5]。但DM和TB之间具体的影响因素和潜在的分子机制未知,对其治疗缺乏具体的建议。因此,本研究结合生物信息学方法筛选了DM和TB之间与免疫系统相关的共表达基因,并预测了其Hub基因和靶向的miRNA,并通过在线数据库进行验证。希望本研究可以通过进一步了解DM和TB共同分子机制,来寻找可能的分子标志物。

1 材料与方法

1.1 数据的收集和纳入标准 通过在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中以“Tuberculosis”“Diabetes mellitus”“Homo Sapiens”和“RNA”为关键词进行检索,获得GSE95849和GSE149458数据集,其中包括了6例糖尿病样本、6例健康样本、10例结核病样本和10例健康对照样本。当前研究中包括的数据集是从公共数据库下载的,因此不需要伦理委员会的额外批准,并且数据收集和使用是根据 GEO网站发布指南和数据访问政策进行的。

1.2 差异基因筛选 采用R软件4.0.3中的limma软件包,以调整后P<0.05且差异倍数>1.2作为筛选标准,得到TB与正常对照的差异表达基因(Differential Express Gene,DEG)。

1.3 加权基因共表达网络分析 (WGCNA) 使用WGCNA的R软件包在基因表达谱基础上,计算软阈值功率β,并提出共表达相似性以计算邻接关系。然后,将邻接关系转换为拓扑重叠矩阵(TOM)来测量基因的网络连通性。采用平均连锁层次聚类法,把相似模式的基因聚类到相同模块(最小=30),用簇树的分支和不同颜色表示,构建模块关系,计算基因模块与表型之间的关系,鉴定与临床性状相关的模块。最后计算基因显著性(GS)和模块成员(MM)以将模块与临床特征相关联(|MM| >0.8 and |GS| >0.1)获得关键基因集。

1.4 GO、KEGG分析 采用R软件4.0.3的cluster-profiler包对差异基因进行GO和KEGG富集分析,并用气泡图展示显著富集通路。

1.5 免疫细胞浸润评估 首先从CIBERSORT 网站下载的 R 脚本 (https://cibersortx.stanford.edu/),基于CIBER-SORT算法计算各样本22种免疫细胞比例,使用SangerBox工具绘制疾病组与正常对照在免疫细胞浸润方面差异。计算关键基因与浸润免疫细胞之间的Spearman相关系数。

1.6 蛋白—蛋白相互作用(PPI)网络构建与模块选择 使用在线检索相互作用基因的搜索工具STRING(https://string-db.org/)构建DEGs中的PPI网络,分析蛋白质之间的功能相互作用可以为疾病的发生和发展机制提供新的思路。使用Cytoscape软件对PPI网络进行可视化,利用cytoHubba插件筛选PPI网络中前十的hub基因。

1.7 靶向hub基因的miRNA预测 使用miRWalk和miRNA Target等在线软件预测靶向hub基因的miRNA,并使用Draw Venn Diagram绘制韦恩图。

2 结果

2.1 WGCNA对糖尿病关键基因识别和分析 为了对糖尿病关键基因进行识别和分析,采用WGCNA将GSE95849表达数据进行聚类分析,选择阈值β为(9,0.25),平均连通性为β(9,333.74)使各基因调控关系符合无尺度分布(见图1a、b)。为了进一步分析模块,通过构建共表达计算模块特征基因的不相似性,来绘制模块聚类树状图,在合并了距离<0.25的模块的基础上,最终获得了10个共表达模块,值得注意的是grey模块被认为是无法被分配给任何模块的基因集合(见图1c、d)。为寻找与糖尿病最为相关模块,构建了模块与表型相关性热图(见图1e),结果发现orangered3相关性最高(相关系数=0.79,P=2.3e-3)。然后分析orangered3模块成员与DM基因具有显著相关性(见图1f)。从orangered3模块中获得1 994个基因(|MM| >0.8 and |GS| >0.1),最后对orangered3的模块基因进行GO和KEGG分析(见图1g),GO分析发现,大部分基因定位在胞质内,参与免疫反应细胞的激活和中性粒细胞的激活;KEGG分析发现,主要富集在代谢途径和内吞作用。

图1 WGCNA对糖尿病关键基因识别和分析

2.2 结核数据库中差异基因筛选和分析 经过筛选,从GSE149458数据集中共筛选出1 711个DEGs,其中,上调的基因为528个,下调的基因为1 183个(见图2a),绘制差异基因聚类热图(见图2b)。对1 711个DEGs进行GO和KEGG富集分析(见图2c、d),GO分析发现,主要富集于蛋白质结构域特异性结合、WW结构域结合和肿瘤坏死因子受体结合;KEGG富集分析发现,主要富集于坏死性凋亡通路、胰岛素信号通路和炎症介质对色氨酸通道调控。

图2 结核数据库中差异基因筛选和分析

2.3 筛选共同关键基因 通过R的VennDiagram软件包对DM和TB差异基因集取交集发现86个关键基因(见图3a)。通过GO和KEGG进行富集分析(见图3b、c),GO分析发现,主要富集于线粒体部分;KEGG分析发现,主要富集于溶酶体通路和氨基酸代谢。将86个基因导入STRING数据库中构建蛋白质—蛋白质互作网络(见图3d)。在Cytoscape中使用插件CytoHubb基于“MCC”算法筛选Hub基因,ARHGAP26、CLTCL1和NANS等评分前十的Hub基因,其中ARHGAP26、C12orf10和COG2为上调基因,其余7个为下调基因(见图3e)。

图3 筛选共同关键基因

2.4 免疫细胞浸润及免疫细胞相关性分析 利用 CIBERSORT 反卷积算法评估了糖尿病和结核病中 22 种免疫细胞的免疫浸润情况,结果发现,糖尿病组中性粒细胞显著高于对照组;结核病组浆细胞和M2细胞显著高于对照组(见图4、5)。然后计算10个关键基因与浸润相关性分析,发现10个关键基因与中性粒细胞和M2细胞呈正相关(见图6)。

图4 22种免疫细胞浸润相对比例热图

图5 疾病组和对照组中每种免疫细胞浸润丰度的小提琴图

图6 Hub基因和中性粒细胞和γδT细胞的相关性分析

2.5 关键基因验证和潜在miRNA的预测 为进一步验证ARHGAP26、CLTCL1和NANS等10 个关键基因在糖尿病和结核病中的表达情况,筛选GSE54992、GSE193273和GSE98461作为测试数据集对其表达进行验证(见图7a),结果发现只有ARHGAP26在结核病和糖尿病中稳定高表达且和免疫细胞浸润显著相关(见图7b)。通过miRNA Target和miRWalk在线数据库筛选12个与ARHGAP26基因相关的潜在miRNA(见图7c),并通过Cytoscape将其可视化(见图7d)。最后通过GSE25435数据集对miRNA表达进行验证,结果发现只有hsa-miR-520a-5p与正常组相比低表达(见图7e)。

图7 关键基因验证和潜在miRNA的预测

3 讨论

虽然大量研究发现糖尿病引起的代谢改变和免疫功能低下与肺结核感染易感性增加之间有非常紧密的联系[6-7],但具体作用机制,尤其是分子和免疫学机制不清。基于此本研究采取生物信息学方法发现了糖尿病和结核病免疫过程相关的关键基因,并通过鉴定靶向关键基因的miRNA,发现ARHGAP26和has-miR-520a-5p可能是检测糖尿病和结核病的潜在生物标志物。

有研究表明糖尿病患者对结核分枝杆菌感染可能性会增加2~3倍,而且糖尿病也会增加结核病患者过早死亡的风险[8-9]。免疫功能受损是结核分枝杆菌感染的一个重要前提,而糖尿病造成免疫功能低下,会是结核病发展的一个重要推力。因此,我们采用生物信息学分别筛选了糖尿病和结核病可能与免疫系统相关联的枢纽基因,然后将两组基因取交集,并对其进行富集分析发现除与免疫密切相关外,而且参与溶酶体和氨基酸代谢通路,通过CytoHubb从交集基因中筛选出得分前十的基因,这些基因被认为与糖尿病和结核病密切相关。该方法已成功应用于多种生物信息学分析,以鉴定与多种疾病表型相关的常见风险基因和机制[10-11]。

鉴于免疫细胞在糖尿病和结核病过程中起着至关重要的作用,我们首先研究糖尿病和结核病患者中免疫细胞浸润,结果发现在糖尿病中CD8T细胞和被激活的肥大细胞占免疫细胞浸润的大部分;结核病中CD4T细胞、M0和被激活的肥大细胞占免疫细胞浸润的大部分。此外与对照组相比,糖尿病中M0和中性粒细胞均增加,结核病中M2、浆细胞和γδT细胞显著增加。大量研究表明中性粒细胞作为先天免疫反应的效应器除参与适应性免疫应答外,还参与慢性炎症和自身免疫过程[12]。巨噬细胞是结核免疫过程的第一道防线,巨噬细胞按其表面分子分为M1和M2类型。研究表明,M1巨噬细胞具有抗病原体活性的促炎表型,而M2巨噬细胞促进抗炎作用和组织修复反应[13]。综上所述,推测巨噬细胞和中性粒细胞可能在糖尿病和结核病中起潜在的重要作用。

最后笔者通过GSE54992、GSE193273和GSE98461进行筛选验证发现,只有ARHGAP26在糖尿病和结核病中稳定高表达,并且其在肺鳞癌和集的生物信息学分析,可能无法完全反映患者实际情况。

综上所述,本研究分析糖尿病和结核病免疫过程中常见的关键基因,发现ARHGAP26和has-miR-520a-5p可能是预测糖尿病和结核病的潜在生物标志物,ARHGAP26还可以作为肺结核鉴别诊断标志物。

猜你喜欢
差异基因信息学粒细胞
ICR鼠肝和肾毒性损伤生物标志物的筛选
经方治疗粒细胞集落刺激因子引起发热案1则
鸡NRF1基因启动子区生物信息学分析
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
初论博物馆信息学的形成
嗜酸性粒细胞增多综合征的治疗进展
误诊为嗜酸粒细胞增多症1例分析
miRNA-148a在膀胱癌组织中的表达及生物信息学分析
SSH技术在丝状真菌功能基因筛选中的应用
2014年信息学与计算国际会议