马庆庆,龚亚东,刘木波,韩晓静,陈云华,唐 竹
(贵州航天医院中心实验室,贵州 遵义 563000)
结核病是由结核分枝杆菌感染所致,是在世界大范围流行并严重威胁人类健康的传染病。世界卫生组织(WHO)估计,2018年约有1 000万新增结核病患者,死亡人数高达120万人,在致死性传染性疾病中排名第一[1]。流行病学研究表明,全球约有17亿人感染结核分枝杆菌,但其中绝大部分人处于潜伏感染状态而不发病,5%~10%的感染者最终发展为活动性结核(PTB),在结核病发展过程中机体免疫功能发挥了关键作用[2-3],但具体分子机制至今尚未明确。因此,寻找与疾病相关的信号通路有助于阐明疾病发生、发展机制。
随着高通量测序技术和基因组学的发展,以基因芯片为代表的基因表达分析数据呈指数增长趋势,通过基因芯片筛选出差异基因可在短时间内获得大量与疾病相关的基因信息,在研究疾病发生、发展的相关基因和信号通路等方面发挥着重要作用[4-5]。本研究下载并分析了美国国立生物技术信息中心的基因表达数据库(GEO)中的2个芯片数据集(GSE29536和GSE42834)[6-8]。筛选得到PTB和健康者差异基因,再对差异基因进行基因本体(GO)功能注释和京都基因与基因组百科全书(KEGG)信号通路富集分析,构建了蛋白质-蛋白质相互作用(PPI)网络,对PPI网络进行核心模块筛选和信号通路富集分析,后续参照文献[9-10]进行逆转录聚合酶链反应(RT-PCR)验证。探究了与PTB相关的基因和信号通路的功能变化,旨在为明确PTB发生的分子机制提供重要依据。
1.1数据来源 2021年3月在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中输入关键词“Active /Pulmonary Tuberculosis,blood”进行表达谱数据集搜索,筛选条件:(1)包含PTB患者和健康者样本;(2)包含外周血样本。经过筛选得到GSE29536和GSE42834芯片数据集,包括49例PTB患者和224例健康对照者,样本均来源于人全血。基于GPL10558(Illumina HumanHT-12 V4.0 expression beadchip)和GPL6102(Illumina human-6 v2.0 expression beadchip)平台,表达数据均为Expression profiling by array,种属为Homo sapiens。
1.2方法
1.2.1微阵列数据挖掘 在数据来源中选择2个微阵列数据集(GSE29536,GSE42834)用于鉴定差异表达基因。将P<0.01作为标准,并用R语言heatmap,ggpubr,ggthems等R包分别对2个微阵列数据集进行可视化聚类分析及火山图绘制。
1.2.2差异基因筛选 通过GEO2R筛选差异基因,限定条件为|log2 fold change(log2FC)|>1 且P<0.01。在http://bioinformatics.psb.ugent.be/web tools/Venn/网站进行差异基因筛选。
1.2.3GO功能富集与KEGG通路分析 GO主要是用于注释基因和蛋白质功能。包括3个生物学部分,即生物过程、细胞组件和分子功能。使用David网站(https://david.ncifcrf.gov/home.jsp)将筛选好的166个差异共表达基因进行GO功能分析与KEGG通路富集。并使用R语言中的ggplot2包进行气泡图可视化,应用Funrich tool软件分析通路富集相关性。P<0.01、FDR<0.05 设定为显著性基因富集临界值。
1.2.4蛋白互作网络 通过STRING 数据库(https://string-db.org/)构建已确定的差异基因进行PPI网络分析,然后使用 Cytoscape软件中的cytohHubba,ClueGO等插件对网络进行可视化和通路富集分析,筛选关键(hub)基因。
1.2.5RT-PCR验证关键(hub)基因在PTB患者血液中的表达 验证血液样本系本院结核病科收治的45例PTB患者(PTB组)和15例健康者(健康对照组)。使用Paxgene Blood RNA Extraction Kit(Qiagen) 提取和纯化全血中总RNA,经反转录后获得cDNA;以GAPDH作为内参基因,采用FastStart Universal SYBR Green Master(Roche)试剂盒,利用Primer 3在线引物设计工具(http://primer3.ut.ee)设计各基因qPCR引物,qPCR检测PTB组和健康对照组研究对象hub基因表达。根据2-ΔΔCT值计算hub基因在PTB患者中的相对表达量。
2.1差异基因筛选 GSE29536共有461个差异基因,上调基因229个,下调基因232个;GSE42834共有343个差异基因,上调基因282个,下调基因61个,见图1A、B。上、下调基因与在线分析结果一致。见图1C、D。2个芯片数据集差异共表达基因166个,包括114个上调基因和52个下调基因。见图1E。
A.GSE29536 差异基因火山图;B.GSE42834 差异基因火山图,红色代表上调,蓝色代表下调;C.GSE29536聚类图;D.GSE42834聚类图;E.差异共表达基因维恩图。
2.2GO与KEGG通路富集分析 差异基因主要富集在防御病毒、免疫反应、先天免疫反应、对病毒的反应等生物过程,见图2A。介导蛋白质结合、腺苷三磷酸结合、相同的蛋白质结合、钙离子结合、蛋白激酶结合等分子功能,见图2B。富集在细胞质、胞质溶胶、质膜、细胞外区域、质膜的组成部分、线粒体等细胞组分。见图2C。差异基因主要涉及甲型流行性感冒(流感)、单纯疱疹感染、麻疹、丙型肝炎、胞质DNA传感途径、Toll样受体信号通路、视黄酸诱导基因I(RIG-I)样受体信号通路等过程。见图2D。免疫系统信号通路与结核病患者相关性最高(44.6%),差异有统计学意义(P=0.001)。
A.生物过程图;B.细胞组件图;C.分子功能图;D.KEGG通路富集图。
2.3蛋白互作网络分析 信号传导及转录活化因子1(STAT1)、GBP1、TRIM5、CXCL10、TLR5、CCR7、CD3E、MAPK14、CD28、CCR1等在结核病患者中异常表达。10个hub基因分别为STAT1、CXCL10、干扰素(IFN)调节因子7(IRF7)、ISG15、IFIH1、IFIT1、IFIT3、GBP1、OAS1和OAS2。见图3C。细胞因子生成、先天免疫、病毒防御等通路及生物过程明显交互。见图3D。主要功能涉及调节IFN、细胞因子、免疫反应等方面。见表1。
A.蛋白互作网络图;B.hub基因;C.ClueGo富集分析通路饼状图;D.生物过程交互网络图。
表1 hub基因功能注释
2.4RT-PCR验证 STAT1、ISG15、OAS1表达明显上调,差异均有统计学意义(P<0.01)。见图4。
aP<0.01。
结核分枝杆菌能通过多种途径操纵巨噬细胞活化并在其胞内建立适宜的增殖环境以防止被消除[11-12];同时,采取一系列机制逃逸宿主细胞的免疫应答机制[13-14],与其易发生耐药[15]及宿主免疫系统的相互适应性改变等密切相关。基于基因表达数据库挖掘相关差异表达基因和信号通路对结核病的诊治具有至关重要的作用[16]。
为进一步了解PTB发生、发展的分子机制,本研究选取GEO 数据库中与PTB密切相关的2张芯片数据集(GSE29536和GSE42834)参照文献[17-18]的方法进行了生物信息学分析,样本包括49例PTB患者和224例健康对照者(均为人全血样本),结果显示,GSE29536数据集共有461个差异基因,其中上调229个,下调232个;GSE42834数据集共有343个差异基因,其中上调282个,下调61个。采用GEO2R在线分析上、下调基因结果得到差异表达基因166个,进一步说明PTB的发病机制是极其复杂的,可能是由众多基因和(或)蛋白质分子等相互作用的结果[19-20]。
本研究通过GO富集分析发现,差异基因主要富集于以下几个方面:(1)生物过程,差异基因显著富集于防御病毒、免疫反应、先天免疫反应、对病毒的反应等;(2)细胞单位,差异基因显著富集于细胞质、胞质溶胶、质膜、细胞外区域、质膜的组成部分、线粒体等;(3)分子功能,差异基因显著富集于蛋白质结合、腺苷三磷酸结合、相同的蛋白质结合、钙离子结合、蛋白激酶结合等。KEGG 信号通路主要富集在甲型流感、单纯疱疹感染、麻疹、丙型肝炎、胞质DNA传感途径、Toll样受体信号通路、RIG-I样受体信号通路等。
由于传统筛选表达差异基因的方法会掩盖一些具有重要生物学意义但表达上调倍数较低而被掩盖的基因,本研究继续运用FunRich软件分析了全部差异基因相关的信号通路,结果显示,免疫系统信号通路与结核病患者相关性最高。通过文献发现,本研究结果大部分可以在目前已发表的文献中找到证据[21- 22]。结核分枝杆菌侵入机体后免疫调节功能的变化仍有待于进一步研究,而现有研究证明,固有免疫细胞如自然杀伤细胞、吞噬细胞等首先反应,启动免疫反应机制,随之启动适应性免疫,共同完成免疫防御。机体抗结核感染的过程是一个精细而复杂的免疫反应过程,其相互影响,共同维持机体的正常免疫防御机制[23]。
本研究借助STRING在线数据库和Cytoscape软件对差异基因进行了蛋白质相互作用网格分析,筛选得到10个关键基因,即STAT1、IRF7、CXCL10、ISG15、IFIH1、IFIT1、OAS1、GBP1、IFIT3和OAS2。
本研究验证结果证实,STAT1、ISG15、OAS1 mRNA在PTB患者外周血中表达明显上调。有研究表明,在结核病感染的早期STAT1可通过磷酸化促进下游凋亡因子激活转录。同时,STAT1在促进巨噬细胞极化到M1极化巨噬细胞方面也非常重要,与M2极化巨噬细胞比较,STAT1可更有效地清除结核分枝杆菌[24]。STAT1可结合特定的含磷酸酪氨酸的肽段,当STAT被磷酸化时会聚集成同源的二聚体,从而参与IFN-γ引发的信号通路。当STAT进入细胞核时IFN诱导的早期基因表达被与启动子结合的IFN-γ激活序列激活[25]。因此认为,STAT1可能在结核病免疫防御过程中具有至关重要的作用。IRF、STAT均具有共有的靶基因。有研究表明,IRF7是诱导IFN表达的最重要的调节因子之一[26]。IFN尤其是IFN-γ是与结核的发生、发展、转归、诊治均密切相关。目前,已被用于结核病的诊断及免疫治疗等方面。另外,有研究探索了CXCL10(IP-10)作为IFN-γ的替代标记物的可行性,结果证实CXCL10的诊断准确性与IFN-γ相当,且CXCL10在幼儿和细胞免疫低下的人类免疫缺陷病毒感染者中可能更为准确[27]。ISG15是IFN诱导产生的一种类泛素蛋白分子,其在抗病毒反应中具有重要作用,DOS SANTOS等[28]研究证实,ISG15与PTB的炎性反应和疾病严重程度密切相关,表明其可能作为结核病的生物标志物。
综上所述,本研究通过对结核病芯片表达谱数据的挖掘分析,获得结核病患者基因表达差异基因,并初步对差异基因进行了功能富集和探讨,构建出蛋白质相互作用网络图,并筛选出关键差异基因。结合RT-PCR验证结果也支持了部分数据分析结果,但更深入的机制仍值得探究。本研究筛选到的基因为今后更进一步研究以上生物学过程在结核病发病机制中的作用提供了新的可能和方向。