陈晓文 李中鹏 王 芳 李章紊 吴 健
支气管哮喘是全球范围内最常见的慢性呼吸道疾病之一,根据Th2 细胞因子是否参与其病理生理发展可将哮喘分为2 型和非2 型[1]。全球哮喘患者达3.58亿,患病率较1990年增加了12.6%[2]。王辰院士团队于2019年在《Lancet》杂志上发表了中国哮喘流行病学研究结果,中国哮喘病人总数约有4570万,20岁及以上人群的哮喘患病率为4.2%,其中重度哮喘占5.99%,提示我国哮喘防控形势严峻[3]。
持续24h仍不缓解的哮喘称为哮喘持续状态或重症哮喘。重症哮喘的临床表现为发作性呼气性呼吸困难,双肺哮鸣音的呼吸系统急症。重症哮喘患者症状不受控制、经常恶化,伴随着肺功能的下降,严重影响患者的生存质量,甚至危及生命[4, 5]。近年来针对其发病机制的研究,使阻断多个分子靶点的生物制剂出现成为可能,如与免疫球蛋白E(IgE)、白介素(IL)-4、IL-5和IL-13等2型炎症生物学标志物升高相关的2型哮喘。然而,2型炎症仅能解释约半数重症哮喘发病机制,而关于非2 型哮喘的研究较少[6]。
诱导痰细胞学是确定哮喘炎症表型的金标准,常用于评估气道炎症[7]。随着组学研究的兴起,利用诱导痰寻找重症哮喘新生物学标志物的方法取得了突破[8]。筛选新的靶点,有可能作为重症哮喘患者治疗新靶标。本研究对正常人与重症哮喘患者诱导痰基因芯片数据进行分析处理,旨在鉴定候选的重症哮喘疾病进展中诱导痰显著差异表达的关键基因。
1.数据集筛选:NCBI的GEO数据库(Gene Expression Omnibus,GEO)是一个公共功能基因组数据库,创建于2000年,收录全世界各国研究机构提交的高通量基因表达数据。本研究从GEO(Affymetrix GPL13158平台,Affymetrix Human Genome U133 Plus 2.0 Array)下载基因表达数据集(GSE137268),数据集中包含33例重症哮喘诱导痰样本(嗜酸性粒细胞哮喘13例,非嗜酸性哮喘20例)和15例正常对照诱导痰样本。
2.获取差异基因:使用Benjamini&Hochberg方法进行统计分析,并用R语言软件作火山图。矫正后P<0.05同时log2(差异倍数)≥0.58认为上调基因表达差异有统计学意义;矫正后P<0.05同时log2(差异倍数)≤-0.58认为下调基因表达差异有统计学意义[9]。
3.蛋白互作网络图构建:使用String数据库构建蛋白互作网络,String数据库可用于了解已知的蛋白相互作用,这些数据来源于其他已经过验证的数据库或实验室原始数据,也可用于预测蛋白相互作用。使用Cytoscape进一步处理数据,并使用MCODE确定蛋白互作网络中最重要的模块。选择的标准为:MCODE评分>5分,度截止=2分,结点得分截止=0.2分,最大深度=100分,K-Score=2分[10]。
4.差异基因富集分析:《京都基因与基因组百科全书》(Kyoto Encyclopedia of Genes and Genomes,KEGG),是一个用于从高通量实验技术产生的大规模分子数据集中了解高级功能和生物系统的数据资源库。GO是用来注释基因和分析基因生物学过程的主要生物信息学工具[11]。为了分析差异基因的功能,使用R软件进行统计分析与可视化,R语言软件包ClusterProfiler用于富集分析[12]。
1.差异表达基因筛选:GSE137268数据集检测到22185个基因,其中显著上调(矫正后P<0.05及log2(差异倍数)≥0.58)70个;显著下调(矫正后P<0.05及log2(差异倍数)≤-0.58)31个。前10位显著上调和下调基因详见表1。图1显示了差异表达基因的分布情况。
表1 前10位显著上调和下调基因
图1 差异表达基因火山图log2(差异倍数).对差异表达倍数值取log2,横坐标的绝对值越大,表明基因表达量在两个样本间的倍数差异越大;-lg(P).对P值取-lg,纵坐标值越大,表明差异基因的表达越显著。上调基因用红色点表示;下调基因用绿色点表示;非显著差异的基因用灰色点表示
2.蛋白互作网络图构建:差异表达基因的蛋白相互作用网络包含40个节点和52个边,详见图2A。通过Cytoscape下的 MCODE插件,筛出一个最显著的模块,共5个节点,包含jumonji富含at结合结构域2(jumonjiandat-rich interaction domain containing 2,JARID2)、组蛋白2簇h2ac (recombinant histone cluster 2,HIST2H2AC)、组蛋白2簇h2aa3(recombinant histone cluster 2, h2aa3,HIST2H2AA3)、组蛋白2簇h2be(recombinant histone cluster 2, h2be,HIST2H2BE)、多同源性蛋白2(polyhomeotichomolog 2,PHC2),详见图2。
图2 差异表达基因的蛋白互作网络图及关键模块A.差异表达基因蛋白互作网络;B.差异表达基因关键模块
3.差异基因富集分析:在满足矫正后P<0.05 且Q<0.2条件下,重症哮喘组和健康对照组主要差异蛋白富集于激活T细胞和调节适应性免疫应答等生物进程;肌动蛋白结合、裂解酶、碳-碳裂解酶、细胞因子受体活性以及CARD蛋白结构域等分子功能;中性粒细胞颗粒、Ficolins以及3级颗粒等细胞组成,详见图3。
图3 GO富集分析A.生物进程;B.分子功能;C.细胞组成
4.KEGG富集分析:KEGG是一个整合了基因组、化学和系统功能信息的数据库。具有把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来的功能。重症哮喘组和健康对照组诱导痰差异上调蛋白IL3RA/IL1R2/CXCR4/TNFSF14/IL18R1参与了细胞因子-细胞因子受体相互作用;ALDOC/HK3/TFRC参与了HIF-1信号通路; CXCR4/TNFSF14/IL18R1同时参与了病毒与细胞因子-细胞因子受体相互作用; IL3RA/TFRC/IL1R2同时参与了造血细胞系统;而ALDOC/HK3同时参与了果糖与甘露糖代谢,详见图4。
图4 KEGG富集分析结果根据矫正后的P绘制气泡图以展现差异蛋白显著富集的KEGG通路。纵坐标为KEGG 通路,横坐标数值为经校验后的P经过lg负对数转换后的值
诱导痰技术应用始于1958年,痰中丰富的细胞、蛋白质和微生物成分可作为疾病严重性、急性发作、病情进展及治疗疗效评价的标志物。诱导痰技术作为哮喘实验室检查的一种手段,因其无创性、安全性、可靠性及可重复性,在哮喘的诊断及表型确定中受到重视[13]。近年来,基因芯片技术广泛用于揭示疾病发生、发展中遗传改变。对哮喘诱导痰基因芯片数据进行分析,有助于发掘治疗哮喘的靶基因。
利用GEO2R对GSE137268基因芯片数据进行分析,获得重症哮喘与正常人气诱导痰差异表达101个基因,其中70个上调基因,31个下调基因。通过蛋白相互作用网络,筛选出5个关键基因,包括JARID、HIST2H2AC、HIST2H2AA3、HIST2H2BE和PHC2。JARID2位于染色体6p22.3上,是组蛋白甲基转移酶复合物的调节因子,在哮喘发生、发展中的作用未知[14]。HIST2H2AC、HIST2H2AA3和HIST2H2BE是核小体的核心成分。核小体将DNA包裹并压缩成染色质,限制了DNA进入需要DNA作为模板的细胞机制。它们在转录调控、DNA修复、DNA复制和染色体稳定性中起着重要作用,可调节细胞因子产生及在哮喘发病、严重程度[15]。PHC2是造血干细胞的重要调节因子,哮喘患者造血干细胞动员的具体机制目前仍不明确[16]。
富集分析提示T细胞参与的免疫应答在重症哮喘患者疾病发生、发展中起重要作用。Th2亢进被认为是哮喘慢性气道炎症、气道高反应性的关键环节[17, 18]。αβT分为CD4+αβT细胞和CD8+αβT两种,主要在淋巴结之间巡逻、监视,一旦受刺激被抗原递呈细胞活化,前者可快速分化为效应或调节T细胞,后者可分化为细胞毒性T和记忆T细胞。大部分过敏性哮喘气道炎症表现是由Th2型细胞因子调控的嗜酸粒细胞所介导的,本研究纳入20例非嗜酸性粒细胞哮喘,其免疫机制有待进一步深入研究。Ficolins是一种可溶分子,可与微生物表面上存在的碳水化合物相结合,且在凝集素补体激活途径中充当识别分子,在哮喘发生、发展中机制未明。
KEGG信号通路分析结果可以看到重症哮喘组与健康对照组诱导痰基因表达存在差异。细胞因子是可溶性的细胞外蛋白或糖蛋白,哮喘疾病的发生、发展中多种细胞因子相互作用。细胞因子充当细胞间重要的调节因子和动员因子,参与先天性和适应性免疫。在宿主防御、细胞生长、分化、死亡、血管生成以及发育和修复过程。缺氧诱导因子-1α是炎症的主要调节者,研究观察到在哮喘的肺泡巨噬细胞和肺实质中上调,可能驱动特定的哮喘表型[19]。研究显示,美国儿童哮喘患病率(1980~1995年)不明原因的翻倍、持续攀升直至2013年的稳定,可能与食品供应中高果糖玉米糖浆的扩散有关[20]。据估计,约30%~40%的成人哮喘发作与呼吸道病毒感染有关。大多数哮喘相关病毒包括呼吸道合胞病毒、鼻病毒和副流感病毒[21]。
综上所述,通过生信分析筛选出的重症哮喘诱导痰差异表达基因,部分在支气管哮喘方面已有多项研究,但有些还有待于进一步探索,如PHC2与造血细胞系统,以及补体系统重症哮喘发生、发展中的作用。本实验利用生物信息学分析工具可预测哮喘诱导痰差异表达关键基因及通路,为哮喘的诊治提供潜在的治疗目标。