谷雨 王文俊 胡悦 王炜 孙英 黄克武
1首都医科大学附属北京朝阳医院呼吸与危重症医学科 北京呼吸疾病研究所100020;2首都医科大学基础医学院免疫学系,北京100069
COPD是一种以进行性、不可逆性气道阻塞为主要特点的疾病,主要病理改变为肺部小气道阻塞(慢性阻塞性细支气管炎)和肺实质的破坏(肺气肿)[1]。近年来,由于传染病死亡率的降低和人均寿命的延长,COPD的患病率不断上升。中国肺健康研究显示,根据肺活量检测定义的COPD的总体患病率为8.6%,在20岁以上的成年人中占9 990万[2]。尽管目前认为,吸烟是COPD的主要危险因素,但COPD的发病机制尤其是细胞和分子机制,尚不十分明确,因此深入探索COPD的发病机制尤为重要。近年来,单细胞测序技术和生物信息学的发展为探究COPD发病的细胞和分子机制提供了更多的可能。但由于临床标本来源有限,利用生物信息学方法对COPD患者肺组织的基因表达及其功能的研究较少,且缺乏相关的免疫细胞类群分析。因此,本研究旨在通过分析COPD患者肺组织中的差异表达基因,筛选出与COPD疾病进展有关的Hub基因,并结合免疫细胞类群分析,探究其在COPD疾病进展中的作用。
1.1 数据来源 从美国国立生物技术信息中心(NCBI,https://www.ncbi.nlm.nih.gov/)的GEO(Gene Expression Omnibus)数据库中下载表达谱芯片GSE106986,芯片数据是基于GPL13497平台的Agilent-026652 Whole Human Genome Microarray 4x44K v2所获得的转录本生物信息。该芯片数据分为2组样本,共19个肺组织样本,其中一组为14例COPD患者肺组织样本(GSM2858891-GSM2858904),另一组为5名正常人肺组织样本(GSM2858905-GSM2858909)。
1.2 数据预处理和差异表达分析 使用R的“GEOquery”包下载数据后,使用R的“limma”包进行数据预处理和差异表达分析:先对数据进行归一化处理,结合GPL13497平台注释文件的信息,将探针ID转换成基因名称,去除没有对应基因的探针,对于仅与一个基因名称匹配的几种探针,计算探针的平均表达值并将其视为最终基因表达值,通过t检验计算P值,使用Benjamini&Hochberg方法对P值进行校正。通过无监督层次聚类分析观察2组样本之间是否存在表达差异,之后筛选差异基因,差异基因的筛选条件为差异倍数|log2FoldChange|>2且P<0.05,绘制火山图来展示差异表达的基因。
1.3 功能富集分析 使用R的“ClusterProfiler”包对其差异表达基因分别进行基因本体论生物学功能富集分析和京都基因与基因组大百科全书(Kyoto Encyclopedia for Genes and Genomes,KEGG)信号通路富集分析。基因本体论富集包括生物过程、细胞学组分与分子功能3个类别[3]。KEGG由系统信息、基因组信息、化学信息与健康信息4类数据库组成,利用KEGG数据库[4]对差异基因的转录本进行通路分析。P<0.05为有统计学意义。
1.4 差异表达基因所调控蛋白质互作网络与Hub基因筛选 STRING(https://string-db.org/)数据库是一个用来构建蛋白互作网络的在线工具。将差异表达的基因导入到STRING数据库中,设置最低相互作用分值为0.4,获得差异基因之间的相互作用关系,之后下载数据,通过Cytoscape及其相应的插件进行可视化分析并获得Hub基因。
1.5 免疫细胞类群分析 使用CIBERSORT数据库,对经归一化处理的2组样本的基因表达进行免疫细胞类群分析,得到了2组样本之间肺组织中免疫细胞类群分析的结果。
2.1 COPD患者和正常人2组样本的肺组织差异表达基因筛选 用R的“limma”包对表达谱数据集GSE106986进行处理,主成分分析(图1)和无监督层次聚类分析(图2)结果表明,2组样本的基因表达存在明显差异。使用差异倍数|logFC|>2且P<0.05为筛选条件,共找到47个差异表达基因(图3),其中上调基因有37个,下调基因有10个,表达差异前10位的基因见表1。
图1 2组样本肺组织中表达基因的主成分分析结果
图2 2组样本肺组织中表达基因的无监督层次聚类分析结果
2.2 2组样本肺组织差异表达基因的KEGG通路聚类分析结果 在筛选出差异表达基因后,对差异表达基因进行了KEGG通路聚类分析(图4)。如图4的KEGG通路聚类分析所示,红色代表上调基因的通路聚类结果,蓝色代表下调基因的通路聚类结果,其中上调的基因主要参与疟疾、氨基糖和核苷酸的糖代谢、果糖和甘露糖代谢以及补体和级联凝血途径,下调的基因主要参与脂肪酸生物合成过程。
图3 2组样本肺组织中差异表达基因的火山图
表1 2组样本肺组织的差异表达基因中下调与上调的前五位基因
图4 2组样本肺组织中差异表达基因的KEGG富集分析
2.3 2组样本肺组织差异表达基因的基因本体论功能富集分析结果中的生物过程 基因本体论富集分析图所示,图中的显著性变化以颜色表示,颜色从蓝色到红色表示差异越来越显著,参与基因数目以圆形面积的大小表示,参与调控某一通路和功能的基因数目越多,圆形的面积越大。基因本体论富集包括生物过程、细胞学组分与分子功能3个类别(图5~7)。结果表明,差异表达基因在生物过程中主要参与对细菌的防御反应、细胞外基质和结构的形成、创伤反应的调节和负性调节凝血过程等。见图5。
图5 2组样本肺组织差异表达基因的基因本体论富集分析结果中的生物过程
2.4 2组样本肺组织差异表达基因的基因本体论功能富集分析结果中的细胞学组分 在细胞学组分方面,差异表达基因主要参与内质网腔、血小板α颗粒和血小板α颗粒腔等。见图6。
图6 2组样本肺组织差异表达基因的基因本体论富集分析结果中的细胞学组分
2.5 2组样本肺组织差异表达基因的基因本体论功能富集分析结果中的分子功能 在分子功能方面,差异表达基因主要涉及与糖胺聚糖结合、肝素结合和双加氧酶活性。见图7。
图7 2组样本肺组织差异表达基因的基因本体论富集分析结果中的分子功能
2.6 2组样本肺组织差异表达基因的蛋白质互作网络分析 为了获得差异表达基因的蛋白质互作调控网络,通过STRING数据库分析了差异表达基因的蛋白互作网络,然后将互作数据在Cytoscape软件中进行可视化。结果显示,差异表达基因的蛋白质互作网络包含21个节点,红色代表上调基因,蓝色代表下调基因。靶点的度值表示相互作用的靶点个数,靶点度值较大的靶点在蛋白质互作网络中发挥了关键作用,节点的大小与靶点度值呈正比。见图8。
2.7 2组样本肺组织差异表达基因中Hub基因的筛选 在得出蛋白质互作网络结果后,又进行了Hub基因的筛选。以靶点度值≥5作为筛选标准,共筛选出5个Hub基因:FGG、FGA、IL-6、SERPINE1和SPP1。见图9。
2.8 2组样本肺组织的免疫细胞类群分析 将下载的数据进行归一化处理后,使用CIBERSORT数据库对2组样本的肺组织基因表达情况进行免疫细胞类群分析。结果示,与正常人的肺组织相比,COPD患者肺组织中适应性免疫细胞如记忆B细胞、浆细胞、CD8+T细胞、静息CD4+记忆T细胞、滤泡辅助性T细胞、调节性T细胞以及固有免疫细胞如单核细胞、M1型巨噬细胞、M2型巨噬细胞、静息树突状细胞、活化的树突状细胞、活化的肥大细胞和嗜酸粒细胞都有显著增加。见图10。
COPD是一种病因不明的、以慢性气道炎症为主要病理改变、以不可逆性气流受限为主要特征的慢性炎症性疾病。虽然吸烟是COPD的主要危险因素,但全球范围内仍有1/3的COPD患者没有吸烟史[1]。且研究表明,空气污染、生活燃料的燃烧、营养不良和住房潮湿等也会导致COPD的发生[5-6]。因此,探索COPD的发病机制尤为重要。近年来,随着RNA测序技术和生物信息分析的发展,应用高通量测序和生物信息学方法为我们从细胞和分子水平揭示COPD的机制及其治疗靶点提供了可能。
本研究通过GEO数据库和差异表达基因所调控蛋白质互作网络,共筛选出5个Hub基因:FGG、FGA、IL-6、SERPINE1和SPP1。这些基因在COPD患者的肺组织中都上调,其中FGG上调4倍以上。FGG是纤维蛋白原γ链,属于纤维蛋白原家族成员,是系统性炎症的标志物。以往有研究表明,外周血中FGG含量的增高与COPD患者疾病的严重程度及急性加重[7]、肺功能降低和COPD的发生风险增加有关[8-9]。但COPD患者增高FGG的来源及其在COPD发生、发展中的具体作用还有待进一步研究。FGA同属于纤维蛋白家族,是纤维蛋白原α链,目前尚未有研究报道FGA与COPD之间的关系。IL-6是一种促炎细胞因子,有研究表明,COPD患者外周血和痰液中IL-6的水平显著升高且与肺功能呈负相关[10-12],IL-6基因的变异与COPD相关[13]。稳定期COPD患者血清中IL-6的增高与急性加重密切相关[14]。有研究表明,吸烟与PAI-1水平升高有关[15],且与对照组相比,COPD患者痰中的SERPINE1增多[16]。但SERPINE1在COPD病理学中的作用以及靶向纤溶酶原激活物对减轻炎症的疗效目前尚不清楚。
图8 2组样本肺组织中差异表达基因的蛋白质互作网络结果
图9 2组样本肺组织的差异表达基因中Hub基因的筛选
SPP1蛋白是由多种细胞(如巨噬细胞、自然杀伤细胞和上皮细胞等)分泌的一种糖磷酸蛋白[17-18]。研究发现,SPP1与多种疾病包括恶性肿瘤[19]、自身免疫性疾病和肺纤维化等的发病机制及不良预后有关[20-21]。已有证据表明,单核细胞衍生的SPP1能上调IL-12和IL-6的表达,下调IL-10的表达,并能作为巨噬细胞和中性粒细胞的趋化因子[22]。有研究发现,吸烟者肺泡巨噬细胞SPP1的表达升高与气道阻塞程度相关[23],提示COPD患者肺中SPP1的升高在肺气肿的发展过程中发挥一定的作用[24]。已知SPP1与PI3K-Akt信号通路[25-26]、巨噬细胞和树突状细胞的Toll样受体信号通路的活化[27-29]密切相关,而这两条通路活化所介导的慢性炎症与COPD的发生、发展也密切相关[30-31]。本研究对2组样本的肺组织进行免疫细胞类群分析后发现,COPD患者肺组织中增加的固有和适应性免疫细胞主要为活化的T、B细胞、单核细胞、活化的巨噬细胞、树突状细胞、活化的肥大细胞和嗜酸粒细胞。这些免疫细胞都可能在COPD的发生、发展中发挥作用。有研究表明,活化的树突状细胞参与COPD的发病机制[32],且不同表型的巨噬细胞在COPD中也发挥重要作用[33]。有研究表明,SPP1能作为巨噬细胞的趋化因子存在,且能上调炎性细胞因子IL-6的表达[22]。此外,我们通过在Human Protein Atlas数据库搜索发现,肺组织中的SPP1主要来源为巨噬细胞。因此我们认为,COPD患者肺组织中增多的SPP1可能来源于巨噬细胞,且它们可能通过作用于树突状细胞、单核细胞或巨噬细胞来参与COPD的发生、发展。因此,接下来我们将收集临床标本,进一步研究SPP1在COPD中的作用。目前尚不清楚肥大细胞和嗜酸粒细胞在COPD中的作用,但已有证据表明,COPD患者肺组织中肥大细胞的数量增加[34-35],且随疾病严重程度的不同,细胞的密度和表型不同[36]。此外,有研究表明,肺组织中嗜酸粒细胞增多已成为COPD的临床表型之一[37-39],且可能与COPD急性加重有关[40]。本研究中所发现的肥大细胞和嗜酸粒细胞增高是否具有共性尚待进一步研究。
图10 2组样本肺组织的免疫细胞类群分析
Hub基因是蛋白互作网络中的核心基因,在疾病的发生、发展过程中可能发挥重要作用。因此,针对Hub基因的研究可能为COPD发病机制的研究提供新的方向。由于缺少在临床样本上的验证,本研究也存在一定的不足,之后我们将收集相关的临床样本,进一步探讨Hub基因SPP1在COPD中的作用和具体的机制。
综上所述,COPD患者肺组织中增多的SPP1可能来源于巨噬细胞,且很可能通过作用于树突状细胞、单核细胞或巨噬细胞来参与COPD的发生、发展。这为进一步在细胞和分子水平研究COPD发生、发展的相关机制提供了指导,也为探索新的COPD治疗靶点提供了依据。
利益冲突 所有作者均声明不存在利益冲突