梁 爽,凡 奎,张 燕,谢杨眉
(四川省三台县人民医院 肾内科,四川 绵阳 621100)
IgA肾病(IgA Nephropathy,IgAN)是最常见的原发性肾小球肾炎,20%~40%的患者在20年内进展为终末期肾病[1]。膜性肾病(Membranous Nephropathy,MN)是肾病综合征常见的病理类型之一。经肾脏活检可确切诊断和鉴别IgAN和MN,但肾穿为有创检查,存在不易操作等因素。因此,了解 IgAN 和MN的疾病发生发展机制以及寻找特异性生物标记物,能为诊断和鉴别提供简便、可靠的依据补充。
运用传统的研究方法和数据处理分析方式常遇见高维度、小样本、变异大、线性等问题, 不易做到简便的分类和有效的、系统的分析。生物信息学技术通过综合利用生物学、计算机科学和信息技术等多学科技术、手段,能够精确高效的运算大量、复杂的生物数据。通过下载IgAN和MN患者外周血单核细胞DNA高通量数据集,分析筛选关键基因和途径,进行基因本体(Gene Ontology,GO)功能、京都基因基因组百科全书(Kyoto Encyclopedia of Gene and Genome,KEGG)和显著富集基因蛋白质与蛋白质相互作用(Protein-Protein Interaction,PPI)分析等进一步了解差异表达基因(Differentially Expressed Genes,DEGs)。
进 入NCBI Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/),下载GSE73953数据集,该数据集包含 15个IgAN样本和8个MN样本。下载其矩阵文件 SOFT formatted family file(s).SOFT 以及原始数据 GSE73953_RAW.tar。通过GEO数据库评价数据原始值分布。
1.2.1 筛选差异表达基因(DEGs)
R是集统计分析与图形显示于一体的一种统计分析软件。它拥有一套完整的数据处理、计算和制图软件系统。其主要功能包括:数据存储、数组运算、统计分析、统计作图和程序编写等。
下载安装R软件。加载limma包[2],对原始数据进行提取和处理,以及差异表达基因的分析(|LogFC|>2,P<0.05)。R软件采用R/Bioconductor software version 3.5.1版本。
1.2.2 差异表达基因GO和KEGG分析
运用Cytoscape(https://cytoscape.org/),安装bingo,将筛选出的前96个差异表达基因导入程序,根据GEO中数据研究对象,选择Homo sapiens。
运用DAVID数据库(Database for Annotation,Visualization and Integrated Discovery, https://david.ncifcrf.gov/)对差异表达基因进行GO富集分析和KEGG通路分析。Corrected P-Value<0.05 记为有统计学意义。
1.2.3 显著富集差异表达基因PPI分析
STRING(Search Tool for the Rtrieval of Interacting Genes,https://string-db.org/)是已知和预测蛋白质-蛋白质相互作用的数据库。相互作用包括直接(物理)联系和间接(功能)联系。它们来源于计算预测、生物体之间的知识转移以及来自其他(主要)数据库的相互作用。
运用STRING在线数据库,构建蛋白质互作网络,取combined score≥0.4,下载PPI网络数据。通过Cytoscape软件(version 3.6.1)将PPI网络可视化,并通过MCODE插件聚类构建共表达模块。最后,通过R软件计算PPI 网络中各个节点的连接度。运行后得到蛋白质相互作用关系图。
数据来自GEO数据库GSE73953数据集,下载得到15个IgA Nephropathy样本和8个Membranous Nephropathy样本。得到矩阵文件SOFT formatted family file(s).SOFT 以及原始数据 GSE73953_RAW.tar。通过GEO数据库GEO2R评价数据集原始值分布(见图1),基本以中间值为中心表明数据具有可比较性。
该数据集包含15个IgA Nephropathy样本和8个Membranous Nephropathy样本。通过R软件limma包[2],根据限定条件:|LogFC|>2,P<0.05,在IgAN患者和MN患者中得到显著差异表达基因75个,其中73个上调表达基因和2个下调表达基因。由差异表达基因所得热图(见图2a)和火山图(见图2b)。
为进一步了解筛选得到IgAN、MN疾病相关的差异表达基因功能和通路,利用 Cytoscape和DAVID在线数据库对分析得到的差异基因分别进行GO富集分析与KEGG通路分析。
显著富集差异表达基因GO富集分析的生物学过程(Biological process,BP)(见图3a)主要包括蛋白质转运、内溶酶体到溶酶体转运、趋化因子介导的信号通路作用和钙介导信号的调控等。细胞学组分(Cellular components,CC)(见图3b)主要为COPⅡ囊泡、NMDA选择性谷氨酸受体复合物和高尔基体等。分子生物学功能(Molecular function,MF)(见图3c)主要有NMDA谷氨酸受体激活、信号传感器激活和钙粘蛋白结合参与细胞与细胞的黏附等。
显著富集差异表达基因KEGG通路分析(见图3d)显示具有统计学差异(P<0.05)的上调及下调差异表达基因通路,包括Endocytosis和Hepatitis B的相关信号通路。
图1 原始数据集值分布Fig.1 Values distribution of original data set
图2 差异表达基因热图和火山图Fig.2 Heatmap and volcano map of the DEGs
图3 GO富集分析和KEGG通路分析Fig.3 GO enrichment analysis and KEGG pathway analysis
为进一步筛选差异表达基因所编码的蛋白质之间的相互作用关系,采用STRING工具对差异表达基因蛋白相互作用关系进行梳理,得到蛋白质相互作用关系图(见图4)。按照节点数关系筛选得到前10个关键基因,包括:EPS15、STAT4、CCL2、SUN2、SEC24C、SEC31A、GOLGB1、F2R,RAB12和PTK2B。
图4 显著富集差异表达基因蛋白相互作用关系Fig.4 Protein interaction of significantly enriched DEGs
IgAN目前被认为是世界上最常见的原发性肾小球肾炎之一[1]。MN是肾病综合征常见的病理类型之一,大部分为特发性膜性肾病(Idiopathic membranous nephropathy,IMN)[3]。MN的主要病理机制为:循环的自体抗体与肾小球内的内源性抗原结合,并在肾小球毛细血管壁中形成免疫复合物的沉积,补体激活对肾小球足细胞(Podocytes)的影响和对细胞屏障的破坏,导致NS表现[4]。
探寻IgAN 和MN的疾病发生发展机制以及寻找特异性生物标记物,以便诊断和鉴别甚至发现新的治疗靶点。生物信息学相关技术通过利用生物学、计算机学和信息技术揭示生物数据所蕴含的奥秘[5]。为了寻找可能有助于更好地理解IgAN和MN分子基础并有助于诊断的活性病变的新标记物,使用外周血单核细胞(PBMCs)进行DNA分析。通过下载IgAN和MN患者外周血单核细胞DNA高通量数据集,通过筛选差异表达基因、基因富集分析及蛋白质相互作用关系分析。
分析发现,在具有明显表达差异的250个基因中,包括226个上调的差异表达基因和24个下调的差异表达基因。其中75个显著DEGs,包括73个上调基因,2个下调基因。GO富集分析的生物学过程(BP)主要包括蛋白质转运、内溶酶体到溶酶体转运、趋化因子介导的信号通路作用等。细胞学组分(CC)主要为COPⅡ囊泡、NMDA选择性谷氨酸受体复合物和高尔基体等。分子生物学功能(MF)主要有NMDA谷氨酸受体激活、信号传感器激活和钙粘蛋白结合参与细胞与细胞的黏附等。显著富集差异表达基因KEGG通路分析包括Endocytosis和Hepatitis B的相关信号通路。PPI筛选出EPS15、STAT4、CCL2、SUN2、SEC24C、SEC31A、GOLGB1、F2R,RAB12和PTK2B等关键基因。
EPS15为表皮生长因子受体底物基因,参与细胞生长调节[6]。可能参与细胞增殖的控制,有丝分裂信号的调节,特别是EGFR在网格蛋白涂层凹坑(CCPs)的组装中发挥作用,可能参与IgA介导的免疫反应[7]。STAT4是一种转录因子,它在T细胞和单核细胞中转导IL-12和IL-23的生成,导致单核细胞激活[8],一些证据显示,STAT4可能在多种自身免疫性疾病的进展中发挥着关键的作用[9]。相关研究利用炎症相mRNA表达谱显示,IgAN患者体内外体趋化因子(C-C motif)配体2 (CCL2)表达上调[10],表明CCL2可能参与IgA肾脏病的发病和进展。细胞学组分(CC)分析发现主要存在COPⅡ囊泡和高尔基体的差异,研究显示在prechylomicron运输囊泡(PCTV)与高尔基体对接时,存在COPII蛋白,并且是需要SEC24C参与[11]。F2R基因存在功能多态性,研究显示其启动子多态性改变在结节病中的作用,主要导致炎症的加重[12],IgAN和MN存在炎性改变,F2R对其是否存在具体影响,目前尚无确切研究证据。RAB12在人PMBCs磷酸化中起重要作用,在帕金森疾病表现显著[13],而同SUN2、SEC31,GOLGB1和PTK2B在人IgAN和MN中的具体作用和机制有待进一步研究。
筛选出核心差异表达基因,特别是EPS15、STAT4、CCL2,SEC24C和F2R,为IgAN和MN的诊断和鉴别提供简便、可靠的依据补充,甚至提供治疗的新靶点。研究和掌握IgAN和MN疾病特异性的发病机制和特异性标记物,对现阶段IgAN和MN的诊断和鉴别具有重要意义。探讨基因表达及调控,挖掘特异性蛋白质表达和PPI,有助于寻找新治疗靶点。