张青 王翔 鞠强 陈颖
(青岛大学附属医院,山东 青岛 266003 1 内分泌与代谢病科; 2 输血科)
糖尿病肾病(DN)在世界范围内的患病率逐渐增高[1-3],是终末期肾病(ESRD)的主要原因,约占中国所有ESRD患者的16.4%[4-5]。临床上,DN患者的特点是蛋白尿和血清肌酐(SCR)水平增高,肾小球滤过率(GFR)降低[6]。病理上,DN的特征可分为肾小球病变和肾小管间质改变[7],其中肾小球病变包括肾小球膜延伸、细胞外基质改变、肾小管间质纤维化及肾小球硬化[8]。肾小球病变与DN的进展密切相关。然而对DN肾小球病变组织的基因表达谱的研究相对较少,临床上缺乏早期诊断以及防治DN进展的有效方法。因此,明确参与DN进程的关键基因对疾病的早期诊断和治疗尤为重要。
近年来,生物信息学方法已被广泛用于芯片数据的分析,以鉴定差异表达基因(DEG)并进行各种分析。但是,单个芯片数据分析的样本量小并且假阳性率高,难以获得可靠的结果。GEO数据库是一个公共基因组学数据库,存储了大量高通量基因表
达数据和相关信息[9]。本研究从GEO数据库下载信使RNA(mRNA)芯片数据集,筛选DN患者的肾小球组织与正常人肾小球组织的DEG。将DEG进行富集分析和蛋白质-蛋白质相互作用(PPI)网络分析,识别出与DN紧密相关的候选基因,再将这些候选基因的表达水平与患者的临床指标进行相关性分析,获得DN前瞻性诊断生物标志物和临床治疗靶点的关键基因。
于GEO数据库的2个数据集(GSE30528和GSE96804)中下载所有与DN肾小球组织与正常人肾小球组织相关的所有基因,通过R软件包进行log2转换后,通过Limma软件包筛选DN肾小球组织与正常人肾小球组织DEG,使用RRA软件包对DEG进行交叉整合,以P<0.05且|log2FC|≥1作为筛选条件。
通过DAVID在线工具对筛选出的DEG进行GO功能和KEGG通路富集分析。GO功能富集分析包含生物过程(BP)、细胞成分(CC)和分子功能(MF)3个方面;KEGG通路富集分析的筛选条件为基因计数>2和P<0.05。
通过预测蛋白质之间相互作用的在线数据库STRING 10.5进行DEG的PPI分析,并采用Cytoscape软件构建可视化PPI网络[10],通过Cytoscape软件的插件MCODE识别PPI网络中的候选基因。
通过Nephroseq v5在线平台(http://v5.nephroseq.org/)对DN患者的候选基因的表达水平与GFR、SCR、血压和体质量指数(BMI)等临床指标进行Pearson相关分析。以P<0.05为差异有统计学意义,将与DN患者临床指标具有显著相关性的所有候选基因定义为关键基因。
通过Limma软件包从GEO数据库GSE30528数据集中筛选出661个DN肾小球组织与正常人肾小球组织DEG,其中上调基因244个,下调基因417个;从GSE96804数据集中筛选出DEG 610个,其中上调基因330个,下调基因280个。经RRA软件包对两组结果进行交叉整合以后,共获得52个DEG,其中上调基因24个,下调基因28个。
GO功能富集分析结果显示,DEG在BP方面主要富集于细胞外结构组织、炎症反应的调节、蛋白激酶B信号传导等过程,CC方面主要富集于细胞外基质、胶原蛋白三聚物和基底膜成分,MF方面主要富集于细胞外基质结构组成成分、具有张力的细胞外基质结构和黏多糖结合作用等功能(图1)。图中圆点的大小代表DEG的数量,圆点越大DEG数量越多,圆点的颜色代表调整后的不同P值,从红色到蓝色表示P值从小到大。KEGG通路富集分析显示,DN肾小球组织与正常人肾小球组织DEG主要富集于补体及凝血级联反应、蛋白质的消化吸收和局部黏着斑3个通路。
图1 DEG的GO功能富集分析结果
通过Cytoscape软件构建了52个DN肾小球组织与正常人肾小球组织DEG的可视化PPI网络(图2)。图中绿色圆点代表下调的DEG,红色圆点则代表上调的DEG,连线代表蛋白质之间的相互作用。通过MCODE插件总共识别筛选出了14个候选基因,分别为C3、CCL19、COL1A2、COL6A3、COL15A1、LOX、LUM、SERPINF1、TGFBI、THBS2、VCAN、CCL21、CXCR2、SST。
图2 DN肾小球组织与正常人肾小球组织DEG的PPI网络
通过Nephroseq v5在线工具对14个候选基因与DN患者临床指标之间进行Pearson相关性分析显示,DN肾小球组织当中C3、CCL19、COL1A2、COL6A3、COL15A1、LUM、SERPINF1、TGFBI、THBS2、VCANmRNA表达水平与DN患者的GFR呈负相关,基因LOXmRNA表达水平与DN患者的GFR呈正相关,CCL21、CXCR2、SSTmRNA的表达水平与DN患者的GFR无相关性;DN肾小球组织中CCL19、VCANmRNA表达水平与DN患者的SCR呈正相关,LOXmRNA的表达水平与DN患者的SCR呈负相关;DN肾小球组织中COL15A1 mRNA的表达水平与DN患者的血压呈正相关;DN肾小球组织中SERPINF1 mRNA的表达水平与DN患者的BMI呈正相关。因此,与DN患者临床指标显著相关11个关键基因分别为C3、CCL19、COL1A2、COL6A3、COL15A1、LOX、LUM、SERPINF1、TGFBI、THBS2、VCAN。
DN是慢性肾脏病和ESRD的主要病因[11-13]。随着DN患者数量的增加,DN引起的ESRD的发病率逐年上升[14]。目前,控制血糖、血压仍然是管理DN的主要方法。由于缺乏早期诊断和有效治疗的方法,DN患者预后较差。因此,阐明DN进展的确切分子机制,制定有效的诊疗方案变得更为紧迫。DN患者早期肾脏改变主要为肾小球特征性增生肥大和肾小球基底膜增厚[15-16],肾小球病变在DN发展中起着关键作用[17],然而糖尿病肾小球病变的具体机制并不明确。本研究通过高通量芯片技术和生物信息学分析方法,筛选出DN的关键基因,为DN早期诊断和治疗提供思路。
本研究通过生物信息学分析方法对2个数据集进行分析,筛选出DN肾小球组织与正常人肾小球组织DEG 52个。通过GO功能和KEGG通路富集分析挖掘DEG之间的相互作用。DEG的GO功能富集分析结果显示,DEG主要功能富集于细胞外基质的组织、细胞外空间和细胞外基质的结构成分,与KANWAR等[18]的研究结果一致。DN的主要病理特征是弥漫性细胞外基质累积,在DN的进展过程中,肾小球由于肾小球系膜基质的增加而变大,致DN纤维化,这也是目前公认的ESRD的致病机理之一[19-20]。DEG的KEGG通路富集分析结果主要体现在补体及凝血级联反应、蛋白质的消化吸收和局部黏着斑3个通路,这表明免疫和炎性反应在DN发生发展中发挥重要作用。炎症已经被认为是DN的关键发病机制,越来越多的证据表明活化的补体系统以及促凝血事件可能会导致DN的肾小球损伤[21]。
本研究通过对14个候选基因与DN患者临床指标之间进行相关性分析,结果显示11个关键基因(C3、CCL19、COL1A2、COL6A3、COL15A1、LOX、LUM、SERPINF1、TGFBI、THBS2、VCAN)与DN患者临床指标具有显著相关性。研究发现,部分肾功能受损的糖尿病患者肾组织中C3的转录组和蛋白质水平均显著增加[22],病理学检查发现肾组织中C3阳性表达与肾组织的损伤程度密切相关[23],阻断C3信号传导可有效改善DN模型小鼠的预后[24]。COL1A2是形成Ⅰ型胶原蛋白的主要成分,肾组织中COL1A2基因表达上调提示肾纤维化程度更高[25]。TGFBI在正常肾组织中高表达,敲除TGFBI后小鼠更容易发生链脲佐菌素诱导的糖尿病[26],因此,通过对尿液中TGFBI蛋白水平以及白蛋白排泄率的检测可以预测DN的严重程度[27]。THBS2又称血小板反应蛋白,是存在于细胞外的一种糖蛋白,在体内参与了细胞以及细胞间基质的信号传导[28],在DN患者的血清中显著性升高[29],可能是通过凝血酶级联反应以及黏着斑通路促进DN的进展。
本研究结果当中筛选出的CCL19、COL15A1、COL6A3、LOX、LUM、SERPINF1、VCAN关键基因与DN的相关性目前尚未见报道。目前研究发现CCL19与炎症和免疫反应密切相关[30];COL15A1基因编码细胞骨架蛋白Restin,该蛋白可稳定微血管和细胞并抑制血管生成[31];COL6A3主要参与信号转导,是多聚受体复合物的组成部分[32];LOX是分泌型的胺氧化酶,其主要功能是在细胞外基质中催化胶原蛋白形成和参与弹性蛋白的共价交联[33];LUM可调节纤维蛋白原的形成[34];SERPINF1是一种蛋白酶抑制剂,属于Serpin家族;SERPINF1基因通过调节胰岛素抵抗以及瘦素水平参与了脂代谢[35],同时还编码色素上皮衍生因子(PEDF),PEDF作为一种分泌蛋白,积聚于细胞外基质中,与Ⅰ型胶原蛋白结合[36],通过调节细胞外基质与胶原蛋白的交联参与DN进展;VCAN基因编码细胞外基质中的硫酸软骨素蛋白聚糖,主要作用是维持细胞外基质的功能,通过与Ⅰ型胶原蛋白相互作用在细胞黏附中发挥重要作用[37]。
综上所述,本研究通过生物信息学技术分析筛选出与DN密切相关的14个候选基因,并预测了这些候选基因可能参与的生物学途径及具有的功能,通过与DN患者临床指标的相关性分析进一步明确了与DN密切相关的11个关键基因。对于揭示DN的潜在发病机制具有重要意义,并为DN的治疗提供了潜在靶点。本研究也存在一些局限性,如主要是基于mRNA转录本的分析,可能与蛋白质水平的转录本分析结果有差异;而且仅仅是基于生物信息学分析的理论研究,还应通过分子生物学实验来进一步验证所筛选的基因在DN中具体机制和作用。