施楠婧 马丽珍
局部节段性肾小球硬化症(Focal Segmental Glomerulosclerosis,FSGS) 是 慢 性 肾 脏 病(Chroic Kidney Disease,CKD)的常见组织病理学病变,占全球原发性肾小球疾病的2%~41%[1]。FSGS主要表现为肾病综合征,会持续进展为终末期肾病(End Stage Renal Disease,ESRD)。数据表明,美国近几十年来由FSGS引起的ESRD急剧增加,尤其是黑人中,约占成年人ESRD的4%[2]。据报道,FSGS可能通过体内活性氧种类的变化,自噬功能的损害,促炎细胞和补体的增加等多种途径损伤足细胞[3]。但FSGS的发病机制目前尚未明确,迫切需要更深入研究。本研究通过生物信息学方法,提取基因表达综合数据库(Gene Expression Omnibus,GEO)中16例FSGS和21例正常肾小球组织标本信息,通过加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)筛选与FSGS相关的模块和枢纽基因,并通过从开放数据库中获得的临床数据进一步验证其可靠性。
1.1 数据收集 从公开的基因表达数据库 GEO(https://www.ncbi.nlm.nih.gov/GEO/)中下载获取本研究中表达谱芯片GSE104948,包括18例正常肾小球组织和21例FSGS患者的肾小球组织的芯片数据[4]。本研究下载并使用原始数据并对数据进行探针注释、异常样本排除、无方差基因过滤的统一预处理。
1.2 WGCNA 利用R语言中的WGCNA软件包[5]进行WGCNA。首先将表达谱转换成Pearson相关矩阵,该矩阵是通过计算基因间的Pearson相关系数形成的。其次构建无标度网络,以无尺度网格指数(R2)=0.8作为满足无尺度条件的标准,根据平均连接度确定软阈值(β值)。再将该矩阵转化为拓扑重叠矩阵(Topological Overlap Matrix,TOM)后,通过对基因构建层次聚类树图形,采用动态剪枝法计算基因模块的颜色,将加权共表达网络中的基因分为不同的模块,并合并相似度>0.75的模块,找出与FSGS发生相关性最高的模块即为枢纽模块。为了进一步验证枢纽模块的价值,计算相关模块内基因显著性(GS)及基因在模块内的模块隶属度(MM)[5]。并对枢纽模块内基因进行基因本体(Gene Ontology,GO)注释[6]和京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析[7]。利用R语言中的clusterProfiler软件包[8]进行可视化分析。均取数据库中结果P<0.01和Benjamin-Hochberg校正P<0.01为统计显著性阈值。
1.3 基因表达差异分析 使用转录组数据中的Reads count 评估基因表达水平,利用R语言中的limma软件包[9]对数据标准化,并进行差异表达分析,筛选条件为log FC绝对值>1,P值<0.01,并利用R语言中的heatmap软件包[10]对数据进行可视化。
1.4 子网络的提取与枢纽基因的鉴定 从枢纽模块最显著GO分析项中提取了基因共表达网络的子网络,并利用Cytoscape软件中的cytoHubba插件[11]进行差异表达基因的枢纽基因的鉴定,利用具有最大团中心性(Maximal Clique Centrality,MCC)的分析方法[12]对子网络的中心性进行了评估。MCC值最高的基因即为FSGS中潜在的枢纽基因。同时利用Nephroseq芯片数据库(https://www.nephroseq.org/resource/login.html)验证枢纽基因的临床意义,该数据库提供了肾脏相关的表达谱以及临床信息,例如肌酐、肾小球滤过率和蛋白尿等。
2.1 数据预处理 本研究下载原始数据后进行归一化、对数化,探针注释后共获得11884个基因的表达谱。在样本聚类和异常样本排除后保留了21例正常和16例FSGS样本的表达谱,见图1。再删选出基因表达量方差大于所有方差四分位数的基因共得到5942个基因用于后续分析。
图1 FSGS与正常对照的临床性状热图聚类树状图
2.2 WGCNA构建基因共表达模块 当无尺度网络指数>0.8时,β=9,其平均连接度最高,见图2。采用动态分层剪切树法将5942个基因分为9个共表达模块,以颜色的英文命名,其中grey模块表示未纳入任何模块的基因集合(含167 基因),见图3A。所有分析基因的相关性热图显示,见图3B。基因主要与同一模块的基因共表达,与不同模块的基因共表达关系较弱。通过皮尔逊相关系数评估模块与临床特征之间的相关性,见图4A。brown模块与FSGS具有最高的正相关系数,因此被确定为进一步分析的枢纽模块(FSGS相关模块)。同时,对此模块的GS与MM值的相关性进行了分析(cor=0.83,P<1E-200,图4B),再次表明了模块-性状相关关系的可靠性。
图2 选择合适的软阈值(β值)
图3 模块划分与验证
图4 FSGS相关模块的识别与验证
2.3 FSGS相关模块基因的富集分析及差异表达分析 对FSGS相关模块的基因进行了富集分析,GO生物过程中主要与免疫细胞的活化相关,如白细胞迁移、T细胞活化、血管发育的调节。GO分子功能中主要与生长因子结合、细胞因子结合和细胞因子受体结合相关。GO细胞成分主要与细胞膜的外侧、细胞-基质结合、局灶性粘附。KEGG通道富集分析的结果与GO生物过程相似,基因与细胞因子-细胞因子-受体相互作用、趋化因子信号途径和细胞粘附分子等密切相关。对FSGS相关模块中的基因进行了差异表达分析,总共获得了74个差异表达基因,包括68个上调基因和6个下调基因。与模块特征关系分析的结果一致,FSGS相关模块中的大多数基因异常上调。
2.4 子网的挖掘和枢纽基因的鉴定 选取GO生物过程中最相关的“白细胞迁移”进一步分析,从整个共表达网络中提取基因及其加权邻接关系,构建一个子网络。基于CytoHubba插件利用MCC分析方法评估了前500个加权邻接关系的基因的中心性。MCC值最高的前10位的枢纽基因以黄色和红色为主,颜色约红表示MCC值约高,CD48具有较高的MCC值,见图5。进一步筛查FSGS与正常对照之间CD48的差异表达水平,发现CD48是与FSGS相关的显著上调的差异表达基因(logFC=1.629,P=4.63E-11),即为FSGS发病机理的中心枢纽基因。同时利用Nephroseq芯片数据库验证枢纽基因的相关临床意义,在21例正常样本和25例FSGS样本的数据集分析结果提示CD48在FSGS肾小球组织中明显过表达,见图6A。此外,FSGS患者中CD48和GFR呈负相关,见图6B,提示CD48的增加可能致肾功能恶化。
图5 从整个共表达网络中提取子网络
图6 CD48在FSGS中的临床意义验证
近几十年来,FSGS已成为慢性肾脏疾病的主要原因。由于该疾病的发病机理尚未发现,并且无针对FSGS的靶向治疗,因此该疾病的预后并不乐观。因此,更好地阐明其致病机制并为该疾病提取新的潜在治疗靶标已迫在眉睫。WGCNA是一种重要的生物信息学工具,可以根据相似的表达模式确定基因共表达关系,将基因分为多个共表达模块,识别与疾病有重要关系的模块并进行显著性关联分析[4]。WGCNA已被广泛用于发现不同医学领域的预后生物标志物和治疗靶标。
本研究利用WGCNA处理21例正常和16例FSGS标本基因的数据,共筛选出5942个基因,8个共表达模块,其中brown模块(FSGS相关模块)被认为与FSGS显著相关,对其行GO和KEGG富集分析,主要富集于炎症、细胞外基质和细胞因子相互作用等生物学方面,且此模块中大部分差异表达基因都是上调的。从GO富集分析中筛选出最有意义的白细胞迁移,构建共表达子网络,用MCC法确定该网络核心的CD48基因为枢纽基因。同时在Nephroseq芯片数据库检测发现CD48在FSGS患者的肾小球组织中明显过表达且CD48表达与肾小球滤过率呈负相关,提示CD48可能在FSGS的发病和发展中发挥作用,但具体的机制仍需深入研究。
CD48基因位于1号染色体的1q21-23带[13],编码分子量为40~45kD的糖基磷脂酰肌醇锚定蛋白[14]。CD48广泛存在于免疫细胞表面,如T淋巴细胞、B淋巴细胞、自然杀伤细胞、单核细胞、中性粒细胞和肥大细胞[15]。CD48在涉及信号蛋白复合物中具有高度的运动性和聚集性[16]。但目前尚无相关报道说明肾小球组织中异常上调的CD48表达水平与FSGS相关。
因此,为了探究CD48在FSGS发生和发展中的作用,重点研究了其他与FSGS较相关的MCC值较高的基因,如CD44、PYCARD、LYN、FCER1G、ITGAM等。CD44在啮齿动物和人类的正常耳道组织中几乎未检测到,但在FSGS足细胞损伤后,肾小球壁上皮细胞(PEC)中急剧增加[17-18],提示PECs中CD44的上调可能在肾小球硬化中起重要作用。而小鼠实验中已经证实,肾小球中PECs中CD44的激活与FSGS的进展有关[19]。此外,CD44还与蛋白尿和血清肌酐呈正相关[20]。CD44阳性的肾小球细胞已被广泛证实是FSGS致病机制中的重要环节。本研究中,作者通过WGCNA证实CD48与CD44具有高度的正相关关系,并通过皮尔逊相关分析进一步验证了共表达关系(cor=0.805,P=1.831E-09)。且CD48的表达水平与肾小球滤过率呈负相关。本研究结果提示CD48可能通过与CD44共同表达的方式参与FSGS的发病。PYCARD编码人细胞凋亡相关斑点样蛋白,已有研究发现PYCARD与急进性肾小球肾炎的炎症反应和中性粒细胞活化相关[21]。LYN是编码酪氨酸蛋白激酶的基因,已证实LYN可通过抑制阻止纤溶酶原激活物抑制物-1(PAI-1,一种强有力的促纤维化介质)减少慢性移植肾病(CAN)的纤维化[22]。有研究者揭示FCER1G在子宫内膜异位病变中产生纤维化和粘连的作用[23]。ITGAM是一种编码整联蛋白的基因,据报道,ITGAM可以加速肾小球和肾小管损伤和肾纤维化[24]。虽然这些基因对FSGS的影响尚不清楚,但它们在其他肾病中的作用以及与CD48的明显共表达关系,可能为FSGS的发病机制提供新的线索。
综上所述,本研究通过WCGNA构建加权基因共表达网络,初步得到与FSGS发病相关的枢纽基因CD48,为FSGS提供了潜在的特异性标志物和新的治疗靶标。