李 楠, 陈 蕾, 许天敏, 张 琨
(1.吉林大学第二医院检验科,吉林 长春 130041;2.吉林大学第二医院妇产科,吉林 长春 130041;3.吉林大学第二医院研究中心,吉林 长春 130041)
子宫内膜异位症(endometriosis,EMS) 是妇科常见的良性疾病,在育龄妇女中的发病率可达10%~15%,是育龄女性慢性盆腔痛和不育的常见病因[1]。研究[2-3]提示:EMS 虽为良性疾病却有浸润、复发和转移的恶病质倾向及恶变的可能,其发病率逐年增加。EMS 病因和发病机制尚未明确,目前临床上基本通过出现明显症状后的B 超检查及最终进行有创病理活检确诊,很难早期发现和诊断。因此,急需探索用于EMS 早期诊断和预后评估的生物学标记物。近年来,基于基因分子水平进行EMS 发生发展的研究较多,EMS 组织中已鉴定出多种失调基因参与细胞凋亡、细胞周期调控、血管形成、免疫系统调节和细胞黏附等功能[4-5]。随着大数据时代的到来及生物信息学的发展,对数据库中的相关数据进行分析可以快速发现病变组织中的差异表达基因(differentially expressed genes,DEGs),并可通过进一步分析找到影响疾病发生发展的分子靶标。本研究通过对基因表达汇编(Gene Expression Omnibus,GEO) 数据库中EMS基因芯片进行联合分析,以期筛选出具有高可信度的DEGs 并分析其生物学功能,为揭示EMS 发生的分子机制提供理论依据,并有助于开辟EMS 研究的新方向。
1.1 EMS 基因芯片数据信息获取使用GEO 数据库(http://www.ncbi.nlm.nih.gov/geo/),以“endometriosis” 为关键词进行检索,采用GEO2R 在线工具筛选相关数据集。筛选条件:①mRNA 表达谱数据集;②以异位子宫内膜组织为样本;③以病变旁或正常子宫内膜组织为对照。选择基于GPL571 平台的GSE25628 数据集,其中包括8 个EMS 样本(含一个重复实验样本) 和6 个正常子宫内膜样本; 基于GPL6102 平台的GSE23339 数据集,包括10 个EMS 样本(含4 个重复实验样本) 和9 个正常子宫内膜样本; 基于GPL570 平台的GSE7305 数据集,包括10 个EMS样本和10 个正常子宫内膜样本。
1.2 DEGs 的提取和分析GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/) 可用于分析GEO 数据集中不同数据组的差异表达水平。以EMS 组织为实验组,以正常子宫内膜组织样本为对照组,使用GEO2R 在线分析工具分别分析并筛选出GSE25628、GSE23339 和GSE7305 数据集中的DEGs。筛选标准为P<0.05,且|logFC|≥1.5。以logFC≥1.5 为上调基因,logFC≤-1.5 为下调基因。然后,对每个数据集进行统计分析,并使用Venn 图网络工具(bioinformatics.psb.ugent.be/webtools/Venn/) 确定3 个数据集公共的DEGs 用于进一步分析。
1.3 DEGs 的基因本体功能注释(Gene Ontology,GO)富集和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析使用富集分析数据库6.8 版本(DAVID)(https://david.ncifcrf.gov/) 进行DEGs 的GO 注释分析和KEGG 通路富集分析。在GO 分析中P<0.01,在KEGG 分析中P<0.05,数据被认为差异有统计学意义。最后获得DEGs 的分子功能(molecular function,MF)、生物学过程(biological process,BP)和细胞成分(cellular component,CC) 等注释分析和通路富集分析。
1.4 DEGs 蛋白- 蛋白互作(protein-proteininteraction,PPI)网络构建和核心基因筛选为了评估潜在的蛋白质相互作用关系,将上述所得的70 个DEGs 映射到STRING 数据库11.0 版本(http://string-db.org/) 进行PPI 网络构建。随后通过Cytoscape 软件(www.cytoscape.org/) 将PPI 网络可视化并去除游离蛋白质节点。最后通过cytoscape 的一个插件CytoHubba 计算每个蛋白质节点的连接度(Degree) 并按照降序排列,以排序前10 的DEGs 作为EMS 发病相关的核心基因。
2.1 EMS 患者DEGs 的筛选采用GEO2R 对3 个数据集进行处理分析后,从GSE25628 数据集中鉴定出1 182 个DEGs,其中726 个基因上调,456 个基因下调; 从GSE23339 数据集中鉴定到386 个DEGs,其中186 个基因上调,200 个基因下调;从GSE7305 数据集中鉴定出801 个DEGs,其中372 个基因上调,429 个基因下调。使用Venn 图网络工具将筛选出来的DEGs 进行Venn 分析,结果显示:在GSE25628、GSE23339 和GSE7305 数据集中同时存在的DEGs 共70 个,其中发生上调的基因有27 个,发生下调的基因有43 个(图1)。
图1 DEGs 的Venn 分析Fig.1 Venn analysis of DEGs
2.2 DEGs 的GO 富集和KEGG 通路分析使用DAVID 数据库对共同上调或下调的DEGs 进行GO富集分析和KEGG 通路分析。GO 富集分析结果显示:在生物学功能方面,DEGs 主要富集在伤口愈合、单个生物细胞-细胞黏附、肾脏发展、解剖结构形态发生、黏多糖代谢过程、细胞外基质组织和细胞黏附等方面;在细胞成分上,DEGs 主要涉及细胞外基质、细胞外空间、细胞外区域和蛋白质的细胞外基质等。见表1。KEGG 通路分析结果显示: DEGs 富集于磷酸肌醇代谢通路中,包括PIP5K1B、 PLCH1 和PLCB1,P=0.042 693。
表1 DEGs 在GO 富集中的分布Tab.1 Distribution of DEGs in GO enrichment
2.3 DEGs 的PPI 网络构建和核心基因识别采用STRING 数据库11.0 版本分析DEGs 之间的PPI 关系,网络共涉及70 个节点和312 个连接。利用cytoscape 对PPI 网络进行可视化及分析(图2),计算每个蛋白质节点的连接度,选择具有最高连接度的10 个节点DEGs 作为EMS 的核心基因(表2),结果显示:排名前10 位的核心基因分别为核心蛋白聚糖(decorin,DCN)、 上皮细胞黏附分子(epithelial cell adhesion molecule,EPCAM)、双链蛋白聚糖(biglycan,BGN)、 脂肪酸结合蛋白4(fatty acid binding protein 4,FABP4)、神经酪氨酸激酶受体2(neurotyrosine kinase receptor,NTRK2)、磷脂酰肌醇聚糖3(glypican-3 ,GPC-3)、 表皮生长因子受体3 (epidermal growth factor receptor 3,ERBB3)、 分化抗原簇蛋白24(cluster of differentiationprotein 24,CD24)、 巢蛋白2 (nidogen-2,NID2) 和血小板反应蛋白2(thrombospondin-2,THBS2)。
表2 连接度排名前10 位核心基因Tab.2 Top 20 core genes in connectivities
图2 DEGs 的PPI 分析Fig.2 PPI analysis of DEGs
子宫内膜组织(腺体和间质) 出现在子宫体以外的部位时,称为EMS,主要表现为下腹痛、痛经、 不孕和性交不适,降低了患者的生活质量。EMS 在某些方面类似于恶性肿瘤:呈渐进性和浸润性生长,有复发和转移倾向。目前EMS 的病因仍不清楚,被广泛接受的发生机制仍是逆行月经学说。遗传变异会增加EMS 的易感性,也有越来越多的指标被鉴定出有希望成为EMS 早期诊断的生物标志物,但尚无定论。
随着生物信息学技术的飞速发展,通过基因芯片数据研究疾病发病机制成为了研究热点,也为研
究EMS 提供了新方法。本研究采用生物信息学方法分析从GEO 数据库下载的基因表达谱数据,筛选EMS 病变组织与健康组织之间的DEGs,对筛选出的DEGs 进行GO 分析和KEGG 通路分析,最后通过建立PPI 网络来识别与EMS 相关的核心基因。本研究共筛选出10 个EMS 的核心基因,包括DCN、 EPCAM、 BGN、 FABP4、 NTRK2、GPC3、 ERBB3、 CD24、 NID2 和THBS2,通过对比上述基因的GO 基因功能分析结果和KEGG 通路分析结果显示: 有4 个基因(DCN、 BGN、NID2 和THBS2) 与细胞外基质有密切关联,在EMS 患者中的表达均下调,推测其可能通过异常的基质重塑,参与异位子宫内膜细胞的生长、侵袭和黏附等过程,促进EMS 的发展。细胞外基质分子表达和降解的调控不仅对维持组织或器官的完整结构起作用,而且对其正常功能的维持也起着至关重要的作用。EMS 的发展涉及多个步骤的基质重塑过程,包括异常组织生长、侵袭和黏连形成等。EMS 相关的异常基质重塑过程受多种因素的影响,包括蛋白水解酶及其抑制剂,通过调节生殖道的组织更新来维持子宫内膜的完整性以及雌、孕激素水平,均直接影响月经周期中子宫内膜的生长和脱落。
DCN 是富含亮氨酸的小蛋白聚糖家族的一员,是一种基质蛋白聚糖,可以调节胶原纤维形成和维持组织完整性[6],在细胞外基质中发挥重要作用。DCN 基因在多种肿瘤细胞中低表达,参与肿瘤进展。近年来,已有多项研究将DCN 定为潜在预测生物标记物和治疗靶点,如肺腺癌、肾细胞癌和大肠癌[7-9]等。大肠癌的共表达网络分析同时显示:DCN mRNA 低表达与miR200c 高表达有关,表明miR200c 可能是DCN 的一种内源性抑制剂[10-11],而miR200 已在2015 年被鉴定为EMS 中有诊断价值的生物标记物。但DCN 在EMS 中作用的研究还较少。DCN 可能通过诱导异位内膜组织中p21 的合成来诱导细胞周期停滞,从而对人子宫内膜异位上皮细胞和子宫内膜间质细胞具有明显的抑制增殖作用,且孕酮诱导的DCN 表达在抑制EMS 发生中起重要的作用[12]。近期有研究[13]显示:EMS 患者的颗粒细胞(壁细胞) 中DCN mRNA 表达水平异常降低,但目前尚不清楚DCN 是否也参与了EMS 的病理生理过程。
BGN 与DCN 具有结构相似性,是一种富含亮氨酸的蛋白聚糖。BGN 在肿瘤细胞间质中的上调与细胞增殖、 细胞迁移、 转移和血管生成有关[14-16]。BGN 过表达的子宫内膜细胞显示出更强的侵袭性和迁移性[17]。研究[18]显示:采用蛋白质印迹和ELISA 法分别测定卵巢EMS 患者血清和腹腔液中BGN 水平,腹腔液中BGN 水平与良性囊肿患者和健康女性对照组比较明显升高,但血清中BGN 水平差异无统计学意义。2011 年,一项寻找卵巢EMS 潜在生物标志物的研究[19]已将BGN 预测为潜在的生物标志物,并提出编码分泌蛋白或细胞外基质蛋白的基因,可能代表了一系列潜在的卵巢EMS 诊断和治疗的生物标志物和药物靶点,但仍需更进一步研究来明确。
NID2 是一种巢蛋白(nidogen) 家族蛋白,与细胞外基质中的层黏连蛋白和胶原蛋白协同发挥平衡基底膜完整性和稳定性的作用[20-21]。NID2 高甲基化与癌症的发生有关,在几种癌症中NID2 表达下调,提示NID2 具有抑癌活性[22-23]。NID2 的缺失有助于癌症的发展,由于细胞间相互作用减弱,可能会刺激转移和侵袭[24-25]。研究[26-27]显示:NID 可作为诊断卵巢癌和肝细胞癌的生物标记物。EMS与部分卵巢透明细胞癌、子宫内膜样癌和子宫内膜癌的形成有关[28],但其恶变机制至今尚未明确。
THBS2 是凝血酶原蛋白家族中的一员。通常被认为是肿瘤发生过程中血管生成的内源性负性调节因子[29]。THBS2 是基质细胞钙离子(Ca2+) 结合糖蛋白家族的成员,已观察到其可与多种细胞受体、生长因子和细胞外基质蛋白相互作用,从而影响细胞黏附、 增殖和凋亡功能[30-31]。据报道,THBS2 可以分别通过基质金属蛋白酶(matrix metalloproteinases,MMPs) 中 的 MMP-2、MMP-9 和MMP-3 促进不同肿瘤的发展[32-34]。而在异位子宫内膜中MMP-2 和MMP-9 的表达均高于无EMS 患者[35]。病例对照研究显示:MMP3 基因多态性与患EMS 的风险呈正相关关系,因此与MMPs 有密切关联的THBS2 有待进一步研究。
综上所述,DCN、BGN、NID2 和THBS2 基因是参与EMS 发生进展过程的核心基因,可能通过调节细胞外基质参与EMS 的发生发展。异常基质重塑与EMS 的发展有密切关联,了解参与子宫内膜基质重塑的基因及其调节因子,可能有助于阐明EMS 的病因,并进一步改善EMS 诊断、治疗和预后判断的方法。经后续大量样本检测验证,上述基因有望成为预测EMS 发生的生物标志物和治疗靶标。