邹秋凤,邹佳英,李丽娟,方小玲,黄文娟
中国人民解放军联勤保障部队第九二四医院新生儿科(广西桂林 541000)
溃疡性结肠炎(ulcerative colitis, UC)是一种病因复杂的慢性非特异性肠道炎性疾病,主要累及结肠和直肠[1]。根据既往流行病学研究报道,UC 的发病率为1~32/10 万人年[2]。约20%的UC患者确诊时<18 岁,小儿UC 的诊断年龄中位数为10~14 岁[3]。与成人UC 相比,小儿UC 的特点是结肠受累更广泛,疾病更具侵略性[4]。60%~80%的患儿表现为大范围溃疡,10 年的手术切除率高达30%~40%[5-6]。近年来,病因不明的小儿UC 发病率呈快速上升趋势[7]。肠道炎症和黏膜损伤是UC 的主要形式。正常情况下,黏液层、肠道上皮和肠道免疫系统共同构成肠道物理屏障,避免了肠道细菌和抗原不适当的免疫激活[8]。在UC 状态下,炎症和免疫细胞富集在肠道黏膜,肠道通透性发生了变化。基于微阵列和高通量PCR 技术,UC 和正常组织的mRNA 表达谱被确定。目前,全基因组关联研究已确定了UC 的23 个易感基因[9],然而,小儿UC 相关的生物信息学研究有限。本研究基于基因表达综合数据库(Gene Expression Omnibus, GEO),采用生物信息学技术探讨小儿UC 相关差异表达基因(differentially expressed genes, DEGs)的生物学功能,为小儿UC 的机制研究和诊治提供科学依据。
从GEO 数据库(http://www.ncbi.nlm.nih.gov/geo)下载UC 数据集GSE126124 的基因表达谱(Affymetrix GPL6244平台,Affymetrix Human Gene 1.0 ST Array)。根据平台注释信息文件,将数据集的所有探针ID 转换为相应的基因符号。GSE126124数据集包含两组样本,其中18 个样本来自儿童UC活检组织,作为实验组;19 个样本来自非炎症性肠病儿童的肠道活检组织,作为对照组。
实验组和对照组之间的初步DEGs 均通过GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)分析获得。GEO2R 是GEO 内置的网络工具,通过比较样本的转录组数据来获取不同样本间的初步DEGs。对初步DEGs 进行筛选,对于未匹配到基因和匹配多个基因的探针ID 予以删除。对于重复基因,本研究只保留平均表达倍数最高的基因。最后,筛选矫正后P值<0.05 和基因表达Log 倍数变化(Log fold change,LogFC)绝对值>1 的DEGs,其中LogFC >1 的DEGs 视为高表达基因,LogFC <-1 视为低表达基因。
注释、可视化和综合发现数据库(Database for Annotation, Visualization and Integrated Discovery,DAVID)(http://david.ncifcrf.gov)为输入的蛋白质和基因列表提供了一个全面的生物学信息在线分析工具。京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)是一个分析基因功能和相关通路的数据库。GO 数据库(Gene Ontology,GO)是一个公认的生物信息学工具,为注释基因的生物学过程而开发。为了在生物功能水平上分析DEGs,本研究使用DAVID 在线数据库进行基因功能和通路富集分析,P<0.05 表示差异具有统计学意义。SangerBox(http://sangerbox.com/Tool)用来可视化GO 和KEGG 富集结果。
STRING 数据库(Search Tool for the Retrieval of Interacting Genes/Proteins,STRING)(http://string-db.org)用来构建DEGs 的蛋白质-蛋白质相互作用(protein-protein interaction, PPI)网络,平均分>0.4 作为关联的临界值。使用Cytoscape 3.9.1 软件可视化蛋白关联网络。此外,Cytoscape的插件MCODE 2.0.0 可根据拓扑结构选择集群特定网络,并定位相互作用密集的区域[19]。使用默认参数如下:Node score cut-off=0.2,K-Core=2,MAX depth=100,degree cut-off=2。选取MCODE分数最高的子网进行关键基因分析。
Cytoscape 的插件Cytohubba 用于分析子网模块中的关键基因。运用Cytohubba 中MCC 算法筛选出分数排名前10 的基因作为关键基因,并使用KEGG 分析关键基因的富集通路。
对GSE126124 数据集中18 例UC 样本和19例对照组样本数据进行差异分析,确定了153个矫正后P值<0.05 并且LogFC 绝对值>1 的DEGs,包括92 个高表达DEGs 和61 个低表达DEGs。基因表达火山图见图1-A。
图1 差异基因的分布和富集分析Figure 1. The distribution and enrichment analysis of differentially expressed genes
生物过程(biological process, BP)功能富集显示,DEGs 主要富集在对外界刺激的反应、转运、局域化、免疫系统过程和化合物反应方面(图 1-B)。细胞成分(cell component, CC)分析显示,DEGs 主要富集在细胞外区域、细胞间隙和囊泡方面(图1-B)。KEGG 通路分析显示,DEGs 主要富集在病毒蛋白与细胞因子及受体的作用、金黄色葡萄球菌感染、百日咳、趋化因子信号通路、补体和凝血级联等方面(图1-C)。
分别对高表达和低表达的DEGs 进行GO 功能和KEGG 通路富集分析。在高表达的DEGs 中,BP分析显示基因主要富集于外部刺激反应、免疫系统过程和压力反应(图2-A);CC 分析显示基因主要富集于细胞外域和囊泡(图2-B);分子功能(molecular function,MF)分析显示基因富集于催化活性、金属离子结合和信号受体结合(图 2-C);KEGG 通路分析显示基因主要富集于金黄色葡萄球菌感染、IL-17 信号通路、病毒蛋白与细胞因子及受体的作用、细胞因子-细胞因子受体相互作用、趋化因子信号通路(图2-D)。另一方面,在低表达DEGs 中,BP 功能分析显示基因主要富集于转运和局域化(图3-A);CC 分析显示基因主要富集于膜的成分(图3-B);MF 分析显示基因主要富集于转运体活性、跨膜转运蛋白活性(图3-C);KEGG 信号通路分析显示基因主要富集于代谢通路、胆汁分泌、药物代谢-细胞色素P450(图3-D)。
图2 高表达差异基因的GO和KEGG富集分析Figure 2. GO and KEGG enrichment analysis of highly expressed differential genes
图3 低表达差异基因的GO和KEGG富集分析Figure 3. GO and KEGG enrichment analysis of low expressed differential genes
DEGs 的PPI 分析获得了116 个基因相互作用网络(图4-A)。MCODE 分析PPI 获得了包含14 个DEGs 构成的高评分网络(图4-B)。Cytohubba 对这 14 个DEGs 进行了分析,选取出10 个MCC 评分最高的基因作为关键基因(图4-C)。其中,Cxcl1具有最高MCC 评分,Cxcl2、Cxcl10次之,且均属于小儿UC 高表达基因(表1)。关键基因的KEGG 信号通路分析显示,这些基因主要富集在趋化因子、病毒蛋白与细胞因子及受体的作用、幽门螺杆菌感染上皮细胞、IL-17 和TNF 信号通路方面(图4-D)。
表1 10个关键基因详细信息Table1. The detailed information of 10 hub genes
图4 差异基因和关键基因的分析Figure 4. Analysis of differentially expressed genes and hub genes
小儿UC 常见胃肠道表现有血便、便秘和腹痛[10]。由于常见的炎症性消化道疾病也有类似临床表现,UC 常被延误诊断。研究报告称,当发病年龄<6 岁时,约31%~47%的小儿炎症性肠病为UC[11]。当前UC 治疗措施主要为诱导和维持症状缓解[12],主要缓解药物包括5-氨基水杨酸(5-ASA)和皮质类固醇[13]。5-ASA 是一线治疗药物,其生物学功能如下:①抑制环氧化酶和脂氧化酶,进而诱发前列腺素和白三烯的产生[14];②干扰肿瘤坏死因子对NF-kB 的激活[15]。据报道,糖皮质激素治疗通过下调白细胞介素-1、白细胞介素-6、TNF-α 和NF-kB 发挥抗炎作用[16]。此外,糖皮质激素影响mRNA 的稳定性并抑制蛋白质的转录合成[17]。另一方面,5-ASA、生物制品和硫嘌呤被用于维持UC 的缓解。作为一种抗TNF-α 的单克隆抗体,英夫利西单抗可诱导表达TNF-α 的细胞凋亡,从而对炎症反应有治疗作用[18]。免疫调节剂,如硫嘌呤和甲氨蝶呤可刺激或抑制体液、细胞介导的免疫反应。硫嘌呤可通过VAV-Rac1 T 淋巴细胞通路和Rac1靶基因促进细胞凋亡[19],其代谢物6-TGN 可下调促炎症细胞因子TNF 家族[20]。虽然药物治疗可以缓解UC 的进展,但15%的病例仍需手术切除治疗[21],因此,有必要确定更多潜在的小儿UC生物标志物。
利用微阵列技术和生物信息学分析来探索基因改变和生物标志物有利于疾病的进一步研究。目前国内外关于小儿UC 的生物信息学研究较少,大部分研究基于成人UC 组织。Noble 等报道了Saa1、Defa5、Defa6、Mmp3和Mmp7基因在成人UC 活检组织中存在差异表达和上调[22]。Xiu 等基于GSE87473 数据集的生物信息学研究发现,Cdc42、Polr2a、Rac1、Pik3r1、Mapk1和Src基因在成人与儿童UC之间存在病理学差异[23]。然而,这些研究并没有通过比较正常与病变组织来获取DEGs。
本研究结果显示,DEGs 主要富集在病毒蛋白与细胞因子及受体的作用、金黄色葡萄球菌感染、百日咳、趋化因子信号通路、补体和凝血级联等方面。Ungaro 等[24]报道了炎症、免疫反应与UC 的病理生理学有关,其过氧化物酶增殖体的激活受体gamma 的表达减少,这是NF-kB 依赖的炎症负调控因子。趋化因子,如Cxcl8、Ccl2和Ccl5,调节了炎症性肠病的黏膜炎症[25]。补体和凝血级联是一个复杂的免疫系统,在炎症中起着重要作用[26]。Bone 等人发现补体和凝血级联在肠道闭锁和败血症大鼠模型中被激活,该研究还发现C5a抗体可以改善该疾病,表明C5a在补体和凝血级联反应中起重要作用[27]。然而,关于小儿UC 中补体和凝血级联的研究报道很少。
本研究选择了关键基因并建立了一个核心网络,表明基因间有紧密的相互联系。在这些基因中,Cxcl1的MCC 评分最高,为5 888。Cxcl1是Cxc趋化因子家族的一个重要成员,在炎症性疾病中激活炎症系统。Xu 等人的研究报道了Cxcl1在UC 患者结肠黏膜的表达水平增加[28]。在治疗中,抑制Cxcr1/2轴可能是小儿UC 的一种新的治疗策略。同时,一些报道称使用Cxcr1/2拮抗剂G31P、Sb225002 或敲除Cxcr2后,DSS 诱导的小鼠结肠炎可以得到改善[29-31]。Il1rn是白细胞介素1 受体拮抗剂,研究报道Il1rn可能作为UC 和结直肠癌的共表达基因[32]。Fcγ 受体IIIa(Fcgr3a)的功能多态性被认为与接受抗Tnf治疗的炎性肠病患者的反应相关,但在UC 的相关报道较少[33]。此外,S100a12和Ido1在UC 相关研究中也有报道[34-35]。本研究分析的10 个关键基因在免疫炎症中具有相关作用,如Cxcl家族和Cxcr家族。其他关键基因在既往UC 相关研究中鲜有报道。此外,较少研究分析小儿UC 的DEGs。本研究结果支持这些基因在UC 中的作用,为小儿UC 疾病发生和发展提供基因相关的理论依据。
综上所述,本研究利用生物信息学技术,发现小儿UC 肠道组织存在153 个DEGs,其中10个关键基因有可能作为诊断和治疗的潜在生物标志物。然而,尚需更多的基础研究来进一步探索这些基因在小儿UC 中的具体机制。