任威瑞, 张 创, 赵文娟, 张宇翔, 王军民
1.河北医科大学第三医院消化内科,河北 石家庄 050000;2.河北医科大学第二医院小儿外科
锯齿状息肉(serrated polyp,SP)是一种隐窝上皮存在锯齿状形态结构,具有不同程度恶性潜能的异质性病变,其中包括增生性息肉(hyperplastic polyp,HP)、传统锯齿状腺瘤(traditional serrated adenoma,TSA)和无蒂锯齿状腺瘤/息肉(sessile serrated adenoma/polyp,SSA/P)[1]。锯齿状息肉病综合征(serrated polyposis syndrome,SPS)过去被称为增生性息肉综合征(hyperplastic polyposis syndrome,HPPS)[2]。Burt和Jass于2000年提出了HPPS定义,被世界卫生组织(WHO)认可并延续至今[3]。WHO于2019年更新了诊断标准,SPS的诊断要求满足以下条件之一:(1)在近端结肠至少有5枚SP,大小均>5 mm,其中至少有2枚SP直径>10 mm;(2)在整个结直肠腔中发现超20枚大小不同的SP,其中至少5枚位于近端结肠[4]。虽然SPS患者有较高的发展为结直肠癌的风险,但SPS遗传缺陷机制目前仍不明确[5]。高通量基因芯片和测序技术的高速发展为探索SPS的基因表达谱、发现肠道细胞在特定状况状态下的基因表达情况和关键基因变化规律提供了可能。综合的生物信息学分析可以帮助我们进一步研究并更好地探索其潜在机制[6]。为了更深层次研究SPS各种基因变化及引起SPS的关键基因,本研究从Gene Expression Omnibus(GEO)数据库中选择了GSE19963数据集,下载并分析数据以获取SPS的肠道组织样本和正常结肠黏膜组织样本的差异表达基因。利用DAVID数据库对差异表达基因进行富集和功能注释,基于STRING数据库和Cytoscape软件构建蛋白质相互作用(protein-protein interaction,PPI)网络,分析其关键基因,应用药物基因组学数据库Connectivity Map(CMap)探索具有潜在治疗SPS作用的小分子药物。本研究希望通过生物信息学为SPS的早期诊断、发病机制及治疗药物的研究提供一定依据和方向。
1.1 基因表达芯片数据来源利用美国国立生物技术信息中心(National Center of Biotechnology Information,NCBI)平台下的基因表达综合数据库GEO数据库(http://www.ncbi.nlm.gov/geo/)检索并下载了SPS相关的数据芯片集GSE19963,其中包含了5个SPS患者肠道组织样本和4个正常结肠黏膜组织样本,采用GPL570[HG-U133_Plus_2]Affymetrix平台进行差异表达基因的检测。
1.2 差异表达基因的筛选利用在线分析程序GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)对SPS组织样本及对照组数据进行分析,以调整P值(adj.P)<0.05和|log2FC|>1为差异表达基因的筛选标准。
1.3 差异表达基因的功能富集和注释DAVID6.8数据库(https://david.ncifcrf.gov/)是一个整合大量生物数据,为候选基因提供功能富集和注释可视化的在线工具。将筛选出的差异表达基因映射到DAVID数据库进行基因本体论(gene ontology,GO)注释,即基因功能富集分析及KEGG(Kyoto Encyclopedia of Genes and Genomes)信号通路富集分析,以adj.P<0.05为阈值进行筛选。
1.4 PPI网络构建及模块分析利用STRING11.0数据库(https://string-db.org/)构建SPS差异表达基因的PPI网络,选择置信度>0.4的基因映射到Cytoscape 3.7.1软件行可视化分析,通过分子复合物检测算法(molecular complex detection,MCODE)行模块分析,以degree cut-off为10,haircut on,node score cut-off为0.2,max depth为100及k-core为2筛选PPI网络中的重要模块。使用Cyto Hubba插件对PPI网络以度(Degree)来进行计算,所得前5个基因定为关键基因。
1.5 潜在治疗药物的筛选CMap数据库(http://www.broad.mit.edu/cmap)是一个化学试剂作用表达谱数据库[7],是利用小分子药物处理人类细胞后的基因表现差异建立的一个小分子药物、基因表现与疾病相互关联的生物应用数据库。将Cytoscape软件中MCODE插件及Cyto Hubba插件所得的模块基因及关键基因映射到CMap数据库上,将结果按照关联系数评分大小筛选出负相关中排名前10位的小分子药物。
2.1 差异表达基因筛选的结果将GSE19963数据集中4个正常的结肠黏膜组织样本作为空白组,5个SPS患者肠道组织样本作为对照组,共获得230个差异表达基因,其中157个为上调基因,73个为下调基因。
2.2 差异表达基因的功能富集和注释通过DAVID6.8数据库对差异表达基因进行GO注释及KEGG信号通路富集分析以明确基因功能。GO注释主要包括生物过程(biological processes,BP)、细胞组成(cellular components,CC)和分子功能(molecular functions,MF)三个部分。在BP中,上调基因主要富集于细胞间粘附、氧化还原、甘油三酸酯的生物合成、对有机物质的反应、肌动蛋白丝束组件、胆固醇生物合成等过程中,下调基因主要富集于细胞对锌离子的反应、生长负调节、碳酸氢盐运输、氯离子跨膜转运等过程中。在CC中,上调基因主要富集于内质网膜、细胞外泌体、细胞间粘附、细胞膜锚定成分、细胞外成分中,下调基因主要富集于内质网膜、细胞膜锚定成分、质膜、细胞质核周区域中。在MF中,上调基因主要富集于氧化还原酶活性、钙黏着蛋白结合参与细胞粘附、钙离子结合、内质网保留序列结合及透明质酸氨基葡萄糖苷酶活性中,下调基因主要富集于碳酸酐酶活性、锌依赖的乙醇脱氢酶活性、钾通道调节剂活性及金属离子的结合。KEGG信号通路富集发现,上调基因主要富集类固醇的生物合成、抗生素的生物合成、新陈代谢通路、ECM受体相互作用等通路,下调基因主要富集于矿物质吸入、药物代谢-细胞色素P450途径、化学物质致癌等通路中(见图1)。
图1 功能与通路富集分析结果 A:上调基因;B:下调基因Fig 1 Function and pathway enrichment analysis results A: up-reglated genes; B: down-reglated genes
2.3 PPI网络构建及模块分析通过STRING11.0在线工具和Cytoscape 3.7.1对655个差异基因进行PPI网络分析,去除游离的蛋白影响后,得到了如图2所示的网络。用MCODE插件对其中重要的模块分析后得到排名前2的集群模块,其得分分别为7.714、4.533(见图3A~3B)。模块1主要为上调基因:MUC5AC、MSLN、CEACAM6、LCN2、TFF1、TFF2、PSCA、SERPINB5,功能注释发现模块1与消化功能相关。模块2主要为下调基因:PYY、UGT2B15、GUCA2A、PRKAA2、PCSK9、PNPLA3、CLDN2、NQO1、INSIG1、SULT1C2、FPR2、NPY1R、PLA2G12B、ADRA1A、UGT2A3、ADCYAP1,功能注释与富集发现模块2与葡萄糖醛酸转移酶活性、戊糖和葡萄糖醛酸酯的相互转化、神经肽激素活性等功能有关(见表1)。通过Cyto Hubba插件对网络进行分析得到5个关键基因:GCG、LCN2、TFF1、SCD、SERPINB5(见图3C)。
注:红色节点表示上调的差异表达基因,蓝色节点表示下调的差异表达基因,连接的线段表示节点间的相互调节。图2 PPI网络
注:红色节点表示上调的差异表达基因,蓝色节点表示下调的差异表达基因,连接的线段表示节点间的相互调节。图3 重点蛋白表达模块 A:蛋白质表达模块1;B:蛋白质表达模块2;C:Cyto Hubba表达关键蛋白
表1 模块基因的功能与通路富集分析Tab 1 Function and pathway enrichment analysis results in expression modules
2.4 潜在治疗药物的筛选在CMap数据库中,处于-1~1的关联系数评分(score)是重要参数,其绝对值越大表明相关性越大。正值表示药物扰动的表达谱与疾病扰动的表达谱正相关,负值表示药物扰动的表达谱与疾病扰动的表达谱负相关,可以简单地认为药物能够减轻甚至逆转该疾病状态。将模块基因及关键基因映射到CMap数据库上,score排名前10的小分子化合物如表2所示,这些小分子药物是潜在治疗SPS作用的小分子化合物。
表2 前10个具有潜在治疗SPS的小分子药物Tab 2 Top 10 small molecule drugs with potential for treating SPS
粪便潜血试验或粪便免疫化学试验阳性的患者行结肠镜检查,SPS的发现率为0.09%~0.4%[8]。SPS和结直肠癌的发生密切相关,相关研究报道SPS患者中结直肠癌的患病率为15.8%~29.3%[9-10]。目前国内外对SPS的研究较少,相关研究处于起始阶段,其分子机制仍不明确[11-12]。生物信息是一门新兴的学科,已被广泛应用于高通量芯片、转录组测序等大数据分析中,在探索相关疾病新的诊疗靶标以及新药研发中具有重要意义[13]。本研究通过GEO数据库下载SPS GSE19963芯片数据集,通过生物信息学筛选出了230个差异表达基因,其中157个为上调基因,73个为下调基因。上调的差异表达基因显著富集于细胞间粘附、脂类物质的生物合成、氧化还原及类固醇的生物合成等过程。下调的差异表达基因显著富集于金属离子的结合、矿物质吸收、碳酸酐酶活性及细胞色素P450途径等过程。这些过程主要涉及营养物质代谢途径、外源物质的代谢及氧化还原反应等。强有力的流行病学证据表明,饮食差异及营养物质的吸收代谢是肠道息肉及结直肠癌发病率变化的主要决定因素,这与我们研究的差异表达基因的功能富集相吻合[14]。肠道是人体重要的代谢器官,肠道功能受损影响细胞内氧化还原状态的失衡,可直接导致细胞内生物分子损伤和炎症的发生,相关通路与SPS的发生可能有关[15]。为了研究SPS发生的分子机制,我们对差异基因进行了PPI网络构建及模块分析,并利用Cyto Hubba插件对网络进行分析,获得了5个关键基因: GCG、LCN2、TFF1、SCD、SERPINB5。其中,GCG主要产生许多众所周知的激素,例如胰高血糖素、胰高血糖素样肽1(GLP-1)和高血糖素样肽2(GLP-2)等,这些高血糖素原衍生肽在葡萄糖和能量平衡中起着非常重要的作用[16]。有研究发现,GLP-1通过成纤维细胞生长因子7(Fgf7)调节肠道生长,促进息肉及肿瘤的发生[17]。但目前尚无关于GCG在SPS中的临床价值的报道,值得进一步研究。LCN2编码属于脂蛋白家族的蛋白质,该家族成员主要运输小疏水分子,如脂类、类固醇激素和维甲酸类物质,在各种类型的肿瘤发生与发展中起重要作用。LCN2通过改变结直肠癌中代谢基因的表达水平调控细胞增殖及上皮间质转换,是结直肠癌潜在的治疗靶标[17],然而,LCN2在SPS的表达模式和功能作用仍然知之甚少,也值得进一步研究。TFF1所属的TFF家族主要在正常胃黏膜及受损的胃肠道组织中表达,一方面,TFF1通过延迟G1-S期转变降低胃肠道细胞增殖,另一方面TFF1可以保护化学物质所造成的肠道细胞的凋亡[18]。TFF1的抗增殖及抗凋亡的双重特性及其在SPS的作用值得进一步研究。SCD编码参与脂肪酸生物合成的酶,其基因编码的蛋白属于脂肪酸去饱和酶家族,位于内质网中。微粒体硬脂酰CoA去饱和酶(SCD1)在调节饱和脂肪酸(硬脂酸酯和棕榈酸酯)的作用中起关键作用。这些脂肪酸具有很强的脂毒性潜力,可引起炎症、内质网应激和胰岛素抵抗而促进肠道炎症的发生,这可能与SCD在SPS发生中的作用有关[19]。SERPINB5又名Maspin,突变的Maspin会使部分肿瘤抑制功能丧失,降低对细胞凋亡的敏感性并促进细胞的恶性进展。最为重要的是,Maspin在正常黏膜中不表达,有研究建议可将其作为SP的标志基因,其是否可作为SPS的标志基因需通过一系列实验加以验证[20]。本研究也通过CMap数据库筛选了潜在治疗SPS的化合物,其中吡咯酰胺为血小板聚集抑制剂,有研究报道,其可减轻肠道炎症[21],有可能成为治疗SPS的小分子药物。大量研究已证实,槲皮素具有预防结直肠肿瘤发生的作用,且有文献报道,其可减少家族性腺瘤性息肉病(FAP)患者肠道腺瘤的数量和大小,其对SPS的治疗作用需进一步研究[22-23]。胡椒碱是一种衍生自黑胡椒的生物碱前体药物,相关研究表明其具有预防结肠癌的作用,并可增强姜黄素的抗肿瘤能力,有可能成为治疗SPS的小分子药物[24-25]。
综上所述,本研究应用生物信息学分析从GSE19963数据集确定了230个差异表达基因并进行了基因的GO功能富集分析及KEGG信号通路分析,我们发现这些差异表达基因主要富集于营养物质代谢途径、外源物质的代谢及氧化还原反应等过程。本研究还发现一些新的在SPS发展中起着核心作用的基因及潜在的治疗SPS的小分子药物,如新型基因GCG、LCN2、TFF1、SCD及吡咯酰胺、槲皮素、胡椒碱等小分子药物。这些均为SPS的诊断与治疗提供了潜在的标志物及靶标。考虑到本研究有一定的局限性,这些预测需通过一系列体内外实验加以验证。