周章剑,谢 欣,王 璇,张 昊,党诚学
(1. 西安交通大学第二附属医院肿瘤科,陕西西安 710004;2.西安交通大学第一附属医院肿瘤外科,陕西西安 710061)
食管腺癌(esophageal adenocarcinoma, EAC)是常见的消化道恶性肿瘤之一,发展迅速且预后较差。2018年全球食管癌新发病例数约57万,发病率列恶性肿瘤第7位;死亡患者约51万,死亡率位居第6位[1]。EAC的发生发展与嗜酒、嗜烟、肥胖及胃食管反流密切相关,但其具体致癌机制尚不明确。因此,研究EAC发病的关键基因和通路对EAC早期筛查及精准治疗具有重要意义。生物信息学是由多学科交叉产生的学科。近年来,运用生物信息学方法在分子水平上进行数据挖掘,为研究各种疾病的分子机制提供了新的思路。本研究通过收集GEO(Gene Expression Omnibus)数据库中EAC的芯片数据,对EAC发生发展的相关基因进行挖掘,并进行生物信息学分析,以期为EAC发生发展与早期诊断治疗提供新的方向。
1.1 基因表达数据信息以“Esophageal adenocarcinoma”为关键词在GEO数据库中检索与EAC相关的基因表达谱数据。选择GSE26886芯片数据进行挖掘,该数据由WANG等[2]提供,其中包括EAC标本:GSM661741-GSM661761,正常食管组织标本:GSM661762-GSM661780。
1.2 差异表达基因的筛选利用R软件进行差异表达基因筛选,筛选条件为差异表达上调或下调4倍(log2FC绝对值>2)以上,且P<0.01。
1.3 差异表达基因的生物信息学分析利用R软件对筛选出的差异表达基因进行基因本体论(GeneOntology, GO)和京都基因与基因组百科全书(KEEG)分析,并对筛选出的差异基因进行GO注释、KEGG信号通路富集注释。将筛选的差异基因输入STRING (http://www.string-db.org)数据库进行分析,找出差异基因的对应蛋白之间的可能相互作用关系,构建相互作用网络结构图(protein-protein interaction, PPI)。研究中应用的R软件包主要有:GEOquery,reshape2,DESeq2,limma,Affy,ggplot2,pheatmap,topGO,Rgraphviz,pathview,clusterProfiler,org.Hs.eg.db,enrichplot,DOSE。
2.1 标本信息标准化处理在对芯片原始数据进行背景校正及分位数标准化后(图1),在R软件中采用Affy包[3]中的稳固多阵列平均算法(robust multiarray average algorithm, RMA)分析GSE26886芯片原始探针数据(.CEL文件),即可得到表达值。同一基因的多个探针测量表达值的平均值即为该基因的表达值。
2.2 差异表达基因的筛选由GEO数据库中获得GSE26886芯片数据分析可得,相对于对照组正常食管鳞状上皮,EAC样本中可筛选出1 383个差异基因,其中表达上调607个,表达下调776个。筛选了该数据集中差异表达水平超过4倍且P<0.01的基因为后续研究对象,并对差异基因的分布绘制火山图(图2)。以下列举了差异表达最明显的前20个基因(表1),并且进一步对差异表达前100基因进行聚类分析(图3),探索不同差异基因的潜在共同特征。
图1 GSE26886数据集样本标准化校正
图2 GSE26886数据集差异表达基因的筛选
表1 差异表达最明显的前20位基因
图3 GSE26886数据集差异表达基因的聚类分析
2.3 GO基因功能的富集分析GO功能富集分析显示,上述差异表达基因在细胞组分(cellular component, CC)层面主要富集于含胶原的细胞外基质、细胞间连接、细胞顶端膜等;在生物学过程(biological process, BP)层面主要富集于表皮层及皮肤发育、表皮细胞分化、多细胞器官稳态等;在分子功能(molecular function, MF)层面主要富集于抑制酶活性、细胞外基质结构组成、肽酶调节活性等(表2,图4~图6)。
2.4 KEGG信号通路的富集分析KEGG信号通路分析表明,差异表达的基因参与的主要信号通路富集于雌激素信号通路、神经鞘脂信号通路、蛋白消化与吸收等(图7),体现出EAC发生发展过程中较为复杂且多样的信号通路调控关系。
2.5 差异表达基因间PPI网络分析将1 383个差异基因中的差异最显著的前200个基因编码的蛋白使用String数据库在线进行PPI分析,结果表明,上述部分差异基因间存在广泛的蛋白间相互作用,例如DSC3与PKP1、IVL与SPRR1、IVL与SPRR3、ALDH9A1与BBOX1、LPAR3与GNAI3、MAF与Sox9之间相互作用较为密切,提示编码这些蛋白的基因可能参与EAC发生发展的调控(图8)。
2.6 DO分析进一步以疾病为中心采用疾病本体论(disease ontology, DO)分析差异基因所导致的疾病富集,结果表明,上述差异基因在女性生殖系统疾病、皮肤疾病、冠心病、腺癌、胃癌及非小细胞肺癌等疾病中富集较为明显(图9),提示差异基因在恶性肿瘤,特别是腺癌发生发展过程中有非常重要的作用。
表2 GO基因功能及KEGG信号通路富集分析
图4 差异表达基因GO细胞组分富集分析
作为消化道常见的恶性肿瘤,食管癌的发病率与死亡率一直位居前列。作为食管癌高发国家,我国因食管癌带来的社会及经济负担较为沉重[4]。食管癌具有起病隐匿、早期诊断困难、恶性程度高、预后较差等特征,近年来已成为肿瘤基础研究与临床诊治研究的热点。依照肿瘤的组织类型,食管癌主要分为食管鳞癌(esophageal squamous cell carcinoma, ESCC)与EAC两大类。ESCC是食管癌的主要病理类型,约占食管癌患者的90%,亚洲、非洲与南美洲为高发地区,过度烟酒被视为其危险因素,食管鳞状上皮异常增生是重要的癌前病变;而EAC所占比例较低,主要高发于欧洲与北美洲,男性高发。近年来的研究表明,与反流性食管炎(reflux esophagitis, RE)及Barrett食管(barrett’s esophagus, BE)密切相关的胃食管反流病(gastroesophageal reflux disease, GERD)与肥胖被认为是EAC的危险因素,Barrett 食管则为EAC的重要癌前病变[5-6]。我国的一项横跨24年的研究指出,我国约95%的食管癌为ESCC,而EAC发病率较低[7]。但近年来随着经济的快速增长,饮食、生活方式逐渐西方化,包括RE在内的GERD发病率逐年上升,特别是北京、上海等大城市,而EAC在我国的城市及农村地区发病率均呈现逐年上升趋势,值得肿瘤防治研究人员的注意[7-9]。在EAC中,“反流性食管炎-Barrett食管-不典型增生-食管腺癌”是目前公认的EAC发病进程,但其发病过程中具体的分子机制仍未完全阐明[10]。本研究基于GEO数据库采用多种生物信息学分析方法探究在EAC发生发展过程中发生差异表达的基因,初步探索这些差异表达基因的功能及作用,为后续基础研究及临床早期筛查与靶向治疗提供新的方向。
图5 差异表达基因GO生物学过程富集分析
图6 差异表达基因GO分子功能富集分析
图7 差异表达基因KEGG信号通路富集分析
图8 差异表达基因的PPI网络分析
图9 差异表达基因的DO分析
EAC的发生与发展涉及多种基因的表达失调。本研究通过对包含EAC的GSE26886进行分析筛选,发现了1 383个差异表达基因,进一步通过GO分析表明,这些差异基因在细胞外基质的构成、细胞分裂增殖、细胞间连结、表皮细胞发育及酶活性调节等方面发挥重要作用。KEGG信号通路富集分析表明,包括雌激素信号通路、IL-17信号通路等在内的多种信号通路参与了EAC的发生发展,体现出EAC发病过程的复杂性。
本研究发现了607个差异表达上调的基因,分析了上调最为明显的20个基因,结果表明,这些基因可以通过调控转录复合物形成、可变剪切、细胞分化与死亡、细胞-基质黏附等多种关键生物学过程。其中,AGR2最初被发现可通过介导黏液分泌腺及前脑的形成促进爪蟾的成熟[11]。近年来的研究显示,AGR2在EAC癌前病变Barrett食管中表达量相对于食管正常上皮显著上升[12]。WANG等[13]的研究表明,AGR2可通过促进细胞生长、迁移及细胞转化促进EAC的发生发展。此外,转录因子FoxA家族可以通过结合转录抑制因子Rfx1共同调控Cdx2的影增强子(shadow enhancer),进而影响EAC的发展[14]。而在776个差异表达下调的基因中,BNIP3可作为Bcl2的互作蛋白共同促进线粒体相关的细胞凋亡过程,而其在EAC中的表达下调,提示其可能在EAC发展过程中促凋亡过程减弱。另外钙粘蛋白超家族成员DSC3可参与构成细胞间桥粒连结结构而抑制细胞的迁移[15]。研究表明,在EAC中DSC3启动子区发生异常高甲基化,继而导致DSC3表达沉默,细胞迁移性增加,并与进展期EAC及淋巴结转移显著相关[16]。
在对EAC差异表达基因进行PPI分析时,发现以SPRR(small proline-rich protein)蛋白家族成员为中心,包括SPRR1A、SPRR1B、SPRR2B及SPRR3在内的多种蛋白存在相互作用,提示其在EAC发生发展中的重要作用。在食管正常鳞状上皮发育过程中,由角化细胞后期分化产生的角质套膜(cornified cell envelope, CE)结构充当鳞状上皮层的保护屏障。而SPRR蛋白家族成员则是构成CE结构的重要成员[17]。既往多项基于ESCC的研究表明,SPRR家族成员SPRR3表达水平在由正常食管鳞状上皮至食管癌中表达逐渐下调,并可作为一项新的肿瘤标记物检测食管鳞癌的发生[18-19]。而在EAC研究方面,一项来自美国的研究表明,相较于ESCC,SPRR家族在EAC中表达下调,且参与细胞增殖、分化等过程中。与本研究相似,该研究进一步发现SPRR3的表达水平在EAC组中显著低于ESCC组,提示SPRR3在食管鳞癌与腺癌发生发展过程中存在不同的作用机制。此外,SPRR3在评估术前放化疗病理学完全缓解(pathological complete response, pathCR)与未达到pathCR方面表现出较高的灵敏度与特异度,体现出SPRR家族在食管肿瘤疗效评估中的作用[20]。然而,一项基于肺鳞癌的高通量转录组测序分析表明,SPRR3、SPRR1A、SPRR2E、SPRR1B及SPRR2D在肺鳞癌样本中呈现高表达状态,提示SPRR家族的表达状态及功能可能存在癌肿差异[21]。
综上所述,本研究通过对GEO食管腺癌芯片数据进行生物信息学分析,筛选出在EAC发生发展过程中表达差异的基因及相应的信号通路,其中AGR2、DSC3等基因及SPRR相关蛋白家族可能在EAC的发生发展过程中发挥重要的作用,并在临床治疗效果评价中具有潜在的应用价值。同时,本研究也表明,生物信息学分析工具在挖掘肿瘤发生机制、疗效评价及预后预测方面的巨大应用价值,相信结合后续分子生物学领域的研究,可以为EAC的诊断与治疗提供新的思路。