赵乾
(石家庄工商职业学院,河北石家庄 050091)
食管癌是一种常见的消化道恶性肿瘤。尽管从1990年至今,我国食管癌死亡率呈现下降趋势,但是由于人口基数较大,因食管癌死亡人数仍较多,以2015年为例,因食管癌死亡的人数达202 042人[1]。同时,我国的食管癌发病率也远高于发达国家,值得注意的是,食管鳞状细胞癌(Esophageal Squamous Cell Carcinoma,ESCC)是我国食管癌的主要类型,约占90%[2]。ESCC在早期难以被人察觉,而当出现明显症状(吞咽疼痛、胸骨后疼痛、慢性出血等)时,通常已经处于晚期阶段,常规的手术、放疗、化疗等治疗手段难以有效干预癌症进程[3]。越早发现和治疗,癌症干预效果越好,因此鉴定和发展新的用于诊断和治疗的靶标分子是目前的研究热点。
随着高通量测序技术的发展和开源政策的出现,大量的测序数据,如芯片数据、转录组数据等,被存放在 NCBI(National Center for Biotechnology Information)的GEO(The Gene Expression Omnibus)数据库中,可以更高效地利用和整合组学数据,不仅能够节约成本,还可以深入挖掘这些开源数据,探求生物学过程的机制和靶点。
本研究基于生物信息学方法分析食管鳞状细胞癌的芯片数据集,从理论上分析预测可能的分子机制,为寻找潜在的食管癌诊断标记物提供一定的理论基础。
以“esophageal”为关键词在GEO数据库中进行检索,获得编号为GSE17351的芯片数据,该数据由LEE等[4]提交,包含ESCC样本和正常样品各5个(登记号:GSM433786~GSM433795)。
1.2.1 差异表达基因筛选与可视化
在GEO数据库界面检索到GSE17351数据集基本信息符合要求后,在RStudio中通过来自“GEOquery”包(版本2.26.2)的getGEO()函数进行数据集表达矩阵构建。随后对表达数据进行处理,包括质量控制、标准化等。此外,需要将探针和基因ID对应,去除无效探针。对于一个基因对应多个探针的情况,选择最大值对应的探针代表该基因。最终,基于经验贝叶斯方法和“limma”包提供的线性回归方法,鉴定ESCC和对照组之间的差异表达基因(筛选标准为P<0.05且|log2[FC]|≥1.5)。
1.2.2 差异表达基因的GO富集分析和KEGG富集分析
基于“clusterProfiler”包(版本4.2.2),分别对上调基因和下调基因进行GO富集分析和KEGG通路富集分析,并进行注释及可视化。
1.2.3 差异表达基因的PPI网络分析和Hub基因筛选
将差异表达基因输入STRING(https://string-db.org/),获得PPI网络。将输出文件导入Cytoscape软件(版本3.9.1)中,使用MCODE插件获取主要的PPI网络,使用Cytohubba插件鉴定前10位Hub基因。
如图1所示,ESCC肿瘤样本和正常样品之间的差异表达基因共计1 058个,其中表达谱上调的基因479个,表达谱下调的基因579个。
图1 食管鳞状细胞癌差异表达基因火山图
GO富集分析包括生物学过程(Biological Process,BP)、分子功能(Molecular Function,MF)和细胞组成(Cell Composition,CC)。分别对显著性排名前十的上调基因和下调基因进行GO富集分析和KEGG通路分析,从而探究表达增加和减少的基因集中参与到哪些重要的生物学事件中。
上调基因GO富集结果见表1。BP中差异基因主要富集于有丝分裂中细胞质分裂和细胞核分裂的相关过程;MF中差异基因主要富集于细胞外基质结构成分、酶活性(ATP酶、解旋酶和金属内肽酶)和马达活性;CC中差异基因主要富集于染色体、着丝粒和胶原纤维。很显然,上调基因的特性都指向了细胞分裂,包括DNA复制、染色体形成和分离、细胞骨架的组织和牵引及胞外环境的准备。与GO结果一致,KEGG通路分析表明(见表2)信号通路主要集中在细胞周期、蛋白质消化吸收和ECM受体相互作用。
表1 食管鳞状细胞癌上调基因GO富集结果
表2 食管鳞状细胞癌上调基因 KEGG通路分析结果
下调基因GO富集结果见表3。BP中差异基因主要富集于肌肉细胞分化和运动、类二十烷代谢、角质化和动脉导管闭合过程;MF中差异基因主要富集于酶活性(单加氧酶、芳香酶和氧化还原酶)、肌动蛋白结合和肌肉结构成分、细胞外基质结构成分及肝素结合;CC中差异基因主要富集于肌肉纤维有关的部位。很显然,下调基因的特性都指向了肌肉细胞的分化和功能,包括肌肉运动和类二十烷代谢。与GO结果一致,KEGG通路分析表明(见表4)信号通路主要集中在花生四烯酸代谢。癌症前期的发生需要分化成熟的细胞脱分化以具备分裂能力,数据分析结果与预期一致。
表3 食管鳞状细胞癌下调基因GO富集结果
表4 食管鳞状细胞癌下调基因KEGG通路分析结果
中国人ESCC主要组织学发病模式为“正常→各级癌前病变(基底细胞过度增生、不典型增生、原位癌)→早期浸润鳞癌”,而主要危险因素是维生素缺乏(特别是核黄素、维生素A和叶酸等)和亚硝胺暴露[2]。目前,中晚期ESCC的治疗效果不理想,表现为5年生存率低,预后不佳。此外,食管癌对患者的生活质量影响明显,并且会出现多种并发症,如恶病质、呕血、喉返神经麻痹及吸入性肺炎等[1-3]。因此,研究食管癌发生的分子机制,找寻早期阶段的分子标记物,通过早筛查早诊治的方式来帮助患者意义重大。
结合基因芯片大数据的生物信息学分析,共筛选出差异表达基因1 058个。上调基因主要与细胞分裂有关,反映了正常细胞出现了分裂异常,从而演化成具有增殖能力的肿瘤细胞的过程。下调基因的特性都指向了肌肉细胞的分化和功能,包括肌肉运动和二十烷酸代谢,符合食管癌的特征。(1)食管主要由环节肌层(内层)和纵行肌层(外层)组成,这两种肌肉的收缩蠕动使食物进入胃。因此,癌变涉及的主要细胞类型是肌肉细胞,逐步脱分化并失去肌肉细胞的特性,即下调基因富集到肌肉细胞相关特性意味着细胞逐步丧失了肌肉的特性。(2)二十烷酸代谢在肌肉和血液中具有重要作用,可产生一系列生物活性物质,如前列腺素E2(PGE2)、前列腺环素(PGI2)、血栓烷素A2(TXA2)和白细胞三烯,对脂质蛋白的代谢、血管弹性、白细胞功能等具有重要的调节作用。因此,这些类型的基因下调,意味着肌肉功能和免疫功能的失调。
ESCC和癌旁组织之间的差异基因构建的PPI网络的三个主要模块如图2所示。模块1(图2A)富集了CDC、CDK和CENP基因家族的成员,暗示了其在细胞分裂方面的功能;模块2(图2B)富集了整联蛋白基因和胶原蛋白基因,表明了该模块可能参与到细胞黏着和通讯方面的过程;模块3(图2C)中同样包含了较多的胶原蛋白基因家族成员,但更重要的是它含有MMP基因家族,这一家族成员作为基质金属蛋白酶,可以降解细胞外基质,从而介导肿瘤血管生成、转移和侵袭。PPI网络中的连接程度前10位Hub基因如图3所示,分别是TOP2A(TopoisomeraseⅡ Alpha)、TPX2(Targeting Protein for Xenopus Kinesin-Like Protein 2)、KIF2C(Kinesin Superfamily Protein 2C)、AURKB(Aurora B Kinase)、KIF20A(Kinesin Superfamily Protein 20A)、KIF23(Kinesin Superfamily Protein 23)、NCAPG(Non-SMC CondensinⅠ Complex Subunit G)、CDCA8(Cell Division Cycle Associated 8)、BUB1B(BUB1 Mitotic Checkpoint Serine/Threonine Kinase B) 和 CENPF(Centromere Protein F)。
图2 差异表达基因PPI网络模块
图3 PPI网络筛选的前十位的hub基因
通过建立基因表达网络,筛选出3个主要的网络和10个节点基因。其中,10个节点基因都和细胞分裂过程相关,并且被报道参与多种癌症的发生过程。TOP2A是一种依赖ATP的具有DNA切割能力的泛酶,参与到DNA复制、染色体分离、染色质浓缩及基因表达等过程。TOP2A在ESCC中的表达水平显著低于癌旁组织,并且该基因的表达情况是影响患者预后的危险因素[5]。KIF超家族是一类分子马达,包括14个亚家族的45个成员。KIF主要参与细胞器、蛋白质复合物、mRNA的运输及有丝分裂和减数分裂过程中染色体和纺锤体的运动等。KIF超家族中,有多个成员已经被报道参与鳞癌的发生发展,如KIF14和KIF15在食管鳞癌细胞中的表达水平显著高于正常食管上皮细胞Het-1A,KIF14和KIF15的siRNA能显著下调食管鳞癌Eca109细胞中KIF14和KIF15蛋白的表达,并因此显著抑制食管鳞癌Eca109细胞的增殖[6-7]。TPX2即Xklp2靶蛋白,该基因参与有丝分裂过程中纺锤体的形成和中心体的成熟,在多种癌症组织中高表达。TPX2在食管癌组织中的表达显著高于食管癌旁上皮及正常上皮组织,且表达水平与食管癌的淋巴结转移和浸润深度相关(P<0.01)[8]。AURKB是一种丝氨酸/苏氨酸激酶,是有丝分裂过程的关键调节酶之一。AURKB受到miR-24-1-5p的调控,参与到鳞癌的早期发生及与香烟有关的鳞癌的发生[9]。
此外,NCAPG负责减数分裂和有丝分裂过程中染色体的凝聚和稳定,在多种恶性肿瘤中高表达,通过调控肿瘤细胞周期、细胞衰老和错配修复等在肿瘤的侵袭、转移、凋亡及耐药等过程中发挥重要作用[10]。CDCA8是一种细胞周期调节基因,因此在正常组织中应低表达或微弱表达,但在许多癌症中均能发现CDCA8过表达的现象[11]。BUB1B是纺锤体检验蛋白,具有丝/苏氨酸激酶活性,在喉鳞癌组织中低表达,受甲基化调控,与癌症发生过程中的中心粒异常有关[12]。CENPF是着丝粒蛋白的一个亚型,它的缺失会造成有丝分裂缺陷,包括纺锤体无法正常组装、染色体非正常排列和分离甚至导致细胞死亡;CENPF功能的发挥取决于法尼基化修饰,CENPF的过表达则可能导致肿瘤的发生,通过法尼基转移酶抑制剂(Farnesyltransferase Inhibitor,FTI)处理细胞可以抑制肿瘤细胞的增殖[13]。
本研究分析并确定与ESCC发病相关的基因及其相关的信号通路,发现上调基因主要与细胞分裂有关,下调基因主要影响肌肉细胞的分化和功能,其中10个节点基因都和细胞分裂过程相关。但这些基因在肿瘤发生过程中的作用阶段和作用机制仍有待于进一步的研究确定,本研究为ESCC的早期诊断和治疗提供理论基础。