陈炜康,潘青,张瑜红,冼磊
(1.广西医科大学,广西壮族自治区 南宁 530021;2.广西医科大学 第一附属医院,广西壮族自治区 南宁 530021;3.广西医科大学第二附属医院,广西壮族自治区 南宁 530007)
肺癌仍然是全世界癌症相关死亡的主要原因,肺癌所有阶段的平均5年生存率只有16%,根据流行病学估算未来几十年这种趋势还将进一步增加[1]。由于早期肺癌无症状,大多数病例被发现时已经是晚期,晚期肺癌患者预后不良,5年相对生存期估计为5.2%[2]。相反,局限性肺癌患者的5年相对生存率为57.4%。因此,早期发现肺癌(在发生远处转移之前)将显著降低肺癌死亡率。由于患者在发现肺癌时所处的分型和阶段对患者的生存预后非常关键[3]。因此,为了早期诊断肺癌,人们付出了巨大的努力。
食管癌:食管癌是世界上的八大常见恶性肿瘤之一,在肿瘤相关死亡中排行第六位[4]。同时,食管癌的发生率正在逐年攀升[5]。并且不同地区发生率有较大不同。食管癌有食管鳞状细胞癌和食管腺癌两种主要的病理类型[4]。食管癌的发病机制非常复杂,食管鳞状细胞癌的主要原因是反流性胃炎和Barrett 食管等[6],而食管腺癌由多种机制引起,暂不清楚具体机制。目前已被证明食管癌进展过程中的重要分子机制有激素灭活、肿瘤抑制基因的抑制、基因突变等[7]。
肺癌和食管癌都是常见的恶性肿瘤,同时也是我国癌症相关死亡的主要癌症。这两种肿瘤有很多相似之处,如鳞状细胞癌是主要的组织病理学类型,吸烟、饮酒是主要风险因素[8-9]。肺和食道恶性病变同时发生也不罕见,食管癌血性转移通常较早累计肺部。较多证据表明肺癌和食管癌有很多遗传学上的相关性,例如都和Casp 和Cyp2a6 基因有关[10-11]。虽然已有研究证实了肺癌与食管癌之间的关联,但相关的病因学和遗传学研究还很有限,需要进一步的研究。
在本研究中,从gene expression Omnibus (GEO)数据库下载了一个肺癌基因表达谱和一个食管癌基因表达谱。GEO 是一个提供可靠遗传信息的免费综合数据库。在肺癌和食管癌数据集中,通过比较正常和疾病样本的基因表达水平来确定差异表达基因(DEGs)。然后比较这两种疾病的差异表达基因,得到它们的共同基因。我们通过基因本体论(GO)、京都基因和基因组百科全书(KEGG)和蛋白质相互作用(PPI)网络分析,确定了在这两种疾病中同时具有重要功能的关键基因。
肺癌、食管癌和正常对照的微阵列数据集下载于Gene Expression Omnibus (GEO) 数据库(http://www.ncbi.nlm.nih.gov / geo)。60例肺癌患者和60例健康对照标本的基因表达谱被纳入GSE19804数据集。在GSE57130 数据集中,24例食管癌患者和12例健康对照标本被纳入分析。
利用R 语言中“limma”包,以|log2FC| >1 和校正P<0.05 为标准分别筛选肺癌和食管癌与正常对照样本之间的差异表达基因[12]。分别鉴定出两种疾病的DEGs 后,鉴定出同时在两种疾病中都差异表达的基因用于后续研究。
GO(Gene Ontology)[13]是 基 因 本 体 联 合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准,适用于各个物种,包括分子功能(MF)、生物过程(BP)和细胞成分(CC)三个部分。在P<0.05 的条件下,利用R 语言中的ggplot2 对肺癌和食管癌共同的DEGs 进行GO 和KEGG[14]通路富集分析。
我们使用蛋白质搜索工具STRING 11.5 (https://string-db.org/) 绘制了一个PPI 网络图来探索共同差异表达基因之间的相互关系。交互作用所需的最低得分的统计显著性标准是中等置信度(0.400)。最后将结果导入《Cytoscape 3.8.2》(https://cytoscape.org)[15],利用插件cytoHubba筛选关键基因。在网络中,节点和线分别代表蛋白质和蛋白质-蛋白质之间的相互作用[16]。功能齐全的插件cytoHubba 可以在(http://hub.iis.sinica.edu.tw/cytohubba/)下载。
我们利用SPSS 20.0 (SPSS, Inc, Chicago, IL, USA)软件建立关键基因的受试者工作特征(receiver operating characteristic, ROC)曲线和曲线下面积(area under curve, AUC)来进一步分析筛选出的关键基因是否具有可靠性。基因的诊断价值P<0.05 认为差异具有统计学意义。
图1 显示了本研究的流程示意图。我们将肺癌数据集(GSE19804) 中的60例肺癌患者和60例健康对照样本的基因表达谱进行比较得到了1176 个DEGs。同样方法,我们将食管癌数据集(GSE57130)中24例食管癌患者和12例健康对照标本进行比较鉴定出了1640 个DEGs。最后通过聚类分析发现在两种疾病中同时存在的DEGs有194 个(图4)
图1 数据分析流程图
图2 肺癌的热图 Group 1-对照组; Group 2- 肺癌
图3 食管癌的热图 Group 1-对照组; Group 2- 食管癌
图4 肺癌和食管癌的韦恩图
图5 为两种疾病共同的194 个差异基因的GO和KEGG 通路分析结果。BP 分析结果:泌尿生殖系统的发生发展、白细胞游走、抗生素耐药性、细胞外基质等结构的形成等;CC 分析结果主要包括:内质网、弹力纤维、胶原蛋白、细胞外基质、细胞间连接成分等;MF 分析结果包括:抗氧化活性、过氧化物酶活性、RAGE 受体活动、细胞骨架的结构成分的形成、细胞粘附分子结合等功能;通路分析结果有:IL −17 信号通路、TGF −β 信号通路、以及与细胞粘附分子、白细胞迁移、动脉粥样硬化相关的信号通路。
图5 GO 和KEGG 通路富集分析。(A) BP. (B) CC. (C) MF. (D) KEGG
我们利用PPI 网络将关键基因与普通基因区分 开 来。如 图6 所 示,CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF 与其他蛋白的相互作用更多。它们是蛋白质相互作用网络中最重要的节点。
为了确定上述分析中的前6 个关键基因是否具有诊断价值,我们构建了ROC 曲线,并分别计算了曲线下面积( AUC)。图7 显示肺癌患者与对照组CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF的AUC 分 别为:0.859、0.904、0.876、0.942、0.879 和0.906。图8 显示食管癌患者与正常对照组CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF 的AUC 分别为:1.000、0.933、1.000、1.000、1.000、1.000。这六个关键基因在两种疾病数据集中经过验证后AUC都远大于0.5,提示这些基因诊断价值较高。
图7 肺癌中前6 个关键基因的ROC 曲线分析
图8 食管癌中前6 个关键基因的ROC 曲线分析
肺癌和食管癌都是我国发病率较高的癌症。两种癌症都因为早期症状不明显,导致临床上绝大多数患者首诊时已为晚期,经积极治疗,5年生存率仍然非常低。既往有大量研究表明,肺癌和食管癌术后肺部并发症均多见,且患者术后肺部并发症为患者死亡的主要原因[17,18]。因此,进一步深入了解肺癌和食管癌的分子机制,寻找适用于早期诊断的分子指标以及治疗靶点是目前肺癌和食管癌研究的方向[19]。
在本研究中,我们发现肺癌和食管癌之间共有194 个共同的差异基因,将其中6 个关键基因(CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF)在肺癌和食管癌患者中的诊断价值进行了评估。这些关键基因可能在肺癌和食管癌的发生发展中发挥关键作用。
CDKN3:细胞周期素依赖性激酶抑制剂3(CDKN3)在细胞周期和增殖中起关键作用[20,21]。CDKN3 通过与细胞周期蛋白结合发挥其功能,从而导致CDK1 和CDK2 蛋白去磷酸化并抑制细胞周期进程[22]。CDKN3 的表达及其致癌作用已在各种类型的癌症中得到广泛研究[23]。Zang 等人已经证明,CDKN3 在肺腺癌中高水平表达,并且与较差的生存结果相关[24]。既往有体内和体外实验研究发现,miR-181d-5p 通过Akt 信号通路失活抑制CDKN3 基因而产生对非小细胞肺癌的抑制作用,从而为非小细胞肺癌的治疗提供了新的治疗策略[25]。Zhao Xiao 等人的研究发现与正常组织相比,CDKN3 基因在肺腺癌(ADC)和鳞状细胞癌(SCC)中表达上调[24]。之前的一项研究报道显示CDKN3通过激活AKT 信号通路来调节食道鳞状细胞癌(ESCC)的进展且CDKN3 可以作为ESCC 治疗的潜在有效治疗靶点[26]。
CCNB2:细胞周期蛋白B2 (Cyclin B2, CCNB2)是细胞周期蛋白家族的一员,它调控细胞周期蛋白依赖性激酶(Cyclin dependent kinases, CDKs)的活性,不同的细胞周期蛋白在细胞周期的特定阶段在空间和时间上发挥作用[27]。CCNB2 通常通过激活CDK1 激酶来触发G2/M 进程转化[28]。此外,血清循环中CCNB2 mRNA 的表达水平在癌症患者中增加,并与癌症分期和转移状态相关[29]。既往有研究发现,CCNB2 蛋白的过表达与非小细胞肺癌的临床进展和预后不良相关[30]。此外,Ma Xiao 等人发现CCNB2 是肺腺癌癌变和发展的中枢基因,可作为肺腺癌的潜在生物标志物和靶点[31]。目前CCNB2 与食管癌的研究较少,这将可以作为后续的研究方向。
BUB1:BUB1 是一种保守的丝氨酸/苏氨酸有丝分裂激酶[32]。已发现该酶除了在纺锤体装配检验点(SAC)信号传导中有作用,同时,Bub1 还促进染色体排列,后期促进复合物/环体(APC/C)激活等[33]。既往已有研究表明该基因与肺癌和食管癌都有关联,如:Chen Xiuwen 等人发现小细胞肺癌组织与配对的相邻非癌组织相比BUB1 基因表达上调[34],同时姚伶俐等人发现Bub1 基因及其蛋白、Mad2 蛋白低表达与食管癌发生的关系密切,Bub1低表达在食管癌的发展和转移中具有重要作用[35]。
TOP2A:拓扑异构酶IIα(TOP2A),是一种核蛋白,分子量约为170 kDa,在DNA 合成、RNA 转录和有丝分裂的染色体分离中有重要作用。Grenda Anna 等人认为TOP2A 基因的多态性可能与非小细胞肺癌患者化疗毒性和生存预测因素有关[36]。Du Xiaomei 等人通过实验发现,TOP2A 基因在人肺腺癌细胞中表达上调,并通过生物信息学分析支持该发现。Zhang Shuyao 等人发现,TOP2A 基因在食管癌组织中高度表达[37]。
TYMS:胸苷酸合酶(TYMS)是DNA 合成中的关键酶,其编码的胸苷酸成酶(TS)是嘧啶核苷酸合成的限速酶,是肿瘤生长的重要因子。Feng Wei等人的研究证实,TYMS 中rs3819102 基因多态性可能增加对环境因素的敏感性,并增加患肺癌的风险[38]。也有人发现TYMS 的表达量与肺腺癌患者以铂类为基础的化疗治疗的存活率下降有关[39]。Arakawa Yasuhiro 等人发现TYMS 多态性的存在可以帮助识别食管鳞状细胞癌患者5 - 氟尿嘧啶(DCF)化疗期间出现的严重低钠血症[40]。
CENPF:着丝粒蛋白F(Centromere Protein F, CENPF)是一种分子量为367 kDa 的核定位蛋白.近几年的研究表明,CENPF 可能参与细胞周期的调控。它在有丝分裂前期开始增加,在有丝分裂期定位于动粒,末期开始迅速降解[41]。肺腺癌组织中CENPF mRNA 表达显著升高(P<0.001)同时CENPF 上调与肺腺癌患者的病理分期、无复发生存率(RFS)以及总生存率(OS)显著正相关[42]。Su Peng 等人的实验表明CENPF 基因在食管癌组织中高度表达[43]。
本研究使用GEO 下载了1 个肺癌数据集和1个食管癌数据集。然后将肺癌和食管癌患者的数据集与正常样本进行比较,得到DEGs。最后,对这些差异基因进行聚类分析,得到194 个交集基因。通过GO 和KEGG 富集分析,我们获得了与细胞周期相关的富集结果。通过构建PPI 网络,筛选出了CDKN3、CCNB2、BUB1、TOP2A、TYMS 和CENPF等6 个关键基因。最后通过SPSS 软件验证其诊断价值。我们的发现阐明了肺癌和食管癌的进展,也为这两种疾病的诊断和治疗提供了新的思路。
本研究有一定的局限性。首先,虽然关键基因被证明能够预测肺癌和食管癌两种疾病的进展,但没有进行相关实验来证实这些结果。我们的研究小组正在进行体外和体内的研究来验证这些基因。其次,由于我们只选择了两个数据集,样本量相对较小,结果可能并不适用于所有的人群。需要一个包含更多物种和种群的大样本研究来进行比较。
注:数据可用性:本研究的数据来自公共数据库GEO,没有创建任何新的数据集。目前的研究遵循GEO 数据访问政策和发布指南。