马晨阳 杨勇*
肺癌是常见的恶性肿瘤,其发病率和病死率居恶性肿瘤首位,且在中国上升趋势明显[1]。目前对肺癌的防治主要为控烟和早期诊断筛查,其中肺癌早期诊断筛查处于关键地位。若能早期筛查到肺癌病变,并手术切除,肺癌患者的5年生存率可得到较大提高[2]。近年来随着表观遗传学的发展,5-甲基胞嘧啶(5-methylcytosine,5mC)在肿瘤的早期诊断和防治方面扮演了重要角色,而由其在DNA甲基胞嘧啶双加氧酶1(Ten-eleven translocation methylcytosine dioxygenase 1,TET1)调控肿瘤机制成为新的热点。研究表明,TET1作为一个重要的催化酶参与了DNA的主动去甲基化过程[3],并且与胃癌、结直肠癌、肝癌、肺癌和乳腺癌等多种癌症的发生发展密切相关。由于肺癌早治疗、高生存的优势,寻求可能的判断早期肺癌,检测复发和转移的分子标记具有较高价值。本研究利用TCGA公共数据,探讨TET1在肺腺癌(LUAD)中的表达和预后情况,并预测其参与LUAD发生发展的作用机制。
1.1 研究对象 本研究所采用的数据均来源于肿瘤 基 因 组 图 谱(Cancer Genome Atlas,TCGA)( 美国National Cancer Institute和National Human Genome Research Institute联合启动项目),数据收集了截至2019年1月的LUAD组织样本及临床预后数据(包括mRNA表达数据和临床资料)。通过多种在线TCGA数据分析工具,包括可视化工具 cBioPortal[4]和 GEPIA[5]等,对TET1在LUAD中的表达情况进行分析。排除标准:(1)患有其他肿瘤病史;(2)存在基本资料缺失患者。
1.2 研究方法 本研究首先通过GEPIA分析TCGA的LUAD数据库,比较TET1基因在LUAD和正常组织中的表达差异,并对其临床病理分期和总生存预后进行相关分析,确定TET1基因在LUAD中的医学研究价值。然后通过cBioPortal分析比较TET1在TCGA数据库多个数据集的LUAD基因转录组(RVAseqV2,raw count)的总体表达水平,排除个体与组织取样时间的差异。研究TET1基因拷贝数变异、甲基化水平与其mRNA表达水平的相关性,推测TET1基因在LUAD发生作用的机制。同时检测TET1基因与临床常见LUAD驱动基因EGFR、TP53的相关性,并对TET1、EGFR、TP53三个基因通过cBioPortal的Network功能和STRING[6]进行蛋白相互作用网络分析,确认TET1区别于EGFR、TP53在LUAD中的独特作用,即作为不同于传统LUAD驱动基因的新型基因靶点地位。在获取TET1的共表达基因后,与来源于TCGA和GEO的LUAD数据集所共有的高表达基因(P-value<0.001,|FoldChange|>2.02)进行venn图分析,找出确定的基因组,并将基因组集导入DAVID分析工具[7]进行GO基因集富集分析和通路分析,并使用funrich3.1.3导出效果图。
1.3 统计分析 采用SPSS 20.0统计软件。生存分析使用Kaplan-Meier和Log-rank检验,P<0.05为差异有统计学意义。其它基因表达与CNV的相关性以及共表达蛋白的相关性使用Spearman(相关系数:1代表完全线性正相关,0不相关,-1完全线性负相关)和Pearson检验相关系数(0.8~1.0极强相关,0.6~0.8强相关,0.4~0.6中等程度相关,0.2~0.4弱相关,0.0~0.2极弱相关或无相关),R>0.3且P<0.05认为有统计学相关。富集功能分析采用Fisher检验,P<0.05为功能富集有统计学差异。
2.1 TET1在LUAD及正常肺组织中的表达情况 GEPIA分析TET1在LUAD、肺鳞癌(LUSC)与相邻正常肺组织的表达情况,结果见图1。图1A表明在TCGA数据库中,TET1基因在LUAD组和LUSC组的mRNA表达情况,结果显示TET1在LUAD和LUSC的表达水平均显著高于相邻正常组织(P<0.05)。图1B通过oncomine在线分析工具对TET1在非小细胞肺癌及正常肺组织的表达情况再次分析,以对GEPIA的结果验证,结果显示TET1在LUAD的表达量仍高于正常肺组织。因此,由以上重复验证可推断TET1在LUAD的表达量确实高于正常肺组织(P<0.05)。
图1 TET1基因在不同非小细胞肺癌的表达情况[A:TET1在LUAD、LUSC与正常肺组织表达水平的情况;B:TET1在正常肺(1)、LUAD(2)、大细胞肺癌(3)、LUSC(4)与正常肺组织表达水平的情况]
2.2 TET1表达水平对LUAD患者预后的影响 GEPIA分析在LUAD中TET1高低表达水平对患者的病理分期及其生存预后的情况,结果见图2。图2A表明随着LUAD临床病理的不断恶化,TET1的表达水平呈现上升趋势,而LUADⅠ期的TET1表达水平虽然最大值与后期表达水平相当,但其中位数仍低于后期表达水平,这可能是由于样本个体数据所造成的偏倚。可见在不同的病理总分期之间的TET1表达水平具有统计学差异(P=0.04),且随病理分期的增加TET1基因的表达水平逐渐上升。图2B表明LUAD患者的总生存期与TET1基因表达水平的相关性,与TET1基因高表达(n=239)相比,TET1基因低表达(n=226)的LUAD患者总生存率[P=0.045;HR=1.4,P(HR)=0.046]明显降低,可见TET1高表达患者的生存时间较短,预后较差。
图2 TET1基因在LUAD病理分期的情况及生存预后(A:TET1在不同LUAD病理分期的表达情况;B:TET1表达水平与LUAD患者生存时间的相关性)
2.3 纳入分析的人群基本特征 cBioPortal分析选 择TCGA数 据 集Lung Adenocarcinoma(TCGA,Provisional),共纳入的586例LUAD样本。其中男242例(41.4%),女280例(47.9%);除去年龄未知的数据,平均年龄(65.619±9.914)岁;LUAD病理分期Ⅰ期(包括Ⅰ、ⅠA、ⅠB)有279例(47.8%),Ⅱ期(包括Ⅱ、ⅡA、ⅡB)有124例(21.3%),Ⅲ期(包括ⅢA、ⅢB)有85例(14.6%),Ⅳ期有26例(4.5%),此外分期未知70例(12.0%);除去未知数据外,平均肿瘤直径(1.18±0.515)cm。
2.4 TET1基因的拷贝数变异、甲基化水平与其mRNA表达水平的相关性 cBioPortal在线分析工具可对TCGA数据库LUAD(TCGA,Provisional)数据集中TET1基因拷贝数变异、甲基化水平与其mRNA表达水平的相关性情况进行分析。拷贝数变异(Copy number variation,CNV)指>1kb DNA大片段的缺失(Deletion)、增加(Duplication)或倒置(Inversion),作为一种基因组多样性形式,在癌症发展过程中起着重要作用。TET1基因的拷贝数变异(CNV)主要集中于 Diploid、Gain和 Shallow Deletion,其中 Diploid为二倍体,即没有拷贝数变异,Shallow Deletion是拷贝数的轻度丢失,Gain是轻度拷贝数扩增。随着DNA甲基化水平的不断上升,TET1基因的表达量逐渐下降,两者呈负相关,相关性较弱(Spearman:r=-0.33,Pearson:r=-0.13,P<0.001)。总之,TET1 mRNA Sqe分析表明TET1基因在LUAD中杂合缺失、低水平基因扩增的频率较高,而其与DNA甲基化相关性较小。
2.5 TET1基因与临床常见LUAD驱动基因的相关性 目前临床常用的检测LUAD驱动基因主要为EGFR、TP53,其与患者的治疗、预后密切相关。作为近年热门的免疫治疗,EGFR、TP53基因突变是治疗的优势靶点。本研究将结合EGFR、TP53基因,通过cBioPortal在线分析工具分析在TCGA数据库LUAD(TCGA,Provisional)数据集中TET1基因与两者的相关性。结果显示,EGFR与TP53基因共表达趋势显著(P<0.001,q<0.001),TET1与 TP53基因的存在共表达趋势(P=0.012),存在显著的共表达趋势,而其与EGFR基因则无显著相关性(P=0.061)。通过GEPIA对TET1与EGFR、TP53两者在LUAD的相关性再次进行验证,结果显示,在整合所有TCGALUAD数据后,发现TET1与EGFR呈弱相关性(R=0.3,P=3.4e-11),而TET1与TP53两者呈极弱相关性(R=0.11,P=0.017)。这与cBioPortal单数据集分析结果较一致,综合两者分析,可以认为TET1与EGFR、TP53基因的相关性较弱,可能是不同于传统EGFR、TP53基因的新型LUAD靶点基因。
2.6 蛋白相互作用网络分析(PPI) 通过cBioPortal的Network功能和STRING对TET1、EGFR、TP53三个基因进行蛋白相互作用网络分析,确认TET1区别于EGFR、TP53在LUAD中的独特位置。通过cBioPortal的Network功能,共筛选出TET1、EGFR、TP53基因的共表达基因如下:ACTB、ACTG1、AGO2、AKT1、AKT2、AKT3、BAZ1B、CCNK、CDH10、CDH12、CDH18、CDH6、CDH9、CDKN2A、COP1、DDR2、DROSHA、DVL3、DYRK1A、EGFR、FCGR1A、FCGR3A、FOXA1、GAB2、GDNF、GRB2、HGS、MAPK14、MAPKAPK、MCL1、MDM4、MET、NDRG1、NF1、PDP1、PIK3CA、PIP4K2B、PITPNA、PRKAB2、PRKD1、PRKDC、PTK2、S100A2、SHC1、SKP2、SPTA1、STK11、STK17A、TERT、TET1、TP53、TP53INP1、TRIO。将基因纳入Network网络后,EGFR和TP53在PPI网络中处于中心地位,与绝大多数的共表达基因节点相连接,而TET1由于联系较弱,并未出现在Network网络中。通过STRING对以上共表达基因进行再次验证后,发现TET1基因处于PPI网络的边缘位置,与EGFR、TP53基因无直接连接节点,间接连接节点仅AKT1。综合相关性分析和PPI网络分析,说明TET1确实与传统LUAD驱动基因EGFR、TP53无明显相关,可能是作为一种独立的驱动基因对LUAD的发生发展起作用的。
2.7 TET1的共表达基因 通过cBioPortal分析方法对TET1在LUAD的共表达基因进行筛选,结果的P值从小到大进行排序,选取P值最小的前100个共表达基因。同时通过Cancer RNA-Seq Nexus[8]下载TCGA和GEO的LUAD基因数据集组,对高表达基因进行筛选去重处理(P-value<0.001,|FoldChange|>2.02),得到三组基因集,分别为早期LUAD与正常肺组织对照所得的高表达基因,中晚期LUAD与正常肺组织对照所得的高表达基因以及GEO数据库(GES40419)中LUAD与正常肺组织对照所得的高表达基因,通过Venn图进行分析后确定共表达的基因组。将共表达基因组与cBioPortal分析方法所得的TET1共表达基因组再次进行Venn图分析,确定TET1在LUAD有13个共表达基因,分别为TET1、DNMT3A、MEX3A、PAPOLA、SMC6、XPO5、ATAD2B、ZNF146、ZNF260、HMOX2、CCAR1、TRADD、TMEM219。
2.8 TET1基因的PPI网络分析 在获取TET1的共表达基因后,通过cBioPortal的Network功能将共表达基因导入,进行PPI网络分析。结果显示:基因 MRPL54、TRADD、CTSD、CD74、MAPKAPK3、PRPF4B、RPS6KA1、GNA1S、CLTB、PSMB10、SOS1、SPSF6、TREM2、LGALS3、OAZ1处 于 调控网络的中心地位,有多个Node相连接。其中,RPS6KA1、MAPKAPK3、CTSD、CD74、LGALS3 为现有药物的靶点。
2.9 TET1基因集富集分析及通路预测 通过对TET1基因相关共表达基因分析发现,TET1基因与一些基因表达水平存在明显的关联,对包括TET1相关表达GO功能富集分析(见表1),发现这些共表达基因的细胞组分主要集中在细胞核和细胞质,生物学功能主要集中于调控碱基、核苷功能,分子功能富集主要在DNA连接和转录活动的调控。因此,TET1相关共表达基因主要通过遗传转录调控方面调节肿瘤的发生发展。表1表明三条通路 HSA-212165、HSA-74160、HSA-5334118与TET1基因具有相关性。提示对TET1基因在LUAD的机制分析可从这三条通路考虑,且此三条通路的功能与go注释分析结果,遗传转录调控调节肿瘤相一致。
表1 TET1的通路分析
LUAD作为恶性程度较高的呼吸道肿瘤,若早期未发现,常会错过最佳治疗时期,放疗、化疗等综合治疗对患者生存时间的改善甚微,其治疗的首选方案为手术,但长期的临床实践表明,对于LUAD单纯手术的治疗效果有限[2]。因此,早期发现并诊断LUAD成为目前迫在眉睫的问题。通过对LUAD基因的调查,发现了以前的基因研究尚不完善。在过去的几十年里,有一些分子标志物被研究出来,作为LUAD早期诊断的基因标志物。
DNA甲基化是肿瘤发生发展过程中的重要角色,其通过沉默抑癌基因表达而影响肿瘤进程,而DNA去甲基化则可使抑癌基因再表达。TET1基因作为DNA去甲基化酶在许多肿瘤的发生、发展中有着不同的改变,其对于肿瘤的密切关系与日俱增。LUAD患者存在TET1基因突变频率增加的情况,并且LUAD中TET1大多数的变异是基因缺失,TET1基因主要是通过肿瘤细胞周期抑制剂调控肿瘤进展。在胃癌、结直肠癌、肝癌、肺癌和乳腺癌等多种癌症中发现肿瘤组织中TET1表达水平的降低常伴随5hmC水平降低[9],表明5hmC也可能在TET1蛋白的作用下通过去甲基化作用抑制抑癌基因的表达。在实验动物肿瘤种植模型上,有研究者观察到小鼠TET1基因的敲除会强化肿瘤细胞的侵袭能力、生长速度及转移能力[10],并发现5hmC水平的相应变化。这可能是由于TET1表达降低导致抑癌基因沉默,最终使正常细胞恶变并促其增殖。但TET1基因还存在一些不足,其在非实体肿瘤的检测中也有升高,如在白血病中等等。所以,通过认识、了解TET1基因的改变特点,有可能为LUAD的早期诊断及治疗提供新的思路和方法。
本研究结果表明,在LUAD中TET1基因表达上升是一种预后较差的因素。利用 TCGA数据库分析发现TET1基因在LUAD中特异性高表达,且TET1高表达的LUAD患者总生存预后较差。对TET1基因的CNV、甲基化水平与其mRNA的表达水平的相关性研究,发现TET1基因在LUAD中杂合缺失、低水平基因扩增的频率较高,而其与DNA甲基化相关性较小。临床常检测驱动基因TP53、EGFR在LUAD中的表达,相关性分析发现TET1基因与两者无显著相关,而PPI网络分析也验证了这一结果,可见TET1基因可能作为一种独立的LUAD驱动基因对LUAD的发生、发展起到作用。
再次对TET1基因功能的研究通过共表达基因的方式进行,对TET1共表达基因的PPI网络分析发现DNMT3A、DNMT3L、CCAR1与TET1基因存在明显的上下游关系。结合TET1及其共表达基因的KEGG-GO功能富集分析,发现这些共表达基因的功能主要集中于一些遗传转录调控方面的信号通路,可确认TET1在LUAD产生作用主要是通过遗传转录调控方面调节肿瘤的发生发展。
综上所述,本研究依托TCGA数据库,对LUAD患者进行大样本数据分析和临床资料对比分析,探讨TET1基因表达水平对患者预后的影响,可确定TET1基因可作为不同于传统EGFR、TP53的LUAD驱动基因,对LUAD的发生发展起到促进作用。对TET1在LUAD的后续机制和相关共表达基因的研究,有利于临床新型的LUAD预后评估分子标志物和治疗作用靶点的发现和应用。