席奕轶 施新泽 林 霖 郭文佳 刘天媛 王雨芊 林东昕 吴 晨
食管癌(esophageal cancer, EC)是原发于食管黏膜上皮的恶性肿瘤,其发生率位居恶性肿瘤第6位,在全球肿瘤相关死亡中位居第8位[1]。食管癌的组织类型主要包括鳞癌和腺癌两种,其中食管鳞状细胞癌(esophageal squamous cell carcinoma, ESCC)占全球食管癌病例的80%,尤其是中国,占比高达90%~95%,提示食管鳞癌相关研究的重要性[2~4]。
癌症的发生、发展往往涉及基因变异、基因表达异常、表观调控异常等多个层次的复杂调控机制。近年来,大规模测序研究已经在人类癌症中发现多个肿瘤驱动基因。一项整合TCGA基因突变、甲基化谱和表达谱数据的泛癌分析研究揭示了肿瘤驱动基因在表观基因组中重要的调控作用[5]。研究者通过整合704例食管鳞癌全基因组或外显子组测序数据,鉴定了TP53、NOTCH1、MLL2、FAT1、NFE2L2、PIK3CA和EP300等20个驱动基因,其中93%(657/704)的患者存在至少一个驱动基因的体细胞突变[6~14]。然而尚未有研究系统探究驱动基因的体细胞突变、拷贝数改变、基因表达和甲基化等多组学数据,以及20个驱动基因中各个分子层面数据间的调控关系。本研究整合了食管鳞癌驱动基因的拷贝数变异信息、DNA甲基化和基因表达数据,分别进行突变与基因表达、拷贝数与基因表达和甲基化与基因表达的关联分析,并结合患者的临床资料进行生存分析,系统阐述了20个驱动基因在不同层面组学数据间的交互作用与潜在调控关系,为进一步阐明驱动基因在食管鳞癌发生、发展中的作用机制提供了思路。
1.研究对象:本研究所使用的91例食管鳞状细胞癌患者的组织样本均来自2010年~2014年在中国医学科学院肿瘤医院及浙江省肿瘤医院接受手术治疗的患者。所有患者未经过放射治疗或化学药物治疗,以组织病理学诊断为最终判断依据。患者的全部临床信息及生存时间来自病历记录及定期随访。所有患者均签署了知情同意书。本研究通过了中国医学科学院肿瘤医院及浙江省肿瘤医院伦理学审查委员会的批准。
2.数据来源:患者体细胞突变、拷贝数改变及基因表达数据来自本组前期研究[14]。DNA甲基化数据通过Illumina 450K甲基化芯片检测获取。另外,利用TCGA 数据库(https://tcga-data.nci.nih.gov/docs/publications/tcga/)下载了95例食管鳞癌患者的体细胞突变、拷贝数改变、Illumina 450K甲基化芯片和转录组数据及相关临床资料。Illumina 450K芯片的探针注释文件来自ENCODE (http://genome.ucsc.edu/ENCODE/downloads. html)。
3. 数据分析:体细胞突变与驱动基因表达水平的比较分析,根据某个驱动基因在人群中是否存在突变,将患者分为突变组和非突变组,并分析20个驱动基因的表达水平在两组间的差异。表达差异倍数(fold change, FC)定义为突变组的表达水平比非突变组的表达水平。拷贝数改变与驱动基因表达水平的关联分析,通过Spearman秩相关分析鉴别驱动基因拷贝数改变与基因表达水平之间的关联,当Spearman相关系数 |r|>0.3 时认为存在相关。DNA甲基化与驱动基因表达水平的关联分析,通过Spearman秩相关分析,鉴别基因上甲基化位点的甲基化水平与基因表达之间的关联。若甲基化位点位于启动子区域,且Spearman相关系数r<-0.3时认为存在相关;若甲基化位点位于基因体区域,且Spearman相关系数r>0.3时认为存在相关。
4.统计学方法:应用R软件(3.5.1版)对数据进行统计分析。体细胞突变与驱动基因表达水平的关联分析采用非配对t检验。拷贝数改变、DNA甲基化与驱动基因表达水平的关联分析采用Spearman秩相关。采用KaplanMeier法绘制生存曲线,通过Log-Rank检验进行生存曲线的比较,以P<0.05为差异有统计学意义。
1.体细胞突变与驱动基因表达水平的关联分析:根据各个驱动基因突变与否将患者分为突变组与非突变组,并对两组患者基因表达水平进行比较。结果显示,CDKN2A突变组患者表达水平显著高于非突变组(FC=7.73,P=0.002),而RB1突变组患者表达水平则显著低于非突变组(FC=0.46,P=0.002)。另外,TCGA数据分析结果显示,TP53(FC=1.70,P=0.018)和ZNF750(FC=2.31,P=0.026)突变组患者表达水平均显著高于非突变组。最后,将两部分数据合并后进行分析,TP53(FC=1.43,P=0.011, 图1A)、RB1(FC=0.44,P=0.045, 图1B)和ZNF750(FC=2.20,P=0.012, 图1C)的表达差异有统计学意义,同时还发现PTCH1(FC=2.62,P=0.011, 图1D)突变组表达显著高于非突变组。
图1 驱动基因突变组与非突变组中基因表达水平*P<0.05
2.拷贝数改变与驱动基因表达水平的关联分析:对20个驱动基因的拷贝数和表达水平进行关联分析,以鉴别拷贝数变异与驱动基因转录水平的相关程度。10个驱动基因的表达水平与其拷贝数改变呈显著正相关(r>0.3,P<0.05),其中PTEN、CUL3、PIK3CA和FAT1的相关系数明显高于其他基因(r>0.5)。在TCGA数据中进行关联分析,结果显示大部分驱动基因(n=14,表1)的表达水平与其拷贝数呈正相关(r>0.3,P<0.05),其中5个驱动基因(CDKN2A、PIK3CA、FBXW7、CUL3、RBPJ)的相关系数明显高于其他基因(r>0.5)。8个驱动基因的表达水平在两部分数据中均与拷贝数改变呈显著正相关。
表1 拷贝数改变与表达水平呈显著正相关的驱动基因
3.DNA甲基化与驱动基因表达水平的关联分析:共发现11个驱动基因表达与其启动子区甲基化呈负相关(r<-0.3,P<0.05),6个驱动基因表达与基因体甲基化呈正相关(r>0.3,P<0.05,表1)。CDKN2A、FBXW7、CUL3、FAT1和PTCH1的表达同时受到启动子和基因体甲基化的协同调节。另外,与本研究结果不同,TCGA数据分析结果显示KDM6A、NOTCH3和RBPJ的基因表达受到启动子和基因体甲基化的共同调控(表1)。这些结果揭示了启动子和基因体甲基化在食管鳞癌驱动基因转录调控网络中可能存在协同作用。
4.驱动基因相关生存分析:两组患者Kaplan-Meier生存曲线比较,CREBBP突变组患者的生存时间显著短于非突变组患者(P=0.029),中位生存时间分别为11和19个月。TCGA数据中驱动基因生存分析的结果显示,CREBBP突变组患者的生存时间同样较短(中位生存时间为9和29个月,P=0.000),并且FAT1突变组患者生存情况明显较差(中位生存时间为12和29个月,P=0.005)。为了进一步验证上述结果,笔者将两部分数据合并进行生存分析,结果同样发现CREBBP(中位生存时间为10和25个月,P=0.000,图2)和FAT1(中位生存时间为14和26个月,P=0.002,图3)突变组患者的生存情况较差。
图2 CREBBP突变组与非突变组患者生存曲线比较
图3 FAT1突变组与非突变组患者生存曲线比较
本研究利用本组和TCGA的多组学数据,将食管鳞癌驱动基因的体细胞突变、拷贝数改变、基因表达和DNA甲基化等多个分子层面的数据整合起来进行关联分析。通过体细胞突变与驱动基因表达的关联分析,结果显示TP53、RB1、ZNF750和PTCH1的表达水平在两组间比较差异有统计学意义。为了探究食管鳞癌发生、发展过程中的异常甲基化改变对驱动基因转录调控的影响,笔者对单个位点甲基化与对应驱动基因表达水平进行关联分析。考虑到不同区域DNA甲基化调控基因表达的差异,笔者分别针对启动子区域和基因体区域的关联进行筛选[15-17]。ZNF750是一种谱系特异的转录因子,与其他转录因子共同参与鳞状细胞分化的调控[18, 19]。这一结果提示驱动基因突变不仅可以通过影响编码蛋白的功能参与异常信号网路的调控,而且可能通过调节其转录参与食管鳞癌的发生、发展。
通过拷贝数改变与基因表达的关联分析中8个驱动基因的表达水平均与其拷贝数改变呈显著正相关,并在两组数据中比较差异均有统计学意义,其中CUL3和RBPJ的敲降可以显著增加食管鳞癌细胞的增殖和迁移等[14]。FAT1和MLL2的拷贝数仅在本研究数据中与表达呈正相关,而NFE2L2等6个驱动基因表达水平仅在TCGA数据中与其拷贝数呈显著正相关。NFE2L2是抗氧化信号通路的重要成员,其编码蛋白NRF2可以激活多个控制氧化应激基因的转录,该基因的突变还与食管鳞癌患者的不良预后和化疗抵抗相关[20, 21]。
此外,本研究通过DNA甲基化与基因表达水平的关联分析,探究了甲基化在驱动基因转录调控中的贡献。已有的食管鳞癌甲基化报道仅关注启动子区甲基化与基因表达间的调控关系[22, 23]。笔者同时考虑了启动子和基因体甲基化对基因表达的调控作用,在本研究数据中发现CDKN2A、FBXW7、CUL3、FAT1和PTCH1的表达与启动子和基因体的甲基化均显著相关,而TCGA数据中仅发现KDM6A、NOTCH3和RBPJ。这表明食管鳞癌驱动基因表达可能受到启动子甲基化、基因体甲基化或二者的共同调控。
最后,本研究结果显示CREBBP和FAT1突变均与患者的预后相关,可能作为食管鳞癌潜在的预后标志物。CREBBP是KAT3家族主要的赖氨酸乙酰转移酶,可以作为许多信号通路的转录共激活因子[24, 25]。FAT1在多个发育过程中十分重要,其异常失活会导致多种肿瘤中Wnt信号通路的异常激活[26]。
综上所述,本研究通过20个驱动基因多组学数据的整合分析,阐明了食管鳞癌驱动基因多个分子层面的异常改变以及它们间的交互作用。通过生存分析,本研究还鉴别了两个潜在的食管鳞癌预后标志物,为临床患者的预后判断和分层治疗提供了帮助。