叶乃郗,何杰,李小燕,余觅,张维,孙建
(成都医学院,四川 成都 610500 1 临床医学院; 2 第一附属医院呼吸与危重症医学科)
肺癌是一种高发病率和高病死率的恶性肿瘤,随着环境污染和职业暴露的加剧、吸烟人群的增多、人口老龄化的进展,肺癌病人的数量呈逐年上升的趋势。中国每年预计新增肺癌病例约70万,新增肺癌死亡病例约40万,其中非小细胞肺癌约占肺癌总数的70%以上,且非小细胞肺癌中主要为肺腺癌,而肺腺癌病人5年生存率不到15%[1-2]。究其原因可能是肺腺癌起病比较隐匿,早期无特殊症状,部分病人确诊时已经发展至中期以后,失去了手术的机会。因此,早期确诊和分子水平的研究有利于肿瘤的综合治疗和延长病人的生存期。
随着生物信息技术的发展和分子生物学设备的更新,肺癌在分子水平的发生发展机制得到深入研究。目前研究发现,肺癌的发生发展及预后与多种基因的差异表达相关[3-4]。其中DNA聚合酶εB亚基(POLE2)基因以其独特的超强分子突变表型,与多种肿瘤都有着密切的关系[5]。LI等[6]研究结果表明,POLE2在肺腺癌的发病机制中起着非常重要的调控作用,下调该基因的表达后,A549细胞增殖受到明显抑制。因此,研究POLE2基因在肺腺癌中的表达情况,可能为临床治疗方案的选择及预后评估提供可靠依据。但目前POLE2在肺腺癌和正常肺组织中的表达情况及其对预后的影响鲜有报道,且该基因在肿瘤中的生物学功能争议较大,现仍没有研究运用多个肿瘤数据库对POLE2在肺腺癌中的作用进行综合评价。故本研究利用多个肿瘤相关数据库综合分析POLE2在肺腺癌组织中的表达水平及其对病人生存预后的影响,分析肺腺癌组织中的POLE2表达相关基因并预测其潜在的生物学功能,为研究POLE2基因在肺腺癌发生发展过程和生存预后中的作用提供一定的生物学依据。
在GEPIA(Gene Expression Profiling interactive analysis)数据库(http://gepia.cancer-pku.cn/detail.php)平台上选择“Single Gene Analysis”,在“Enter gene name”中输入“POLE2”,在“Datasets Selection”中输入“LUAD”,分析POLE2在不同肿瘤中的表达情况。利用Oncomine数据库(http://www.oncomine.org)分析在不同肺腺癌数据集中POLE2的表达情况,其筛选条件如下:①Cancer Type为lung adenocarcinoma;②Gene为POLE2;③Data Type为mRNA;④Analysis Type为Cancer vs. Normal Analysis;⑤Oncomine 数据库检索结果的统计学纳入条件为P<0.05,fold change>2,gene rank=top 10%。统一采用箱线图对研究结果进行描述。
Kaplan-Meier Plotter(https://kmplot.com/analysis)是一款操作简单的在线分析基因表达量与生存数据间关系的工具。利用Kaplan-Meier Plotter,以POLE2表达量前25%的病人为高表达组,后25%的病人为低表达组,分析两组病人的总生存时间并绘制生存曲线。
利用cBioPortal数据库(http://www.cbioportal.org/)以及LinkedOmics数据库(http://www.linkedomics.org/login.php),共同分析TCGA(The Cancer Genome Atlas)子数据集LUAD(lung adenocarcinoma),以Pearson相关系数绝对值>0.6为筛选条件,获取POLE2表达相关基因。用在线分析工具(http://www.bioinformatics.psb.ugent.be/webtools/Venn)做韦恩图,并获取两者的交集。下载的TCGA数据的研究主要对象为LUAD,其中具有RNA-seq测序数据的肺腺癌样本517例。
先利用Enrichr数据库(https://amp.pharm.mssm.edu/Enrichr/)对POLE2表达相关基因进行GO分析和KEGG 信号通路分析,筛选条件为P<0.05。然后,利用STRING数据库(http://string-db.org/)分析相关蛋白间的相互作用,在“Multiple proteins”窗口中输入包括POLE2在内的一系列与POLE2表达相关的基因,物种选择“Human”,代表蛋白间相互作用强度的置信度选择“medium confidence(0.400)”。
所用TIMER(Tumor Immune Estimation Resource)数据库(https://cistrome.shinyapps.io/timer/)是由哈佛大学免疫信息学院建立的一个网站工具,它利用RNA-Seq表达谱数据检测肿瘤组织中6种免疫细胞的浸润情况。分析设定条件如下:①Cancer为Lung Adenocarcinoma;②Gene为POLE2;③ Correlation为Pearson。
使用SPSS 20.0软件对数据进行统计分析。采用独立样本t检验验证肺腺癌和癌旁正常肺组织POLE2mRNA的表达差异;用Pearson相关系数分析与POLE2相关的主要基因和浸润免疫细胞;采用Kaplan-Meier生存分析计算病人的生存率,并使用广义log-rank检验估计生存预后的差异。
GEPIA数据库分析结果显示,POLE2基因在宫颈腺癌、睾丸癌等癌组织中的表达升高,而在急性髓细胞样白血病中则呈现出低表达趋势(图1A)。POLE2基因在LUAD中的表达水平明显高于正常肺组织(|log2FC|=0.5,P<0.01)(图1B)。Oncomine数据库在线搜索共得到与POLE2表达相关的不同类型研究414项,其中47项研究结果显示POLE2表达水平差异有统计学意义,45项研究显示表达增高,2项研究显示表达降低(图2A)。在Oncomine数据库中进行筛选,从建库至今,总共得到5项关于正常肺组织和肺腺癌组织POLE2表达比较的实验研究,包含172例样本,这5项研究还包含了大细胞肺癌、鳞癌与正常肺组织POLE2表达的比较[7-9]。5项研究结果显示,POLE2在肺腺癌、肺鳞癌及大细胞肺癌中的表达量均显著高于正常肺组织(t=17.53~35.88,P<0.01),其中肺腺癌POLE2表达量增高尤为突出(图2B、C)。
A:POLE2在各种肿瘤组织和癌旁正常组织中的表达情况;B:POLE2在肺腺癌和正常肺组织中的表达差异,*P<0.01。
以POLE2表达量前25%的病人为高表达组(n=123),后25%的病人为低表达组(n=123),进行Kaplan-Meier Plotter分析,结果显示,相对于高表达组,低表达组肺腺癌病人总体生存时间更长(χ2=9.134,P<0.01)。见图3。
A:Oncomine数据库中POLE2表达分布情况;B:POLE2在5项研究中的表达比较;C:POLE2在肺腺癌、肺鳞癌及大细胞肺癌中的差异表达。
图3 POLE2表达水平与肺腺癌病人预后关系的生存曲线
利用cBioPortal数据库和LinkedOmics数据库分析TCGA中肺腺癌的数据,共获取37个与POLE2表达相关的基因(图4)。利用Enrichr数据库进行GO分析,发现POLE2表达相关基因主要功能富集在DNA聚合酶的激活、DNA的复制和DNA的修复等生物学过程(图5A)。KEGG 通路分析显示,POLE2表达相关基因主要参与了碱基切除修复、DNA复制、核苷酸切除修复等信号通路过程(图5B)。利用STRING数据库进行蛋白相互作用(PPI)网络分析显示,节点数为11,POLE2在细胞增殖等相关信号转导通路中处于核心位置。根据MMC算法筛选潜在的相关基因,发现PRIM2、POLA1、POLA2、CDC45等基因与POLE2表达密切相关。见图6。
图4 POLE2表达相关基因筛选韦恩图
A:POLE2表达相关基因GO分析;B:POLE2表达相关基因KEGG通路分析。
图6 POLE2表达相关基因PPI网络分析及关键基因预测
利用肿瘤免疫微环境TIMER数据库分析显示,POLE2基因在肺腺癌免疫微环境中与B细胞、CD4+T细胞、CD8+T细胞、巨噬细胞、中性粒细胞、树突状细胞均无明显相关性(partial.cor<0.3),提示POLE2基因可能与肿瘤免疫细胞浸润无关。见图7。
图7 POLE2表达与肺腺癌6种免疫细胞浸润的关系
非小细胞肺癌是肺癌中最常见的一种类型,包括肺鳞癌、肺腺癌、大细胞肺癌等,其中肺腺癌占绝大多数,其发病与环境因素、职业暴露、遗传因素等诸多因素相关[10]。大部分肺腺癌病人确诊时,可能已存在广泛侵袭和淋巴结转移,目前对于中晚期肺腺癌暂无切实有效的治疗措施[11]。传统治疗方法有放疗、化疗、手术切除治疗等,但这些方法并没有使病人的预后得到明显的改善[12]。随着分子生物学技术的革新,基因靶向药物和免疫治疗成为了目前治疗非小细胞肺癌的重要手段,并有效延长了病人的生存期,提高了病人的生活质量[13]。在肺癌分子水平的研究过程中,学者们发现肺腺癌是一种在分子水平上呈现出高度异质性的慢性疾病,其发生发展是一个复杂的过程,涉及基因的异常表达、肿瘤微环境变化、肿瘤免疫细胞浸润、基因突变等,不同亚型肺腺癌的分子遗传学和细胞内信号通路可能完全不同,从而导致肺腺癌的治疗反应和临床预后也不尽相同[14]。因此,深入研究肺腺癌的发生机制及预后相关的关键基因,对该病的临床诊断、治疗方案选择、预后判断具有重要价值。
POLE2基因是一种原癌基因,定位位于染色体14q22-q21上,分子量为59 000[15]。其主要功能是与人类DNA聚合酶ε其他两个亚基(POLE3和POLE4)共同参与调控DNA的复制,催化DNA新链的合成,延长DNA新链的活性,进一步催化核酸外切酶区的校正活性等[16]。但该基因在肿瘤中的生物学功能目前仍不明确。李娜苗等[17]研究发现,POLE2基因与肺癌A549细胞的增殖密切相关,下调肺癌A549细胞POLE2基因的表达,可以显著抑制肺癌细胞的增殖。因此推测POLE2可能在肺腺癌中发挥着重要作用。
虽然POLE2基因在食管癌、直肠癌、乳癌以及肺癌组织中均有表达[18-19],但由于不同的研究实验条件不同,且单个研究样本量相对较小,结论还有待于进一步验证。本研究利用生物信息学技术,通过GEPIA、Oncomine等多个公共数据库中肺腺癌病人的基因表达谱和临床信息来阐明POLE2在肺腺癌中的预后价值和潜在机制。利用GEPIA数据库研究显示,POLE2在包括肺腺癌在内的多种肿瘤中高表达。Oncomine作为目前全世界最大的基因芯片数据库研究平台,给广大医学研究者提供了不同肿瘤的基因芯片信息,综合这些信息进行分析,可以有效减少因样本量较小导致的抽样误差,增加结论的可靠性。本研究在Oncomine数据库中检索出POLE2基因表达有关研究414项,其中47项研究结果差异有统计学意义,45项研究显示表达增高,2项研究显示表达降低,总共包含172例研究样本。符合筛选条件的研究有5项,对其进行荟萃分析,显示POLE2基因差异表达中位数值排名为500.0,在肺腺癌中呈现高表达。Oncomine和GEPIA两个数据库相互验证结果表明,POLE2在肺腺癌中确实为高表达,该结果与李娜苗等[17]的体外实验结果基本一致。分析其原因可能为,POLE2突变使得基因原本具有的校正功能缺失,大量堆积的偶然突变,抑制了Sp1元件的活性,使启动子活性不能得到完全激活,导致肺癌细胞生长缓慢甚至死亡[20]。因此,POLE2基因对于肺腺癌病人生存预后的判断有着重要意义。本研究Kaplan-Meier Plotter数据检索结果也验证了POLE2表达水平的高低与肺腺癌病人的总生存期相关,肿瘤组织POLE2基因表达水平高的病人总生存期比低表达组病人更短。HARTMANN等[21]的研究结果表明,在淋巴细胞肿瘤病人中,POLE2作为易感基因,其表达水平用于预测淋巴瘤病人的生存期也有重要价值。WU等[22]研究同样得出相似的结论,即POLE2的高表达预示着肺鳞癌病人预后更差。导致这一现象的原因可能是,POLE2作为DNA复制、修复、重组和细胞周期控制的核心组分,主要涉及两条有意义的通路,即碱基切除修复通路和核苷酸切除修复通路,通过调节这两条通路中的上下游分子影响DNA复制、细胞的凋亡和增殖[23],从而影响病人的预后;其次,POLE2在肺腺癌中是一个癌基因,其致癌机制与POLE2高突变负荷和免疫检查点相关基因的高表达有关[24]。本研究进一步通过TIMER数据库分析POLE2与免疫细胞的关系,结果显示POLE2在肺腺癌免疫微环境中与B细胞、CD4+T细胞、CD8+T细胞、巨噬细胞、中性粒细胞及树突状细胞均无明显相关性。提示POLE2基因可能与肿瘤免疫细胞浸润无关。推测其原因可能为POLE2的功能更多的是直接参与调控细胞的周期和增殖,而不是通过免疫细胞起作用。
因为本研究筛选的基因芯片数据量大,样本量较多,且方法异质性较低,故本研究结果真实可靠。但由于样本来源不同,可能会对最终结果造成一定的误差;同时,本研究结论缺乏独立的体内外实验验证,故需要后续实验加以确认。
综上所述,本研究通过深入挖掘以Oncomine为主的多个数据库中POLE2基因芯片信息,证明POLE2基因在肺腺癌组织中呈现高表达,且该基因高表达的肺腺癌病人总生存期更短。本研究结果可能为肺癌药物的研发和肺癌病人的预后评估提供一定的生物学依据。