朱明雪,闫清,王鹏,王晔,牟晓峰
(青岛大学,山东 青岛 266071 1 医学部; 2 附属青岛市中心医院检验科)
肺癌是全球范围内发病率和死亡率最高的恶性肿瘤之一。由于缺乏有效的早期筛查和诊断方法,肺癌总体预后很差[1-2]。吸烟、职业性接触致癌物是肺癌发生的常见原因[3]。遗传易感性也是肺癌发生重要原因之一,其中主要的方式就是表皮生长因子受体(EGFR)的突变[4-6]。表皮生长因子受体酪氨酸激酶抑制剂(EGFR-TKI)的兴起使EGFR突变阳性的肺腺癌病人的病情得到缓解,但仍有20%~30%的病人出现EGFR-TKI耐药[7]。研究发现,免疫细胞浸润和铁死亡在癌症发生发展过程中起重要作用[8-9]。但其与EGFR突变肺腺癌的关系仍未阐明。本研究旨在通过生物信息学分析探讨EGFR突变与肺腺癌预后、免疫细胞浸润和铁死亡的关系,以期为EGFR突变型肺腺癌的治疗提供思路。
从癌症基因组图谱(TCGA)数据库下载肺腺癌RNA测序数据、基因表达矩阵及临床信息。共获得肺腺癌样本513例、癌旁正常组织样本59例。将肺腺癌样本分为EGFR突变组与野生组,比较两组样本的临床特征差异。
基因突变景观分析用于了解EGFR在肺腺癌基因组层面的突变情况。对肺腺癌EGFR突变数据、转录组数据和临床数据进行分析,并利用R软件包maftools可视化肺腺癌病人的体细胞突变,包括突变物理位置、突变类型的全景瀑布图及突变亚组的进一步分析。
使用R软件包中的limma包分析肺腺癌RNA测序数据中基因的差异表达。以|log2FC|>1、P<0.05为筛选条件,筛选EGFR突变型、野生型肺腺癌和癌旁正常组织样本中两两比较的差异表达基因(DEGs)。然后利用Venn图获取3组DEGs的重叠基因。
基于DEGs的重叠基因构建LASSO-Cox风险预后模型,依据模型风险评分中位值将样本分为高、低风险组进行Kaplan-Meier(KM)生存分析。R软件包glmnet用于signature模型的分析,Log rank检验用于比较高、低风险组的生存差异,时间依赖的受试者工作特征(ROC)曲线用于分析特征基因和风险评分预测的准确性,单因素Cox风险比例回归分析用于筛选对肺腺癌有预后意义的基因。采用Spearman相关性分析方法分析EGFR突变与关键基因之间的相关性,利用R软件包pheatmap展示多基因相关性热图。
利用R软件包immunedeconv对EGFR突变组和野生组肺腺癌样本进行免疫评分评估,使用Wilcox检验比较两组之间的差异。采用Spearman相关性分析方法分析肺腺癌中EGFR突变与免疫细胞之间的相关性。利用R软件包pheatmap绘制热图。
分析肺腺癌中24个铁死亡相关基因在EGFR突变型、野生型肺腺癌组织中的差异表达。
EGFR在肺腺癌中存在突变,体细胞突变率为11.64%(图1A)。瀑布图显示,81.48%的样本出现突变(图1B)。
A:EGFR在肺腺癌中突变的棒棒糖图;B:瀑布图显示了肺腺癌的体细胞突变景观。
EGFR突变与性别(χ2=5.139,P<0.05)和吸烟(χ2=36.822,P<0.01)有关,而与其他临床特征无关。见表1。
表1 两组临床特征比较(例)
对EGFR突变型、野生型肺腺癌和癌旁正常组织样本进行两两比较,得到3组DEGs。火山图显示,EGFR突变型与野生型肺腺癌组织DEGs中有42个上调基因,30个下调基因(图2A);EGFR突变型肺腺癌与癌旁正常组织DEGs中有1 809个上调基因,2 143个下调基因(图2B);EGFR野生型肺腺癌和癌旁正常组织DEGs中有1 517个上调基因,2 388个下调基因(图2C)。对这3组DEGs取交集,得到31个重叠基因(图2D)。
A:EGFR突变型和野生型肺腺癌组织的差异基因分析;B:EGFR突变型肺腺癌和癌旁正常组织的差异基因分析;C:EGFR野生型肺腺癌和癌旁正常组织的差异基因分析;D:利用Venn图获取3组DEGs的重叠基因。
用LASSO回归分析从31个重叠基因中筛选出4个(GLB1L3、TMEM63C、FAM83A、GPX2)建立预后模型,基因筛选过程见图3A、B。模型风险评分的计算公式:风险评分=(-0.002 9)×GLB1L3表达量+(-0.035 2)×TMEM63C表达量+0.145 7×FAM83A表达量+0.004 6×GPX2表达量。计算出每个样本的风险评分值,依据中位值将样本分为高风险组和低风险组。KM曲线分析结果显示,高风险组生存率较低(HR=1.932,95%CI=1.433~2.606,P<0.05)(图3C)。ROC曲线分析显示,风险评分预测病人1、3、5年生存率的曲线下面积(AUC)分别为0.700、0.658和0.622(图3D)。单因素Cox风险比例回归分析显示,在31个重叠基因中,GLB1L3、TMEM63C、FAM83A是肺腺癌的预后特征基因(图3E)。相关性分析结果显示,EGFR突变与GLB1L3和TMEM63C呈正相关(r=0.383 1、0.382 6,P<0.05),而与FAM83A无显著相关性(r=0.081 0,P>0.05)(图3F)。
A:LASSO回归系数分布图,λ取最小值时对应的基因数为4个;B:根据十折交叉验证结果选择最优λ值,在λ值最小时筛选出4个基因;C:高、低风险组的KM生存曲线;D:预后风险模型预测病人1、3、5年总生存率的ROC曲线与AUC;E:单因素Cox风险比例回归分析预后特征基因;F:预后特征基因与EGFR突变的相关性。
免疫细胞评分热图显示,有6种免疫细胞在EGFR突变型和野生型肺腺癌中的分布差异具有显著性(P<0.05),其中CD8+T细胞分布差异最大(图4A)。利用CIBERSORT算法估算22种免疫细胞在肺腺癌样本中的浸润丰度,其中CD8+T细胞的浸润丰度最大(图4B)。分析预后特征基因与免疫细胞的相关性,其中B细胞和CD4+T细胞均与GLB1L3、TMEM63C有显著相关性(P<0.01)(图4C)。
A:免疫细胞评分热图,*P<0.05,**P<0.01,***P<0.001;B:肿瘤免疫浸润细胞在每个样本中的百分比丰度;C:预后特征基因与免疫细胞的相关性分析。
在EGFR突变型和野生型肺腺癌中,ATL1、SLC7A11、GLS2等10个铁死亡基因表达差异具有显著性(t=1.896~3.765,P<0.05)(图5)。
图5 铁死亡相关基因在EGFR突变型及野生型肺腺癌组织中的表达热图
肺腺癌是肺癌最常见的类型。EGFR基因突变是导致肺腺癌发生的重要因素。EGFR突变型肺腺癌病人预后较差[10-12]。即使临床上广泛应用EGFR-TKI治疗EGFR突变型肺腺癌病人,最终也不可避免产生耐药性,进而影响预后。本研究通过生物信息学分析探讨EGFR突变与肺腺癌预后、免疫细胞浸润和铁死亡的关系,以期为EGFR突变型肺腺癌的治疗提供思路。
本研究生物信息学分析显示,EGFR在肺腺癌中的体细胞突变率为11.64%。一项口腔肿瘤研究结果表明,吸烟可以上调EGFR信号,并且能够促进体外和体内口腔肿瘤的发生[13]。本文研究结果显示,EGFR突变与肺腺癌病人性别和吸烟有关,进一步印证了EGFR与吸烟的关系。本研究建立了预后风险模型,并且发现GLB1L3、TMEM63C、FAM83A是肺腺癌的预后特征基因,这3个基因或将成为未来预测肺腺癌预后的重要因子。进一步分析发现,EGFR突变与GLB1L3、TMEM63C呈正相关,这2个基因的表达或许促进了EGFR的突变,下一步可以通过细胞和动物实验进行验证。
免疫疗法具有提高肿瘤缓解率、毒副作用小的特点。然而不同EGFR突变状态的肿瘤对免疫治疗的反应不同。T细胞在肿瘤细胞免疫中起到中心调控作用[14]。CD8+T细胞作为效应细胞,其在免疫微环境中的比例升高通常与病人的良好预后相关[15]。本研究结果显示,肺腺癌组织中CD8+T细胞比例较高,且与EGFR突变状态相关,预后特征基因与B细胞和CD4+T细胞具有显著相关性,表明EGFR突变可能通过影响免疫细胞浸润进而影响免疫治疗。铁死亡是一种铁依赖性的细胞程序性死亡,它通过改变细胞代谢方式,使细胞大量积累脂质过氧化物和活性氧来诱导细胞程序性死亡[16]。既往有研究表明,肺癌组织中血清铁蛋白的表达普遍增高,血清铁蛋白的高表达在肺癌的远处转移中起着重要作用,并导致较差的远期预后[17-18]。本研究结果显示,铁死亡相关基因CIDS1和ATP5MC3与EGFR突变具有显著相关性,这或许提示铁死亡对于肺腺癌的重要作用可细分至EGFR基因的突变状态。
综上所述,EGFR突变与肺腺癌的不良预后相关,且与肿瘤免疫细胞浸润和铁死亡存在紧密联系,这为肺腺癌的进一步研究和治疗提供了新思路。