杜也 米热阿依·阿布都热孜克 左冉 袁东琪 霍庚崴 陈金良 张翠翠 孟昭婷 陈鹏
肺癌是全世界癌症相关死亡的最常见原因,占癌症死亡总人数的18.4%[1]。尽管手术治疗、放化疗及分子靶向治疗取得了一定进展,但肺腺癌(lung adenocarcinoma,LUAD)患者的生存率仅4%~7%[2]。因此仍需确定更多具有诊断和预后价值的分子标志物。代谢重编程是癌症的重要标志[3],糖酵解水平升高和线粒体代谢受抑制已经在多种癌症中被验证[4]。糖酵解不仅能够通过产生ATP 和乳酸促进癌细胞存活,还能通过磷酸戊糖途径为癌细胞提供用于生物合成的核苷酸、脂质和非必需氨基酸[5]。此外,有报道糖酵解通过激活多种信号通路导致促进癌细胞的增殖、迁移、侵袭和耐药[3,6-8]。糖酵解相关基因与多种癌症预后相关,如TCF7L2 的高表达与胰腺癌的不良预后相关[9],CLDN9、B4GALT1、GMPPB、B4GALT4、AK4、CHST6、PC、GPC1 和SRD5A3 与子宫内膜癌预后相关[10]。
本研究旨在基于癌症基因图谱(The Cancer Genome Atlas,TCGA)中的数据评估LUAD 中糖酵解相关基因的表达,研究与LUAD 的预后相关的糖酵解相关基因。为此,本研究建立6 个基因风险预测模型。预后模型的应用有助于指导临床决策,对精准医疗至关重要。经验证,该模型可以作为一个独立的因素预测患者预后,且预后性能明显优于其他临床特征。
535 例LUAD 样本及59 例正常肺组织样本的mRNA 表达量及对应患者临床信息均通过TCGA 数据库获取,对数据进行归一化处理,排除临床信息不完整的样本。
1.2.1 基因富集分析 基因富集分析使用基因富集分析(gene set enrichment analysis,GSEA)识别LUAD 样本和正常肺组织样本的糖酵解相关基因是否存在显著差异[11]。
1.2.2 差异基因表达分析 差异表达基因分析使用R 语言软件中limma 包[12]筛选肿瘤组织和正常组织之间的差异表达基因(differentially expressed genes,DEGs),以|log2FC|>1,以P<0.05 为标准进行筛选。
1.2.3 风险预测模型构建 6 个基因风险预测模型构建及评价使用R 语言软件中glmnet 包[13-14],将DEGs 拟合最小绝对收缩选择算子(least absolute shrinkage and selection operator,LASSO)回归模型,通过来自LASSO 回归分析的系数和每个基因表达水平计算每例患者风险预后模型的评分(risk score),risk score=Σexpgenei* βi,根据作为临界值的中位风险评分将所有LUAD 患者分为高风险组和低风险组。使用R 语言软件中survivalROC 包[15]基于风险评分预测患者生存情况,绘制Kaplan-Meier 生存曲线和ROC 曲线。
1.2.4 免疫细胞浸润分析 免疫细胞浸润分析为了探索高风险和低风险组中免疫细胞浸润的差异,使用CIBERSORT 算法[16]评估基于表达文件的22 种免疫细胞亚型的比例。以P<0.05 为差异具有统计学意义。
1.2.5 列线图构建及验证 列线图构建及验证使用R 语言软件中rms 包[17]和Cox 回归分析,基于患者性别、年龄、分期(stage)、TNM 分期和风险评分构建用于预测预后的列线图。
应用LASSO 回归回归分析,选择最佳Lambda值,纳入6 个预后相关基因,构建预后风险评分模型。通过Kaplan-Meier 生存曲线分析高低风险组患者的生存情况。通过ROC 曲线评估不同时间点预后模型的预测价值。采用单因素和多因素Cox 回归模型分析影响预后的因素。采用列线图结合风险评分来预测患者1 年、2 年和3 年的生存概率。以P<0.05 为差异具有统计学意义。
本研究过分子特征数据库(the molecular signature database,MsigDB)获取了5 个糖酵解相关基因集,并对TCGA 数据库的535 例LUAD 样本和59 例正常肺组织样本进行GSEA 富集分析。根据|NES|>1,P<0.05,FDR<25% 为标准进行筛选,最终筛选得BIOCARTA_GLYCOLYSIS_PATHWAY、HALLMARK_GLYCOLYSIS、REACTOME_GLYCOLYSIS 3个糖酵解相关基因集在LUAD 患者中被显著富集(表1)。选择此3 个基因集中275 个基因进行后续分析。
表1 LUAD 患者中富集的基因集
对TCGA 来源的535 例LUAD 样本和59 例正常肺组织的糖酵解相关基因表达进行差异表达基因分析,鉴定出18 个差异表达基因(10 个下调,8 个上调)。通过LASSO 回归分析从18 个糖酵解相关DEGs 中筛选出6 个基因(CITED2、SDC2、HS6ST2、ERO1A、PFKP、PFKFB3)构建LUAD 预后风险评分模型(图1)。
图1 预后风险评分模型的构建
根据6 个基因风险评分模型计算每例患者的风险评分。通过Kaplan-Meier 曲线分析,发现高风险组患者5 年死亡率显著高于低风险组患者(P<0.0001,图2A),且ROC 曲线分析结果显示,1 年、2 年和3 年总生存期(overall survival,OS)的曲线下面积(area under the curve,AUC)分别为0.712、0.673、0.636(图2B)。对风险评分模型进行单因素和多因素Cox 回归分析,在单因素Cox 回归分析中,肿瘤分期(stage,P<0.001)、T 分 期(P<0.001)、N 分 期(P<0.001)、M 分 期(P=0.037)及风险评分(risk score,P<0.001)均与OS显著相关(表2)。多因素Cox 回归分析中,风险评分仍然是LUAD 患者的独立预后因素(P=0.005,表2)。上述结果表明,该风险评分模型对患者的预后有较强的预测能力,可作为一个独立的因素预测患者预后。
图2 预后风险模型评估
表2 风险评分模型的单因素和多因素Cox 回归分析
采用CIBERSORT 对高风险组和低风险组患者中22 种不同免疫细胞浸润情况进行分析。M1 型巨噬细胞在高风险组的浸润比例更高(P<0.05,图3),而激活的肥大细胞在低风险组的浸润比例更高(P<0.01,表2),其他免疫细胞在两组中有着相似的分布。
图3 免疫细胞在高风险组和低风险组之间的差异
为了开发可以帮助临床医师预测患者OS 的临床工具,最后构建了一个包含年龄(age)、性别(gender)、肿瘤分期、TNM 分期及风险评分在内的列线图来预测患者1 年、2 年和3 年的生存率(图4A)。ROC 分析的1 年、2 年和3 年AUC 值分别为0.749、0.751和0.718(图4B),这与校准曲线共同验证了列线图对LUAD 患者预后有良好的预测性能(图4C)。
图4 列线图的构建和评估
LUAD 是全球癌症相关死亡的最常见原因,但由于其表型和分子多样性,很难预测其预后。亚型识别、风险分层对于改进现有治疗方法、开发更精确和个性化的疗法以及延长患者的生存时间至关重要。因此本研究建立糖酵解相关的风险模型来预测LUAD 生存率,以提高预测的准确性,并且为个性化治疗奠定基础。
本研究通过GSEA 分析,鉴别出3 个在LUAD中显著富集的糖酵解相关基因集,进一步对这3 个基因集中的基因进行差异表达基因分析。正常肺组织相比有显著性差异的基因用于构建风险评分模型。LASSO回归是一种机器学习算法,能够更有效的处理复杂数据和识别潜在风险因素,构建预后模型[18]。本研究用LASSO 回归分析识别了6 个基因风险评分模型,根据风险评分将患者分为高、低风险组,进一步通过Kaplan-Meier 曲线、ROC 曲线、单因素及多因素Cox回归分析考察风险评分模型预测能力,结果显示高风险组患者死亡率显著高于低风险组患者,ROC 曲线提示该模型具有较好的短期预测能力。并且在单因素、多因素Cox 回归分析中风险评分均是LUAD 患者的独立预后因素;通过CIBERSORT 分析考察高、低风险组患者免疫细胞浸润差异,发现M1 型巨噬细胞在高风险组的浸润比例更高,而激活的肥大细胞在低风险组的浸润比例更高,免疫细胞浸润状态可能与LUAD 患者的预后存在一定的联系。Liu 等[19]研究发现,差异表达的肿瘤浸润细胞与LUAD 患者的OS 相关,因此本研究分析了两组的免疫细胞浸润差异。据报道,基质、免疫和微环境综合特征与LUAD 患者的OS 相关[20]。对于肿瘤微环境中M1 型巨噬细胞及活化的肥大细胞与LUAD 患者预后的相关性,有研究[21]根据铁死亡相关基因对指数(ferroptosis-related gene-pair index,FRGPI)建立了另一种能够预测LUAD 患者预后的模型,高FRGPI 提示不良的临床预后,此模型中也显示高FRGPI 组MI 型巨噬细胞浸润程度较高。另一项研究[22]鉴定出了一种与LUAD 患者预后相关的基因,INTS7 mRNA 在LUAD 中的表达显著上调,早期LUAD 患者INTS7 高表达具有较短的OS,而INTS7 表达与活化肥大细胞浸润呈负相关,即INTS7高表达患者活化的肥大细胞浸润程度较低,结果与本研究一致。本研究结合风险评分构建列线图,通过ROC 曲线及校准曲线验证预测预后性能,结果表明列线图具有良好的短期预测能力。
肿瘤细胞能量代谢过程中比正常细胞需要更多的葡萄糖,但是即使在氧气充足的条件下,肿瘤细胞也更倾向于通过糖酵解而不是氧化磷酸化供能,这种现象被称为Warburg 效应[23]。有研究表明,糖酵解与肿瘤的发生发展、增殖、侵袭、迁移和耐药等密切相关。CITED2(Cbp/p300 interacting transactivator with Glu/Asp-rich carboxy-terminal domain 2)是一种转录辅助因子[24],在癌症相关的研究中发现,其高表达与肺癌的不良预后相关[25]。SDC2(syndecan-2)是一种跨膜蛋白。SDC2 在LUAD 中表达上调,并与LUAD 细胞较强的侵袭和转移能力相关[26],并且是导致LUAD 脑转移的关键基因[27]。HS6ST2(heparan sulfate 6-O-sulfotransferase 2)在甲状腺癌[28]、结直肠癌[29]等多种肿瘤中上调,并与患者不良预后相关[30],但其在LUAD 中的作用鲜见报道。ERO1(endoplasmic reticulum oxidase 1)是一种位于内质网的氧化酶。有报道ERO1 蛋白质的高表达预示着早期LUAD 的不良预后[31]。PFKP(platelet type PFK)催化6-磷酸果糖转化为1,6-二磷酸果糖,是糖酵解的一个关键步骤。有研究表明,PFKP 在肺癌组织和细胞系中高表达,并与患者不良预后相关,其表达水平降低会导致肺癌细胞增殖能力降低、细胞周期阻滞、葡萄糖摄取率降低、乳酸水平和ATP 浓度显著降低[32]。PFKFB3(6-phosphofructo-2-kinase)属于 PFKFB 家族,是糖酵解的关键酶之一。PFKFB3 蛋白质的高表达是LUAD 的独立预后标志物,靶向PFKFB3 能够抑制肺癌细胞活力、促进细胞凋亡,导致细胞周期阻滞,抑制肺癌细胞的糖酵解、迁移和侵袭能力[33]。
本风险评分模型存在一定的局限性。影响LUAD 患者预后的因素诸多,如常规的用于评估临床预后的指标有,TNM 分期、年龄、表现状态如ECOG评分等[34]。对于无法手术的晚期LUAD 患者,是否及时接受规范的治疗以及治疗方案的选择对于预后的影响无疑更大,基于参与大型多机构研究的患者样本能够提供最可靠的预后标志物,特别是随机安慰剂对照试验[35],大型随机临床试验能够提供更优的治疗方案,本模型对于晚期LUAD 患者预测预后的能力有限。对于能够进行手术的早期LUAD 患者,本模型主要有助于早期LUAD 术后患者进行预后复发风险的判断,可能对早期LUAD 术后患者是否积极进行辅助治疗具有一定的指导意义。类似模型评估肺癌预后的研究较多[21-22],本风险模型对于早期LUAD 术后患者预测预后尚存在一定的价值。另外,此研究也存在其他不确定性:1)所有的LUAD 患者均来自公共数据库,仍需要在多中心的大规模患者中验证该模型的性能;2)6 个风险基因在LUAD 中发挥的作用仍需要进一步的实验验证。
总之,本研究建立与糖酵解相关的6 个基因风险评分模型,该模型有着良好的预测性能,可以帮助预测早期LUAD 患者的预后情况。该风险特征还可以用于开发新的LUAD 靶点,推动精准医疗。