黄向东,张兴伟
(内蒙古赤峰市医院胸外科,内蒙古 赤峰 024000)
食管癌(esophageal cancer,EC)是世界上第7 大常见癌症,也是全球第6 大致命的癌症,主要包括食管鳞状细胞癌(ESCC)和食管腺癌(EAC)两种亚型[1]。食管腺癌在欧美国家占主导地位,而食管鳞状细胞癌在我国占主导地位[2]。目前,手术是治疗早期食管癌的首选方法,但因其恶性程度高、进展快、预后差,很多患者一经诊断就失去了手术机会。虽然现有的治疗方法在一定程度上提高了食管癌的生存率,但其5 年生存率仅为20%[3]。现阶段,尚无针对食管癌作用的靶向药物。因此,寻找早期诊断食管癌分子标志物,探索发病机制和治疗靶点具有重要意义。长链非编码RNA(long non-coding RNA,LncRNA)是长度超过200 个核苷酸的非编码RNA,广泛存在于基因组中,由于其在许多生物过程中起关键作用而受到越来越多研究的关注[4]。目前有研究表明[5],lncRNAs 在肿瘤增殖、转移和微环境中发挥重要作用,并有望成为诊断癌症、预后、转移和耐药性的生物标志物。此外,lncRNA 在不同肿瘤组织中存在着表达差异,并与肿瘤细胞的增殖侵袭以及不良预后相关[6]。本研究基于癌症基因组图谱(The Cancer Genome Atlas,TCGA)中的食管癌表达数据,探索与食管癌预后相关的lncRNA,构建食管癌患者预后预测特征,期待为食管癌患者的潜在治疗靶点提供新的证据支持。
1.1 数据来源 基于癌症基因组图谱(TCGA)数据库(https://cancergenome.nih.gov/)中下载的食管癌患者的RNA-seq 数据和相应的临床信息。排除没有完整临床数据和生存信息的样本,共得到了158 个食管癌组织样本和11 个正常邻近组织进行后续分析,见表1。基于GENCODE 项目基因注释文件(版本33,GRCh38)[7]对基因符号和生物型进行注释。
表1 样本中患者的临床数据统计
1.2 差异表达lncRNAs 和mRNAs 筛选 通过使用“edgeR”包,采用|log2FC|>2 且P≤0.05 的筛选标准,鉴定食管癌和正常样品之间差异表达的mRNAs(DEGs)和差异表达的lncRNAs(DELs)。并通过“heatmap”和“ggplot2”包绘制DEG 和DEL 的热图和火山图。
1.3 预后模型构建 基于单变量Cox 回归分析评估总生存期(Overall survival,OS)和lncRNA 表达水平之间的相关性。对于P<0.05 的lncRNA,进行LASSO回归分析和多变量Cox 回归分析,计算各选择lncRNA 的预后总和。基于Cox 系数和基因表达值的线性组合计算风险评分,风险评分计算如下:风险评分=∑回归系数(lncRNA)×表达值(lncRNA)。基于“survival”和“glmnet”包,根据风险评分将样本分为高风险组或低风险组,构建预测特征。
1.4 预后模型临床价值评估 使用“timeROC”和“survival”包绘制ROC 曲线并计算该模型的C 指数,评估预测签名的稳定性和准确性。并通过K-M生存分析评估预后模型中高风险和低风险人群体的生存差异。分析构建模型中lncRNAs 与临床病理特征(包括年龄、性别、病理分期和TNM 状态)之间的相关性。
1.5 功能分析 通过Pearson 相关分析来识别与预后模型中lncRNAs 具有共表达关系的mRNAs,并且|R|>0.5 被认为是有意义的。利用“clusterProfiler”包对共表达的mRNAs 进行基因本体论(GO)和京都基因与基因组百科全书(KEGG)功能富集分析,间接探讨lncRNAs 在高风险组和低风险组人群之间的生物学功能差异。
2.1 DELs 和DEGs 的识别 基于TCGA 数据库,共获得169 个样本(158 个EC 样本和11 个正常样本)的数据,根据|log2FC|>2 且P≤0.05 的纳入标准,最终鉴定出592 个DELs 和1219 个DEGs,见图1A、图1B。
图1 基因表达火山图
2.2 预后特征构建及验证 基于单变量Cox 回归分析和LASSO 回归分析,总共获得了13 个构建预后特征的DELs 见图2A。随后,基于多变量Cox 回归分析获得13 个DELs 的回归系数(Coef)以计算风险评分并构建预测特征。根据风险评分的中位数值,将158 患者分为高危组和低危组。分析高风险和低风险组中患者的分布及DELs 的表达水平,见图2B~图2D。另外,高危组患者的OS 低于低危组,见图2E。ROC 曲线结果表明1、3 和5 年的ROC(AUC)曲线下面积分别为0.762、0.773 和0.925,见图2F。同时构建了对应的列线图评估患者的1~5 年生存率,见图2G。
图2 lncRNA 预后模型
图2 lncRNA 预后模型(续)
2.3 特征的临床相关性 根据多元Cox 回归和K-M生存曲线,发现AC002331.1、LINC01068 和RP11-2N1.2 的高表达与患者的不良预后密切相关,见图3A~图3C。此外,13 个DELs 与食管癌临床特征分析表明,BLACAT1 和LINC01068 在M0 的中位表达值高于M1。RP4-781K5.5 和LINC01415 在65 岁以上人群中高于65 岁以下人群,而GK-IT1 在65 岁以下人群中高于65 岁以上人群。TSPEAR-AS2 和GK-IT1 的高表达水平与患者淋巴结转移相关。LINC01415 在无淋巴结转移患者中的表达中值高于有淋巴结转移患者。此外,RP4-781K5.5 在男性中的中值表达值高于女性,见图3D~图3L。
图3 Kaplan Meier 生存分析及EC 患者lncRNAs 表达与临床病理因素的关系
图3 Kaplan Meier 生存分析及EC 患者lncRNAs 表达与临床病理因素的关系(续)
2.4 功能分析 Pearson 相关性分析分析了与lncRNA共表达关系的DEGs,探索3 种与预后相关lncRNAs的功能和潜在分子机制。以R>0.5 作为筛选标准。对于LINC01068,没有DEGs 符合标准。RP11-2N1.2有9 个符合标准的DEGs。对于AC002331.1,共收集了375 个DEGs,并列出了前10 个共表达DEGs,见图4。根据GO 分析结果显示,ACC02331.1 与MHC蛋白结合、MHC 蛋白复合物结合、细胞因子受体活性等功能有关,KEGG 分析结果表明与ACC02331.1具有共表达的DEGs 涉及到细胞粘附分子和抗原加工和呈递相关等相关通路,见图5。
图4 与AC002331.1 相关的前10 个共表达基因的Pearson 相关分析
图4 与AC002331.1 相关的前10 个共表达基因的Pearson 相关分析(续)
图5 AC002331.1 的共表达蛋白编码mRNAs 的功能富集分析
食管癌是消化系统恶性肿瘤,预后不良。虽然,近年来对于食管癌的治疗取得了一定进展,但由于食管癌的恶性程度高、复发转移率高,因此预后较差[8]。基于来自TCGA 公共数据库的数据集,多项研究评估了lncRNA 在各种癌症类型中的预后价值[9-11]。这些研究结果表明该方法是可行的。例如,PVT1 的高表达与食管癌预后不良有关[12],而LINC01296 可促进细胞增殖、迁移和侵袭,与食管癌预后不良有关[6]。鉴于lncRNA 与多种肿瘤有着密切的关系,本研究建立了lncRNA 相关食管癌患者预后预测特征,特征中lncRNAs 对未来食管癌的诊断及治疗提供了新的方向。
本研究基于TCGA 数据库中食管癌患者的表达数据,构建了包含13 个lncRNA 的食管癌的预后预测特征,包括AC002331.1、AC079354.5、BLACAT1、GK -IT1、LINC01068、LINC01415、RP11 -169F17.1、RP11 -2N1.2、RP11 -475O23.2、RP11 -60A24.3、RP1174-17RP115.5、TSPEAR-AS2。根据风险评分将食管癌患者分为高、低风险两组,通过绘制K-M 生存曲线发现高风险组患者的生存时间显著低于低风险组(P=3e-10)。特征的1、3 和5 年的AUC 值分别为0.762、0.773 和0.925,该特征的C 指数为0.764,均表现出较好的预测能力。
在预测模型和临床病理数据相关性分析中发现,BLACAT1 和LINC01068 在M0 患者中的中位表达值高于M1。既往研究表明[13],BLACAT1 的高表达与实体瘤患者较短的总生存期、淋巴结转移、较差TNM 分期以及肿瘤分级相关。而LINC01068 在肿瘤中的作用未得到进一步探究。此外,本研究发现RP4-781K5.5 和LINC01415 在65 岁以下患者的中位表达值低于65 岁以上患者,说明对于65 岁以下患者,这两种lncRNA 的异常表达可能会增加食管癌风险。相反,GK-IT1 不同于RP4-781K5.5 和LINC01415,它在65 岁以上的患者中具有更高的表达水平。本研究还发现存在远处淋巴结转移的患者中GK-IT1 的表达水平高于无淋巴结转移的患者。LINC01415 在没有淋巴结转移的患者中显示出更高的表达水平。此外,TSPEAR-AS2 的高表达可能与远处淋巴结转移有关,AC002331.1、LINC01068 和RP11-2N1.2 在肿瘤组织中的高表达与患者的不良预后密切相关,并进一步分析它们的潜在功能。
基于Pearson 相关系数分析获得了与lncRNAs(AC002331.1、LINC01068、RP11-2N1.2)具有共表达关系的mRNAs。其中,对与AC002331.1 具有相关mRNAs 进行功能分析,发现具有多种生物学功能,主要与MHC 蛋白结合、MHC 蛋白复合物结合、细胞因子结合受体相关。KEGG 分析表明,AC002331.1可能与细胞粘附分子、抗原加工和呈递、JAK-STAT信号通路和NF-κB 信号通路密切相关。而这些功能与癌症的发生、发展存在着密切的关联性。并且JAK-STAT 信号通路在细胞免疫、分裂和死亡以及肿瘤形成中起着至关重要的作用[14]。JAK-STAT 信号通路的突变和信号调控与白血病[15]和骨肉瘤[16]密切相关。此前的研究也表明,JAK-STAT 通路可能参与了食鳞癌管的发生[17]。Li B 等[18]和Huang H 等[19]的研究也表明,NF-kappa B 信号通路与食管癌的发展过程密切相关。
综上所述,通过分析TCGA 数据库中食管癌的数据,探索其中与食管癌预后相关的lncRNA,建立食管癌患者预后预测特征,该特征中的lncRNAs 可能为食管癌患者的诊断及治疗提供一定思路。