戴玉樑 舒鹏 李文杰 张冉冉
胃癌(Gastric cancer,GC)是最常见的恶性肿瘤之一,每年约一百万新发胃癌病例[1-2]。东亚地区每年的新发病例占全球50%之多[1,3-4],男性的发病率高于女性[5]。由多种因素导致胃癌发生,包括幽门螺杆菌感染[6]、EB病毒感染[7]等。手术的提升及放疗、化疗等辅助治疗技术的应用一定程度改善胃癌患者的预后,然而5年生存率提高有限,可至30%左右[8]。胃癌可被聚类为四种共识分子亚型,分别为微卫星不稳定亚型、TP53活性亚型、TP53失活亚型和间充质亚型,其中囊括弥漫性亚型胃癌在内的间充质样亚型预后最差[9]。传统的TNM分期在用于胃癌患者的预后预测方面日趋乏力[10-11]。许多证据表明,胃癌患者对治疗的反应和生存表现很大程度上依赖于一些遗传分子特征[12-13]。基于基因表达谱数据,研究人员陆续开发了一些用于胃癌预后预测的分子标志物[14-15]。然而,受限于胃癌异质性,大部分标志物的预后预测效果不佳。自噬广泛参与细胞质成分的降解和细胞内稳定性的维持,在许多肿瘤的发生、发展中发挥重要作用[16-17]。已有大量关于自噬在胃癌的发生、发展和耐药性方面的机制研究[18-19]。本研究对间充质亚型胃癌内在特征和自噬相关基因进行整合研究,旨在开发出稳定可靠的预后标志物。
1.1 患者队列 使用“GEOquery”包从GEO(Gene Expression Omnibus)数据库中获取患者的基因表达谱和相应的临床信息,并经过RMA(robust multiarray analysis)进行标准化处理。5组独立GSE(GEO Series)数据集被纳入本研究,共包含1,099例GC患者的基因表达谱。分别是:GSE15459(n=192),GSE26901(n=109),GSE13861(n=65),GSE84437(n=433),GSE62254(n=300)。基因表达谱中的探针ID被转换为基因符号;若有多个探针ID对应同一个基因符号,则保留平均值最高的ID用于表示相应的基因。GSE15459和GSE62254数据集的分子亚型信息检索自Cristescu等的研究[9]。纳入患者的详细临床特征见表1。本研究的设计和分析流程如图1所示。
图1 本研究的设计和分析流程
表1 患者临床信息统计
1.2 整合网络分析 从HADb数据库(http://autophagy.lu/autophagy.html)中获取232个自噬基因。GSE15459作为训练数据集,本研究发现与其他三种亚型相比(MSI,TP53-,TP53+),在间充质亚型中有17种ATGs(log 2FC>1,adjP<0.05)和1,865种靶基因(log 2FC>0.15,adjP<0:05)差异表达。通过主调控分析,计算每个自噬基因与其靶基因中的上皮间充质转化相关基因的超几何检验P值,筛选自噬标志基因。
1.3 构建和验证基于自噬基因的胃癌预后标志物(autophagy gene-based signature for gastric cancer,APSGC) 整合自噬标志基因与患者总体生存期,通过COX风险回归分析构建一个自噬相关预后模型用于患者风险赋分,命名为“基于自噬基因的胃癌预后标志物(APSGC)”,该模型的计分方程如下:风险评分=Xi×Yi(X:每个基因的表达水平,Y:每个基因的Cox回归系数)。同时,在GSE26901、GSE13861、GSE84437及GSE62254四组数据集中进行APSGC赋分并验证预后预测效能。
1.4 基因集富集分析 从MSigDB数据库下获取hallmark和kegg基因集,使用“fgsea”包完成,表型定义相关基因集数目设定为1,000。设定P<0.05筛选显著的基因集。
1.5 统计学方法 采用R 3.6.1统计软件。使用Student′st-test计算组间基因表达差异。使用Kaplan-Meier生存曲线比较高危组和低危组间生存差异,“survival”R包中的log-rank检验统计显著性。使用Cox模型进行单变量比例风险回归分析。对于所有的检验分析,P<0.05为差异具有统计学意义。
2.1 整合网络分析发现间充质样亚型的5个自噬标志基因 GSE15459作为训练数据集,234个自噬基因中有54个基因的单变量风险比>1。差异分析表明,与其他三种亚型相比,间充质亚型中存在1,412个差异靶基因(log2FC>1;adjP<0.05)和17个差异自噬标志基因(log2FC>0.15;adjP<0.05)。经过网络分析和主调控分析的筛选(表2),保留了5个主调控间充质亚型的自噬基因(CCL2,SPHK1,ITGB1,PEA15,DLC1)(图1)。相较于其他亚型,这5个自噬标志基因在间充质样亚型中显著高表达(图2)。基于这5个自噬基因的表达,能够较好地预测间充质样亚型(图3A),且每个基因皆是患者的RFS风险因素(图3B)。
图2 整合网络分析筛选出5个自噬标志基因。A. 训练数据集中不同亚型胃癌间5个自噬基因的表达情况;B. GSE15459和GSE62254数据集中这5个基因在不同亚型间的表达情况
图3 5个自噬标志基因的亚型识别和预测效能。A:基于这5个基因的表达,在训练数据集中可以较好地鉴定间充质样亚型;B:单变量分析中,这5个基因对患者RFS的预测效果
表2 主调控分析结果
2.2 自噬相关预后模型(APSGC)的构建与验证 整合这5个自噬标志基因与患者的总体生存期,通过多因素Cox构建了一个自噬相关预后模型(APSGC)。风险评分=(0.074,7×CCL2)+(0.121,4×SPHK1)+(0.996,6×ITGB1)+(0.150,3×PEA15)+(-0.131,5×DLC1)。对数据集中的患者进行风险赋分。在每个数据集中,风险赋值的上四分位数设定为阈值,依此将患者分为高危组和低危组。在训练数据集中,高危组的总体生存期显著低于低危组(P<0.05)(图4A)。
图4 不同风险组之间的生存差异。A-F. 不同风险组之间总体生存期方面的差异;G-I. 不同风险组之间无复发生存期方面的差异
进一步在4组验证数据集上评估APSGC的预后预测效能。结果表明,在验证数据集中,高危组的总体生存期显著低于低危组(P<0.05)(图4B、C、D、E)。在将所有验证数据集整合后,发现在合集中高危组和低危组的总体生存期仍有显著差异(图4F)。而在无复发生存期方面,高危组也显著低于低危组(P<0.05)(图4G、H、I)。此外,在纳入年龄、性别、分期等临床因素后,单变量和多变量Cox分析表明,APSGC是一个独立预后因素(表3)。
表3 自噬标志及临床风险特征的单变量和多变量分析
2.3 APSGC功能分析 结果表明,在高危组中,许多和间充质相关的通路,如TGF-β通路、上皮-间充质转化(EMT)、mTOR通路等显著上调(P<0.05)(图5)。
图5 高危和低危组的GESA结果
胃癌是癌症相关死亡的第三大病因[2],早期胃癌治疗效果好,而中晚期胃癌则由于切除后的远端转移而预后较差,其五年整体生存率<5%[20]。目前研究人员已开发出若干种基于多基因的预后标志物[21-22],但其预测效果仍不明确。需要开发出一类优于TNM分期的预后标志物,对胃癌患者实现风险分层,指导个体化和精准治疗。
本研究中,作者整合分析了间充质样亚型胃癌的分子亚型信息和自噬基因,筛选出间充质样亚型中的主调控自噬基因,构建了自噬相关的胃癌预后标志物(APSGC),利用癌症组织转录谱的独特性质来推断肿瘤自噬状态,用于患者风险分层。大量的研究表明,这5个基因在肿瘤的发生、进展、转移等过程中发挥重要作用。例如CCL2的激活促进了肺癌的转移[23],SPHK1在POTEE的驱动下促进了结直肠癌的进展[24]。ITGB1的抑制导致卵巢癌细胞凋亡,并减少癌组织内血管生成[25],胃癌顺铂类药物耐药性的产生和PEA15的高表达相关[26],DCL1的表达和卵巢癌的进展和淋巴转移相关[27]。这些证据反映了作者构建的预后标志物蕴含着可靠的生物学意义。经过APSGC的分层,可观测到相较于低危组,高危组的整体生存期和无复发生存期更差,在几个独立的验证队列中也观察到同样的结果。基因富集分析表明,与间充质相关的通路,如TGF-β信号通路、上皮-间充质转化(EMT)、自噬正调控等通路在高危组中显著上调。此外,在将患者性别、年龄、分期等变量纳入多因素回归分析后,表明APSGC是一个独立预后预测因素。这些结果表明APSGC是一种可靠的胃癌预后模型。本研究将自噬状态与患者预后联系起来,为胃癌患者的临床精准治疗提供指导。
然而本研究的缺陷和不足仍不容忽视。首先,纳入的数据集均来自于微阵列和测序的转录组数据,高昂的检测价格、复杂的数据前处理过程以及专业的生物信息学分析要求限制了其在临床一线的推广应用。其次,本研究是一项回顾性分析,进一步的验证需要纳入更多的前瞻性队列。在未来的研究中,作者将进一步通过分子生物学实验探究模型的内在分子机制,同时纳入多中心样本,对模型进行提升和完善。