胃癌Wnt信号通路相关基因预后模型的构建

2022-03-24 04:32田莲莲章屹然王兆熹
关键词:通路曲线信号

田莲莲,朱 军,马 骞,彭 涵,章屹然,王兆熹,陈 睿

(1.空军军医大学第二附属医院儿科,陕西西安 710038;2.空军军医大学第一附属医院消化外科,陕西西安 710032;3.空军军医大学第一附属医院整形外科,陕西西安 710032;4.空军军医大学学员旅,陕西西安 710032;5.空军军医大学第一附属医院预防保健科,陕西西安 710032)

胃癌(gastric cancer,GC)是一种全球性疾病。据估计,GC每年新增病例超过100万例,是全世界常见的第五大恶性肿瘤。2018年全球有78.4万人死于GC,是癌症相关死亡第三大主要原因[1]。随着食品保鲜技术和幽门螺杆菌治疗方案的改进,GC发病率有所下降[2]。但由于人口老龄化日趋严重,预计将来会出现更多的GC病例[3]。早期GC的主要治疗方法是内镜切除术;非早期GC进行手术切除治疗,其中包括D2淋巴结清扫;晚期GC进行连续化疗治疗[3]。GC患者具有早期诊断率低、根治性切除率低、5年生存率低的特点[4-6]。尽管外科手术技术及其辅助治疗取得了较大进展,但晚期GC预后仍然较差。晚期GC患者的存活率仍然很低,中位生存期小于1年,5年生存率约为18%[3,7-8]。其中转移性GC患者预后极差,中位生存期为4~9个月不等,这取决于转移性疾病的进展程度以及患者是否能够接受姑息性化疗[9]。因此,确定新颖可靠的治疗靶标以实现GC患者个体化治疗的目的和进行预后预测是学者和临床医师都面临的挑战。越来越多的证据提示Wnt信号通路在GC发生和进展中的核心作用[10]。本研究旨在验证Wnt信号通路在GC进展中的重要作用,并通过建立Wnt信号通路相关基因的预后模型,评价模型的预测价值。

1 材料与方法

1.1 数据下载

从TCGA官网(https://portal.gdc.cancer.gov/)下载胃腺癌转录组数据及其相应的临床数据,其中包括癌组织375例和癌旁组织32例。将转录组数据与临床生存数据匹配,保留完整临床信息的GC患者共计371例。Wnt信号通路相关基因集于GSEA官网(https://www.gsea-msigdb.org/gsea/index.jsp)的MSigDB(Molecular Signatures Database)数据库下载。其中包括KEGG Wnt signaling pathway、CANONICAL Wnt signaling pathway、BIOCARTA Wnt pathway和GO NEGATIVE REGULATION OF Wnt signaling pathway。以这4个Wnt数据库为基础,进行GSEA富集分析。外部数据集来自GEO数据库,下载GC基因芯片数据GSE84437,用于验证Wnt信号通路基因预后模型的准确性。数据进行log2转换后提取模型基因,最后用生存曲线的方式验证模型。

1.2 GSEA富集分析

使用GSEA软件(版本4.0.1)和1 000次排列数进行GSEA(gene set enrichment analysis,GSEA)富集分析。总组织样品分为癌组织与癌旁组织两组,富集上述4个Wnt信号通路基因。筛选标准:基因数目大于15个,P<0.05,标准化富集分数(normalized enrichment score,NES)绝对值大于1.4。

1.3 筛选差异表达的Wnt信号通路基因

在癌组织与癌旁组织的全转录组中提取Wnt信号通路基因544个。利用R语言中edgeR包对数据进行标准化处理。使用Wilcoxon秩和检验,对差异基因进行估算。通过Benjamin-Hochberg方法对P值进行校正。差异基因筛选标准为P<0.05。

1.4 构建预后模型及受试者工作特征(ROC)曲线

合并Wnt信号通路差异表达基因与GC基本临床信息。使用生存曲线和单因素COX风险回归分析筛选出与预后相关(P<0.05)的基因。然后进行多因素COX回归分析,采取逐步回归法,筛选出斥责信息量准则(Akaike information criterion,AIC)最小的模型,并且得到模型中各个基因的比例系数β。风险值计算公式为β1*expression(gene 1)+β2*expression(gene 2)+…βn*expression(gene n)。根据公式计算得到每位患者的风险值,以中位数为界限将患者人群分为高风险组(大于中位数)和低风险组(小于中位数)。ROC曲线验证模型对GC患者生存状态的预测能力。使用R语言中timeROC包分别绘制1年、3年和5年的ROC曲线并且计算相应的曲线下面积(area under curve,AUC)。

1.5 临床样本q PCR检测

总共收集了8对GC组织和相应的癌旁组织,样本来自空军军医大学第一附属医院消化外科进行过手术的GC患者。研究中涉及人类参与者的所有程序均符合《赫尔辛基宣言》(2013年修订)。本研究由空军军医大学第一附属医院伦理委员会批准(编号:KY 20203269-1),并获得每位患者的知情同意。通过qPCR技术评估GCWnt信号通路相关基因表达水平。使用RNAiso Plus从GC和癌旁组织中提取总RNA。使用PrimeScript™RT Master Mix将总RNA(2μg)反转录为cDNA。采用三步法在SYBR®Premix ExTaq™Ⅱ体系中进行qPCR反应。引物序列见表1。

表1 实时荧光定量PCR引物序列Tab.1 The specific primers in quantitative real-time PCR

1.6 统计学分析

采用R软件(版本:3.63)进行数据处理。计量资料采用(±s)表示,统计检验使用t检验或方差分析。非正态分布数据检验使用Wilcoxon秩和检验。生存分析采用Kaplan-Meier曲线,其检验方式为Log-Rank法。所有检验为双侧检验,P<0.05具有统计学意义。单因素和多因素COX回归分析筛选并确定GCWnt信号通路相关基因预后模型。本研究中使用的R语言数据包有survival包、edgeR包、timeROC包和一些R语言自带的基础绘图包。

2 结 果

2.1 Wnt信号通路基因集在GC组织显著富集

GSEA结果显示,与GC正常的癌旁组织(蓝色)相比,癌组织(红色)在4个Wnt信号通路上显著富集(图1)。表明Wnt信号通路的异常激活在GC发生发展中起到了重要作用。

图1 GC组织与癌旁组织的GSEA富集Fig.1 GSEA analysis of gastric cancer and para-cancer samples

2.2 GCWnt信号通路基因的差异表达

4个Wnt信号通路提取得到的基因共544个,使用差异分析的方式筛选出394个差异基因。本结果验证了大部分Wnt通路相关基因在癌组织与癌旁组织异常表达。其中80个差异基因下调,314个差异基因上调,绘制火山图如图2。

图2 差异表达的Wnt通路基因Fig.2 Differentially expressed Wnt pathway genes

2.3 预后模型的筛选与确定

首先将上述394个Wnt差异基因与生存数据合并,随后单因素COX回归分析确定了13个与预后相关的Wnt信号通路基因(均P<0.05),接着多因素COX回归分析构建模型,最终得到由5个基因组成的预后模型。因此,风险值的计算公式:风险值(risk score)=-0.655*ETV 2+0.216*SERPINE1+0.538*CPZ+0.879*VPS35+0.144*IGFBP1。

2.4 预后模型的评估

Kaplan-Meier曲线显示,高风险组的预后要远远差于低风险组(P<0.05,图3)。高风险组的中位生存期为1.53年,低风险组的中位生存时间为4.62年。ROC曲线结果显示,该模型的1年、3年和5年AUC分别为68.0%、69.4%和78.5%。表明该模型可以较为准确地预测GC患者预后。

图3 预后模型的评估Fig.3 Evaluation of the prognosis model

2.5 预后模型独立于临床因素指导预后

首先通过单因素COX回归分析筛选与GC预后相关的临床因素,并绘制森林图(图4)。单因素森林图显示年龄(OR=1.026,95%CI:1.026~1.044)、TNM分期(OR=1.534,95%CI:1.241~1.896)和本模型(OR=2.242,95%CI:1.719~2.923)与GC预后相关。然后将上述结果进一步纳入多因素COX回归分析,结果显示年龄(OR=1.032,95%CI:1.013~1.051),TNM分 期(OR=1.535,95%CI:1.223~1.925)和 本 模 型(OR=2.018,95%CI:1.533~2.656)与GC患者预后相关。

图4 预后模型的独立因素分析Fig.4 Analysis of independent factors of the prognosis model

2.6 GEO外部数据的验证

本研究下载GEO数据库中GC数据集(GSE84437)以进一步确认本模型的预测能力,与临床资料合并后使用生存曲线的方式进行验证。结果表明(图5),高风险组患者预后远远差于低风险组患者(P<0.05)。提示该模型对GC患者预后具有较好的预测能力。

图5 预后模型的外部验证Fig.5 External verification of the prognosis model

2.7 Wnt信号通路相关基因在GC临床样本中表达水平的验证

为了验证GC样本中Wnt信号通路相关基因的表达水平,本研究使用qPCR检测了8对来自临床的GC组织和相应的癌旁组织中5种Wnt信号通路相关基因的表达水平。结果显示,与癌旁组织相比,GC组织中ETV 2、SERPINE1、CPZ、VPS35和IGFBP1表达均上调(P<0.05,图6)。

图6 Wnt信号通路相关基因在GC临床样本中的表达水平Fig.6 Expression of Wnt signaling pathway related genes in clinical samples of gastric cancer

3 讨 论

手术治疗仍然是GC治疗的主要方式,然而,很大一部分患者无法手术切除或已经发生广泛性转移。是否能够手术治疗取决于肿瘤的位置,例如,胃窦部GC患者可进行大体胃切除术,而有些患者则需进行全胃切除术。尽管GC的治疗有所改善,但25%~30%的患者仍会复发并最终死于该疾病,因此需要找到新的治疗靶点[11]。本研究充分证明了Wnt信号通路可能是潜在的干预靶点。目前有23项临床试验正在进行以Wnt信号通路作为治疗靶点的临床试验[10]。然而,这些试验仅针对晚期或转移性疾病,可能无法应用于治愈性手术切除癌变组织的患者,这也是未来特别重要的研究方向。本研究筛选出来的关键 分 子,如ETV 2、SERPINE1、CPZ、VPS35和IGFBP1,与患者的预后密切相关。本研究基于关键分子建立了预后风险模型,生存曲线和ROC曲线显示,该模型可以准确预测GC患者预后。临床单因素和多因素COX分析显示,该模型可以独立于GC患者分级分期系统成为独立预后因素。通过检测GC临床样本中Wnt信号通路相关基因的表达水平发现,GC组织中上述基因表达较癌旁组织上调。

研究表明,Ets变体2(ETV 2)在造血系统的发育过程中起到非常重要的调节作用,作为重要的转录因子,能够调控干细胞等的分化过程[12]。ETV 2在肿瘤血管新生中有重要的作用。有研究报道,抑制ETV 2可以减少肿瘤血管生成和疾病进展[13]。液泡蛋白分选蛋白35(VPS35)在帕金森病发生发展过程中有很关键的影响[14]。在GC和结直肠癌中VPS35的缺失较为常见,VPS35的缺失与肿瘤的发生可能是通过影响微卫星不稳定状态导致的[15]。SERPINE1基因能够编码纤溶酶原激活物抑制剂1(PAI-1),PAI-1可以抑制尿激酶型纤溶酶原激活物(uPA)系统的激活,而uPA在肿瘤发生中起关键作用。有证据表明,与正常组织相比,SERPINE1在GC组织中上调;SERPINE1水平升高与GC患者的不良临床特征和不良预后显著相关,这表明SERPINE1在GC发生中具有促肿瘤作用[16-17]。胰岛素样生长因子结合蛋白1(IGFBP1)在GC的临床病理学和预后中均有重要的提示作用。一项对219例接受手术治疗的GC患者的研究表明,IGFBP1表达与临床病理和肿瘤转移均有很好的相关性[18]。羧肽酶是含锌的外肽酶,其能够催化蛋白质和去除C末端氨基酸。羧肽酶N/E亚家族的成员是依赖其底物特异性的选择性酶,被认为在细胞间肽信使的加工中发挥作用。羧肽酶Z(CPZ)属于羧肽酶N/E亚家族。CPZ能够去除蛋白质羧基末端的碱性氨基酸,特别是精氨酸残基。研究表明,CPZ的表达上调与Wnt信号通路的激活相关,但是其在GC中的研究还较少[19]。总之,本研究中Wnt信号通路相关基因与肿瘤进展密切相关。

本研究从生物信息学角度进一步确定了Wnt信号通路在GC发生发展过程中起着重要作用,筛选出Wnt信号通路相关基因并得到相应的预后模型,通过生存分析和外部数据进行验证,证明了该模型的准确性,同时证明该模型可作为GC患者的独立预后因素。此外,在GC临床样本中检测GC组织和癌旁组织Wnt信号通路相关基因的表达,发现上述基因在GC组织中表达上调。本研究通过生物信息学和相关实验,为GC的基础研究提供重要靶点,如ETV 2、SERPINE1、CPZ、VPS35和IGFBP1等关键分子,可能作为GC诊断及治疗的新靶点;建立的模型可优化预后评估手段,可作为咨询及指导GC患者临床决策的重要辅助工具,为患者的个体化综合治疗提供参考。但本研究尚存在不足:①TCGA和外部数据集GSE84437是国外的GC数据,缺乏大样本的中国GC数据;②模型筛选的基因没有进一步基础验证,需要后续研究进一步证实;③临床验证的样本量较少,没有验证其表达量与血管侵犯、淋巴结转移和远处转移的关系。因此,尚需更多的临床试验及基础实验进一步验证支持。

猜你喜欢
通路曲线信号
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
未来访谈:出版的第二增长曲线在哪里?
完形填空二则
信号
梦寐以求的S曲线
曲线的华丽赞美诗
高处信号强
数学问答