余志龙,童山石,姜可伟
1.北京大学人民医院胃肠外科 北京大学人民医院外科肿瘤研究室 结直肠癌诊疗研究北京市重点实验室,北京 1000442;2.上海交通大学医学院附属仁济医院胆胰外科,上海 200127
胰腺癌是消化系统常见的恶性肿瘤之一,致死率排在世界恶性肿瘤的第7位,预计在2030年将成为恶性肿瘤的第二大死因[1-2]。胰腺癌起病隐匿,病程早期缺乏特异性临床体征,容易发生转移,恶性程度高,其病理类型主要为腺癌。预后差,5年生存率小于10%[3]。以腹痛为首发症状就诊的部分病人往往已经发生了明显的远处转移,错失手术机会。因此,深入探究胰腺癌生物学发生发展机制,寻找理想的药物分子靶点与预后分子标志物对胰腺癌的早期诊断与治疗意义重大[4-5]。转录因子19(transcription factor 19,TCF19)与结直肠癌、非小细胞肺癌、肝癌等几种恶性肿瘤的发生发展有关[6-8]。目前TCF19在肿瘤中的报道和研究较少,其在胰腺癌中的功能与作用尚不清楚。本研究检索了多个开放的大型肿瘤数据库,深入挖掘胰腺癌中TCF19的表达水平,探究其与胰腺癌病人临床预后之间的关系,分析TCF19与胰腺癌肿瘤免疫微环境之间的关系,构建TCF19相关基因的预后模型,为胰腺癌中潜在的TCF19靶点治疗提供理论支持。
179例胰腺癌组织与4例正常胰腺组织的基因表达谱数据和相应的临床资料取自癌症基因组图谱(TCGA)数据库(www.tcga.org/),从基因型-组织表达(the genotype-tissue expression,GTEx)数据库中获取167例胰腺正常组织的基因表达谱数据(www.gtexportal.org/),并将两个数据库中的胰腺正常组织进行合并。
1.Oncomine(www.oncomine.org) Oncomine数据库是世界上规模较大的癌基因芯片数据库[9]。从Oncomine数据库中胰腺癌提取TCF19数据,设置筛选条件为:(1)Gene:TCF19;(2)Analysis Type:Tumor tissue and normal tissue;Critical condition:P<0.01,FOLD change>2与GENE BANK=TOP 10%。
2.GEPIA(http://gepia.cancer-pku.cn/) GEPIA是由北京大学开发的建立在TCGA与GTEx基础上的数据分析平台[10]。设定目的基因TCF19,下载TCF19在胰腺癌组织的表达情况与预后相关数据。设置搜索条件为:(1)Gene: TCF19;(2)Datasets selection:PAAD(pancreatic adenocarcinoma,胰腺腺癌)。
3.UALCAN(http://ualcan.path.uab.edu/) UALCAN是一种操作简洁的用于分析挖掘包括TCGA和 MET500数据库在内的肿瘤转录组数据的网站工具[11]。设置搜索条件为:(1)Gene:TCF19;(2)TCGA dateset:PAAD。
4.Kaplan-Meier plotter(K-M plotter,https://kmplot.com/) K-M plotter是一个基于荟萃分析的生存生物标志物发现和验证的工具。登录K-M plotter, 设置搜索条件为:(1)Cancer: PAAD; (2)Gene:TCF19;(3)Survival: overall survival;(4)Follow up threshold: all。对K-M plotter中的数据进行分析处理。
5.MethSurv(https://biit.cs.ut.ee/methsurv/) MethSurv是一个研究基因甲基化位点与预后的相关性的数据库。搜索的关键条件为:(1)TCGA cancer datasets:PAAD;(2)Gene:TCF19。
6.TISIDB(http://cis.hku.hk/TISIDB/) TISIDB是一个研究肿瘤和免疫系统相关作用的网站[12]。本研究探究胰腺癌中与TCF19表达相关的基因和TCF19的潜在靶点。在TISIDB数据中的设置条件为Gene Symbol:TCF19(PAAD)。
7.TIMER(https://cistrome.shinyapps.io/timer/) TIMER数据库是用于一个能够分析各种癌症类型的免疫浸润的网站式数据库,通过相关的算法计算得到6种免疫浸润细胞(B淋巴细胞、CD4+T细胞、CD8+T细胞、嗜中性粒细胞、巨噬细胞和树突状细胞)与目的基因之间的相关性[13]。设置参数如下:(1)Gene Symbol:TCF19;(2)Cancer Types:PAAD;(3)Immune Infiltrates:B cells, CD4+T cells, CD8+T cells, Neutrophils, Macrophages and Dendritic cells。
8.LinkedOmics(http://www.linkedomics.org/) LinkedOmics是一个开放的包含了TCGA中32种肿瘤与临床蛋白质组学肿瘤分析协会(CPTAC)的数据分析平台。在LinkedOmics数据库中的设置条件如下:(1)Cancer type:PAAD;(2)SELECT SEARCH DATASET:RNA-seq;(3)SELECT SEARCH DATASET ATTRIBUTE: TCF19;(4)SELECT TARGET DATASET:RNAseq;(5)SELECT STATISTICAL METHOD:pearson analysis。在界面中选择LinkFinder模块,出现UGT1A6表达相关的基因。TCF19相关基因的阈值设置为:P<0.05,Pearson系数>0.5或<-0.5。
9.生物信息学数据库提取数据 从UCSC-Xenc下载TCGA-PAAD数据集(包括基因表达数据与临床数据)与GTEx数据库中正常胰腺组织的基因表达量,将每个样本的FPKM数据转化为TPM形式,其中TCGA中的胰腺癌数据集作为预测模型的训练组。从GEO数据库中下载GSE28735与GSE62452数据集,合并两个数据集为预测模型的验证组。
利用R软件中的Limma软件包对下载的数据进行分析,筛选出胰腺癌与正常胰腺组织的差异表达TCF19相关基因(differentially expressed TCF19-related genes,DETRGs),筛选条件为log FoldChange>1或<-1,P<0.05。随后对差异基因进行单因素Cox回归分析(阈值:P<0.05),得到与胰腺癌病人总生存时间相关的DETRGS。为了减少过拟合,我们将单因素Cox回归分析得到的DETRGS进行LASSO分析。接下来将LASSO分析以后的基因纳入多因素Cox回归分析中,建立预后风险评分模型。模型可以计算每个病人的风险数值,根据风险数值的中位数将病人分为高风险组、低风险组,通过K-M法比较各组之间的预后差异。随后,计算受试者工作特征(ROC)曲线,评估该预后模型的有效性并计算曲线下面积(AUC)。
所有用于统计分析的R程序包均通过R v4.0.4软件进行,其他生物信息分析数据统计均由所使用数据库自备统计软件完成。P<0.05为差异有统计学意义。
在Oncomine数据库中限定搜索词后,发现TCF19在胰腺癌组织中的表达显著高于正常胰腺组织(图1A)。利用GEPIA数据库分析TCF19在不同肿瘤中的表达差异,发现TCF19在胰腺癌中高表达(图1B、C)。随后在GEPIA数据库中对TCF19进行了K-M生存分析,TCF19升高预示更短的总生存时间与无病生存期(图1D、E)。为进一步验证TCF19的预后意义,我们通过K-M plotter再次分析TCF19在胰腺癌中表达水平与病人预后的相关性,结果证实TCF19高表达的病人死亡风险较低表达病人明显升高,这与我们从TCGA数据库中得到的结论一致(图1F、G)。
图1 转录因子19(TCF19)在不同肿瘤中的表达情况以及在胰腺癌中的预后情况 A.TCF19在Oncomine数据库中不同肿瘤组织中的表达水平差异;B.TCF19在GEPIA数据库中不同肿瘤组织中的表达水平差异;C.TCF19在GEPIA数据库中胰腺腺癌(PAAD,n=179)与正常胰腺组织(n=171)中表达水平;D.TCF19表达水平与胰腺癌病人总生存期的关系(蓝、红各2条虚线表示置信区间;GEPIA数据库);E.TCF19表达水平与胰腺癌病人无病生存期的关系(蓝、红各2条虚线表示置信区间;GEPIA数据库);F.TCF19表达水平与胰腺癌病人总生存期的关系(Kaplan-Meier plotter数据库);G.TCF19表达水平与胰腺癌病人无病生存期的关系(Kaplan-Meier plotter数据库)
我们使用MethSurv数据库对TCF19的甲基化位点在胰腺癌病人中分布情况进行全景分析与展示(图2A)。其中TCF19与胰腺癌发生发展相关的位点有11个,分别为cg03303475,cg05008570,cg05080926,cg07950252,cg10647991,cg17114475,cg20217307,cg20347648,cg21165793,cg23998635与cg24176040。这些甲基化位点与胰腺癌病人的预后密切相关(图2B~L)。
图2 胰腺癌中转录因子19(TCF19)甲基化位点与预后的关系 A.胰腺癌中TCF19甲基化位点的可视化热图(MethSurv数据库);B~L.与胰腺癌病人预后相关的11个甲基化位点
在TISIDB数据库中,我们发现在胰腺癌病人中,TCF19与免疫浸润淋巴细胞、免疫抑制因子和细胞因子均存在相关性(图3A~C)。此外,我们在TIMER数据库中探究了TCF19与不同类型肿瘤免疫浸润细胞之间的关系,结果表明TCF19与B淋巴细胞、CD8+T细胞、中性粒细胞、树突状细胞有关(图3D)。
图3 转录因子19(TCF19)的表达与肿瘤免疫浸润的关系 A~C.TCF19表达水平与肿瘤浸润淋巴细胞、细胞因子和免疫抑制因子的关系;D1~4.TCF19在胰腺腺癌(PAAD)中表达与免疫浸润细胞的关系
从LinkeDomics数据库中获得胰腺癌中与TCF19相关的基因,利用Limma软件对比了癌和非癌组织,得到85个差异基因,其中50个上调,35个下调(图4A、B)。对这85个基因进行单因素Cox回归分析,得到了52个基因与预后相关(图4C)。为了减少过拟合,我们对52个基因进行LASSO分析,得到7个基因,分别为SARM1、ANLN、CENPA、FAM111B、DLGAP5、CEP55与TPX2,见图4D、E。将这7个基因纳入多因素Cox回归分析,筛选出4个基因(ANLN、FAM111B、DLGAP5、CEP55)用于构建模型(图4F)。计算公式为RiskScore=0.013 503 88×EXPANLN+0.029 805 43×EXPFAM111B+0.024 169 21×EXPDLGAP5+0.029 069 61×EXPCEP55。根据评分的中位值,将训练组的176例病人分为高风险组(88例)与低风险组(88例)。K-M分析揭示低风险组病人相比于高风险组有更长的总生存期。ROC曲线提示该模型在训练组中有较高的预测价值(AUC=0.716),见图4G、H。随后我们将该预测模型用于验证队列进行验证,结果显示在验证队列中,低风险组比高风险组生存期更长,这与我们在训练组中得到的结论一致,ROC曲线提示该模型在验证组中的预测价值也较高(AUC=0.621),如图4I、J所示。综上所述,这些结果证实由这4个与TCF19有关基因构成的预测模型能够有效地预测胰腺癌病人的预后。
图4 转录因子19(TCF19)相关基因及其预后模型的构建 A.火山图揭示胰腺癌中258个TCF19相关基因的表达水平;B.热图展示TCF19表达水平的聚类 红色:高表达;绿色:低表达;黑色:基因在肿瘤与正常组织之间没有差异;C.单因素Cox回归模型中52个与胰腺癌预后相关的基因;D.LASSO筛选变量动态过程图;E.交叉验证参数λ的选择过程图;F.多因素Cox回归模型中4个关键基因;G.训练组中预后预测模型的受试者工作特征(ROC)曲线;H.训练组高风险组(红线)和低风险组(蓝线)Kaplan-Meier法生存曲线分析;I.验证组中预后预测模型的ROC曲线;J.验证组中高风险组(红线)和低风险组(蓝线)Kaplan-Meier法生存曲线分析
通过GEPIA数据库分析TCGA数据库中ANLN、FAM111B、DLGAP5及CEP55在胰腺癌中的表达水平,发现这4个基因在胰腺癌中均高表达(图5A)。进一步生存分析发现ANLN、FAM111B、DLGAP5、CEP55与病人的预后相关,这4个关键基因表达量越高,病人的总体生存率越低(图5B)。
图5 转录因子19(TCF19)相关基因在胰腺癌中的表达和预后情况 A1~4.4个关键基因(ANLN、FAM111B、DLGAP5、CEP55)在胰腺腺癌(PAAD,n=179)与正常胰腺组织(n=171)中的表达水平;B1~4.4个关键基因(ANLN、FAM111B、DLGAP5、CEP55)与胰腺癌病人总体生存率的关系(蓝、红各2条虚线表示置信区间)
近年来胰腺癌的发病率持续升高,而胰腺癌是一种恶性程度非常高的消化道肿瘤,早期容易发生侵袭与转移,其主要类型是胰腺导管细胞癌。虽然胰腺癌的药物治疗方法比以前有了较大的进步,但是依旧缺乏突破性的进展,总体治疗效果并不能让人满意。对胰腺癌的生物学行为进行深入研究并寻找理想的生物标志物与靶点是目前科学家们的研究重点。
TCF19在1型糖尿病发生发展和维持胰腺β细胞正常功能中起着关键作用[14]。TCF19包含一个叉头关联(FHA)域、富含脯氨酸的区域、PHD(植物同源域)或环形指域,表明TCF19能够与多个区域交互工作[15]。先前的文献报道TCF19在非小细胞肺癌、肝癌与结直肠癌中参与肿瘤的发生发展[16-18],然而目前无任何研究报道TCF19在胰腺癌中的作用与临床意义。Oncomine和GEPIA数据库是世界上大型的权威肿瘤基因芯片与测序数据库,能避免因样本数目过小、种族差异和测序方法等其他因素而导致结论的偏颇。本研究通过挖掘上述多个大型肿瘤数据库,分析TCF19在胰腺癌中的表达水平以及其与胰腺癌病人临床预后之间的关系。结果显示TCF19在胰腺癌病人中的表达水平高于正常组织。此外,通过GEPIA与K-M plotter数据库分析TCF19表达水平与胰腺癌病人临床预后之间的相关性,发现TCF19表达水平高的病人总体生存期明显缩短。
肿瘤免疫是近年来肿瘤研究领域的一个热点。本研究探索了胰腺癌中TCF19与肿瘤免疫微环境以及免疫浸润细胞之间的关系,TCF19基因与淋巴细胞、MHC、免疫刺激因子等存在相关性,进一步提示了TCF19可能与PAAD肿瘤相关免疫有关。接下来,本研究从TCGA数据库与GTEx数据库的整合队列中得到与TCF19相关的差异表达基因,依次使用单因素Cox,LASSO分析与多因素Cox构建一个由ANLN、FAM111B、DLGAP5与CEP55组成的预后模型。该模型的预测效力与稳定性在训练组与验证组均得到证实。同时,我们验证了ANLN、FAM111B、DLGAP5及CEP55关键基因在胰腺癌中高表达,且与病人的不良预后相关。
本研究主要是通过生物信息学的方法来研究TCF19在胰腺癌中的作用,缺乏相应的分子生物学实验验证。此外,TCF19在胰腺癌中表达量升高是否能促进肿瘤细胞增殖、迁移与侵袭需要进一步实验证实。
综上所述,本研究通过对多个公共数据库进行深入挖掘,分析结果显示TCF19在胰腺癌病人中高表达,并且表达水平与临床预后紧密相关,有望成为胰腺癌临床诊疗的理想靶点,为进一步研究TCF19在胰腺癌发生发展中起到的作用奠定了基础。同时,我们通过回归分析,组建了由4个TCF19相关基因构成的胰腺癌病人预后预测模型,具有较高的特异度与灵敏度,推进了胰腺癌病人个体化、精准化医疗的进展。
利益冲突所有作者均声明不存在利益冲突