周 川,马 雪,邢云昆,李璐迪,陈 洁,姚碧云,傅娟玲,赵 鹏
(北京大学公共卫生学院毒理学系,食品安全毒理学研究与评价北京市重点实验室,北京 100191)
据世界卫生组织统计,2018年全球新发肿瘤病例约180万,全球肿瘤死亡病例约950万[1]。全球肿瘤发病和死亡形势严峻,亟待寻找对肿瘤的预防和治疗可以提供帮助的生物标志物,然而,很多研究因样本量小、统计效力低和可重复性差等问题,研究结果的利用受到限制[2]。随着肿瘤基因组学研究的不断深入,肿瘤分子生物学研究已经逐步进入泛癌(pan-cancer)研究阶段。泛癌研究指同时对多种不同类型的肿瘤基因组进行分析,以寻找不同来源肿瘤的共同特征,帮助人们更好地认识肿瘤,为多种肿瘤的临床诊断和治疗提供广谱靶点[3]。
肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)是一项肿瘤基因组计划,2006年由美国国家癌症研究所和美国国家人类基因组研究所发起,旨在利用高通量基因组分析技术帮助人们更好地了解肿瘤并提高预防、诊断和治疗肿瘤的能力[4]。目前,TCGA已经包含测序结果、转录组分析、拷贝数变异、DNA甲基化和单核苷酸变异等信息,涵盖33种肿瘤类型,在泛癌研究方面具有优势。肿瘤生物标志物(包括蛋白酶类、肿瘤特异性抗原、癌基因和抑癌基因等)在诊断、治疗和预后评估等方面发挥重要作用。近年来,微小RNA(microRNAs,miRNAs)作为肿瘤生物标志物的作用也受到关注[5]。本研究旨在基于TCGA数据库筛选和鉴定潜在泛癌生物标志物,以期为多种肿瘤的诊断和预后评估提供帮助,并为发展肿瘤治疗的广谱靶点提供线索。
利用“GDC Data Transfer Tool”以及“GDCRNATools”软件包[6]获取TCGA数据库“基因表达定量”、“miRNA表达定量”和“临床数据”,分别用于基因分析、miRNAs分析和生存分析,其中基因表达指转录水平。用于本研究的数据截止至2020年7月30日。
获取TCGA数据库后先进行数据整理,剔除干扰研究结果的重复样本、非原发性肿瘤样本和非实体组织正常样本。为确保研究结果的可信度,剔除对照数<10个的项目组,最终纳入研究的项目组共13个,涉及的肿瘤包括:膀胱尿路上皮癌、浸润性乳腺癌、头颈鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、前列腺癌、胃癌、甲状腺癌和子宫内膜癌(表1)。
表1 纳入研究的TCGA项目组信息Table 1 Information of the TCGA projects included in the study
以错误发现率(false discovery rate,FDR) <0.05且差异倍数(fold change,FC) >1.5作为基因和miRNAs差异表达标准,筛选在13种肿瘤中均上调或下调的基因和miRNAs。利用受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)的曲线下面积(area under the curve,AUC)、最佳截断值对应的灵敏度和特异度反映诊断价值,利用生存分析反映预后评估价值。对差异表达基因进行GO (Gene Ontology)、KEGG (Kyoto Encyclopedia of Genes and Genomes)富集分析及调控网络分析。
利用R 3.5.3软件对数据进行统计学分析和图表绘制。聚类分析均使用欧氏距离作为统计量,以最长距离进行聚类。生存分析中,将样本按中位数分为高表达组和低表达组,然后以Kaplan-Meier法计算生存概率,进行对数秩(log-rank)检验并计算风险比(hazard ratio,HR)。GO和KEGG富集分析使用DAVID工具完成[7],调控网络分析使用STRING[8]和TargetScan[9]工具完成。P<0.05为差异有统计学意义。
经过筛选,共有48个基因和2个miRNAs在13种肿瘤中均差异表达,其中25个基因均表达上调,23个基因和2个miRNAs均表达下调(图1)。
BLCA,bladder urothelial carcinoma;BRCA,breast invasive carcinoma;HNSC,head and neck squamous cell carcinoma;KICH,kidney chromophobe;KIRC,kidney renal clear cell carcinoma;KIRP,kidney renal papillary cell carcinoma;LIHC,liver hepatocellular carcinoma;LUAD,lung adenocarcinoma;LUSC,lung squamous cell carcinoma;PRAD,prostate adenocarcinoma;STAD,stomach adenocarcinoma;THCA,thyroid carcinoma;UCEC,uterine corpus endometrial carcinoma;FC,fold change;miR,microRNA.图1 差异表达基因和microRNAs的差异倍数Figure 1 Fold change of differentially expressed genes and microRNAs
利用ROC曲线的关键参数反映差异表达基因和miRNAs在13种肿瘤中的诊断价值,结果显示,多数差异表达基因和miRNAs区分病例和对照的能力较好,AUC、灵敏度和特异度可达0.8~0.9(图2)。
生存分析结果如图3所示,差异表达基因和miRNAs与多种肿瘤患者生存呈显著相关,多数上调基因是患者生存时间的危险因素(HR>1),多数下调基因是患者生存时间的保护因素(0
对上调和下调基因进行GO和KEGG富集分析,结果显示,差异表达基因主要富集于与细胞增殖有关的生物学事件,包括姐妹染色单体凝结、细胞分裂、有丝核分裂等生物过程,核质、纺锤体、微管等细胞组分,微管结合、三磷腺苷(adenosine triphosphate,ATP)结合、微管运动活性等分子功能,细胞周期等KEGG通路(图4、5)。对差异表达基因和miRNAs进行调控网络分析发现,共13个基因和2个miRNAs存在调控和相互作用关系(图6)。
图6 差异表达基因与microRNAs调控网络Figure 6 Regulatory network of differentially expressed genes and microRNAs
随着对肿瘤机制的研究不断深入,肿瘤已普遍被认为是一种基因组疾病,本世纪开始兴起的组学技术可以加快获得候选生物标志物的进程[10]。本研究基于TCGA数据库,共发现了48个基因和2个miRNAs在多种肿瘤类型中均差异表达。
差异表达基因和miRNAs可能为多种肿瘤的诊断和预后评估提供帮助,是潜在的泛癌生物标志物。MKI67是一种广泛应用的细胞增殖标志物,已用于乳腺癌的增殖评估、预后评估和辅助治疗选择等方面,并有望成为治疗靶点[11]。本研究发现,MKI67在13种肿瘤中均表达上调,在乳腺癌、肺鳞状细胞癌和膀胱癌中约登指数(Youden index)可达0.8以上,同时是肝癌、肺腺癌、子宫内膜癌、肾透明细胞癌和肾乳头状细胞癌患者生存时间的危险因素,提示除乳腺癌外,MKI67亦可能用于上述肿瘤的增殖、预后评估以及辅助治疗选择等。BTG2作为抗增殖基因,在细胞分裂、DNA修复、转录调控和mRNA稳定性等方面均发挥重要作用,其表达下调通常与肿瘤细胞恶性程度和不良结局相关[12]。本研究发现,BTG2在13种肿瘤中均表达下调,在肺腺癌、肺鳞状细胞癌、膀胱癌和肝癌中能较好地区分病例和对照,是肺腺癌、膀胱癌、前列腺癌、肾嫌色细胞癌和肾透明细胞癌患者生存时间的保护因素,提示该基因具有潜在的临床应用价值。
本研究发现的部分潜在泛癌生物标志物已有文献证实,而针对其他诊断和预后评估能力较好的潜在泛癌生物标志物,可利用基于子集的关联分析等方法进行关联性和异质性整合分析,以进一步揭示其在不同肿瘤中的作用[13]。
不同类型的肿瘤常具有不同的基因和miRNAs表达模式,同一基因或miRNA在不同肿瘤中的作用也可能有所差异,是肿瘤异质性的体现。探索不同组织和器官来源的肿瘤在其发生和发展过程中的核心机制将为肿瘤诊断和治疗提供广谱靶点,也将有助于将常见肿瘤的诊断和治疗方法应用于相对罕见的肿瘤[10]。本研究GO和KEGG通路富集分析发现,差异表达基因多与细胞增殖有关,这与肿瘤细胞持续增殖的生物学特性相一致[14]。调控网络分析显示,miR-139-3p作为网络中心参与调控E2F1、CENPF和CENPM等基因的表达。E2F1是细胞周期调控的关键转录因子,在G1期细胞通过限制点进入S期的过程中不可或缺,而miR-139-3p下调可能是肿瘤普遍存在E2F1异常活化的重要原因[15]。CENPF和CENPM编码着丝粒蛋白家族成员,其表达上调与肿瘤发生、不良预后和转移均有关[16-17]。因此,以miR-139-3p为中心的差异表达基因调控网络可能作为一种普遍机制在肿瘤发生和发展中起重要作用,深入的机制研究可能为肿瘤防治提供潜在的干预和治疗靶点。
综上所述,在13种肿瘤中均差异表达的48个基因和2个miRNAs可能作为潜在的泛癌生物标志物为多种肿瘤的诊断和预后评估提供帮助,并为发展肿瘤治疗的广谱靶点提供线索。