马俊,吴霞,宫伟,李涛
生物信息学相关数据库在肿瘤研究中的应用
马俊,吴霞,宫伟,李涛
523808 东莞,广东医科大学广东省医学分子诊断重点实验室
肿瘤是一种多因素参与的复杂疾病,从正常细胞变为肿瘤细胞的过程中有多个步骤,包括逃避免疫攻击、能量代谢重建、诱导血管生成等[1],这些步骤构成了一个复杂的信号调控网络,因此肿瘤的研究需要从整体上、不同时间、空间上进行观察。在肿瘤研究的过程中,不同肿瘤之间、同一肿瘤不同的分布位置、病程时间、研究时所使用的方法及材料等的不同,均会得到数据量庞大又不同的研究结果,这加大了肿瘤研究的难度。生物信息学在肿瘤研究中以计算机为工具,利用信息学技术,对各类数据进行收集、整理和分析[2]。它的出现从不同应用角度收集和整理了大量的现行肿瘤研究结果,并根据需要的不同构建了各种功能不同的数据库,利用这些数据库来进行肿瘤研究丰富了我们的研究手段。下面简要介绍一些肿瘤研究中的常用数据库及应用案例。
癌症基因组图谱[3](The Cancer Genome Atlas,TCGA)是由美国国立癌症研究院(National Cancer Institute,NCI)以及国立人类基因组研究院(National Human Genome Research Institute,NHGRI)在 2006 年启动的,该项目使用大规模测序技术为主的基因组分析技术,旨在完成一套完整的与所有癌症基因组改变相关的“图谱”,从而帮助人们从基因组的角度深入了解肿瘤的分子机制以及提高诊断、治疗肿瘤的能力。
TCGA 以预后不良、公共危害较大以及能否获取到符合要求的组织样本为入选标准,收录范围从最开始的 2 种扩大到目前的 33 种肿瘤,涵盖 11 000 例患者。组织收集站点负责收集患者自愿捐赠的肿瘤组织及正常组织样本。然后由生物样本核心资源中心的研究人员按照严格的标准(例如足够的样本量、未经过化疗、组织中超过 60% 的肿瘤细胞等)核实样本的质量和数量以及采集临床资料、提取组织的 DNA 和 RNA 等。样本的 DNA 和 RNA 被分别送到基因组测序中心和基因组鉴定中心进行大规模测序和多平台分析,产生关于肿瘤基因组和结构变化的基因表达数据、DNA 拷贝数变化、miRNA 数据、外显子测序、全基因组测序等数据。数据整合中心和肿瘤基因组学中心负责对这些数据进行收集、存储和整理。目前,TCGA 的所有数据被整合到了 NCI 的基因组数据共享中心(genomic data commons,GDC)。GDC 是一个肿瘤研究的数据共享平台,供研究人员检索、下载、分析包括 TCGA 在内的肿瘤基因组数据并为数据分析提供额外资源。通过关键词直接检索或者以“基因名称”、“样本编号”等为主题,增加附加条件进行检索,检索结果按照检索条件以列表和图表的形式进行展示。基于这些肿瘤基因组数据,目前已经取得了许多成果。例如科学家利用胃癌遗传改变的不同,将胃癌分成了新的四个亚型,这种更精确的分类将更有利于精准的靶向治疗[4]。
基因表达数据库(Gene Expression Omnibus,GEO)是美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)负责管理和维护的公共数据库,可以存储和分享研究者提交的微阵列、新一代测序以及其他形式的高通量基因组数据[5]。
GEO 将提交的原始数据分为 3 个角度:平台、样本和系列。平台记录是描述获取实验数据的技术、方法的信息,以 GPLxxx 表示;样本记录描述样品信息、来源、处理单个样品的条件、所经历的操作以及从中得到的测量结果,每个样本只能引用一个平台但可包含在多个系列中,用 GSMxxx 表示;系列表示出于某个研究目的,将一组相关样本集合在一起进行组内分析比较,包含实验设计、分析文件等信息,用 GSExxx 表示。这些数据的一部分被 GEO 管理人员整理成了数据集记录,用 GDSxxx 表示,它代表着生物学和统计学上可进行比较的样本集合,并且构成了 GEO 数据显示和分析功能的基础,比如基因表达差异的分析和聚类热图等。GEO 表达谱,存储源于数据集中某一样本的某个基因的表达。如果要对尚未整理进 GDS 的原始系列记录进行分析,可以使用 GEO 提供的在线分析工具 GEO2R,它是一款对系列记录即时分析的程序,可以鉴定跨实验条件下差异表达的基因[6]。所有的这些数据都可以通过关键词进行检索、在线分析或者下载相关数据。伴随着近 20 年的发展,截至 2018 年 3月,GEO 中已经收录了18 535 个平台记录,2 781 547 个样本记录和 107 710 个系列实验记录。利用 GEO 提供的大量数据,研究者可通过挖掘感兴趣的信息进行肿瘤研究。如Chen 等[7]通过 GEO 数据库的鼻咽癌数据集,分析出差异表达基因,利用基因本体数据库(gene ontology,GO)和京都基因与基因组百科全书数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)对差异基因进行富集分析,初步筛选出了鼻咽癌发病机制中可能的关键基因及通路。Hu 等[8]通过 GEO 数据库的胰腺癌数据集,提供了一个了解胰腺癌发生分子机制的全面视角和潜在的治疗靶点。
京都基因与基因组百科全书(KEGG)是一个在计算机上以基因组信息和化学信息为基本元素,结合代表它们之间相互作用、反应和关系网络的系统信息来理解生物系统高级功能的数据库[9],是生物系统的计算机模拟。Pathway 数据库作为最常用的子数据库,通过已发表的文献手动绘制了一系列的通路图来代表细胞和生物体的高级功能[10-11]。Pathway 第一层由代谢、基因信息、环境信息、细胞过程、生物体系统、人类疾病、药物开发七个方面组成,这七个方面向下构成的更为精细的亚结构为第二层,第三层即以通路图的形式展示细胞或生物系统的分子相互作用、反应和关系网络。Pathway 数据库有助于研究者将不同基因信息放到细胞(生物系统)中相互作用的关系网络中来进行研究,以此获得不同基因间的关系、调控信息或某个关系网络中的参与基因。肿瘤研究中,最常用的是对差异表达基因的 pathway 分析,即利用统计学的方法寻找兴趣基因显著富集的 KEGG 通路。如在一项乳腺癌的研究中,研究者对 585 个差异表达基因进行 KEGG 通路富集分析,发现其显著富集在核糖体、肿瘤转录失调等通路[12],这些结果对研究人员进一步的研究具有重要的指导意义。
基因本体数据库(GO)是关于基因及其产物功能知识的综合资源数据库,旨在产生一个结构化、精确定义、受控的词汇表,用于描述基因和基因产物在任何生物体中的作用。它主要有两个部分组成:基因本体和基因本体注释。基因本体是给定领域内知识体系的正式形式,由一套描述基因和产物生物功能及其彼此之间关系的标准术语构成,GO 代表的领域由细胞组分(基因产物执行功能的细胞结构的相对位置)、分子功能(基因产物进行的分子级活动)、生物学过程(多种分子活动构成的“生物程序”)三个本体构成。表现为有向无环的分层结构,每个术语构成一个节点,节点之间的关系构成边,随着子术语层次的加深,它们描述的也更加精准。GO 注释是通过手动或自动化的方法将基因及其产物与描述它们的 GO 术语关联在一起的过程,在这个过程中需要证据支撑,证据可以是参考文献、其他数据库的论据等。目前 GO 知识库收录了 140 000 篇已经发表论文的实验结果,代表超过 600 000 个实验支持的 GO 注释[13-14]。在肿瘤研究中,最常用到的是差异表达基因的“GO 富集分析”,即利用统计学的方法确定功能存在交集的相关基因集合,从而将若干基因的改变归纳成更少的生物学功能,从而有可能去理解基因改变的意义。例如,在一项肝癌的研究中,研究者通过 GO 功能富集分析发现 13 个基因在与癌症发生和进展相关的生物学过程中有显著富集,比如凋亡过程、胞内信号转导调节、细胞周期等[15],这些结果为研究者提供了参考。
肿瘤预后的预测对临床治疗方法的制定、预后的判断以及阐明肿瘤的发生机制具有重要的意义。Wu 等[16]通过分析 GEO 和 TCGA 的胃腺癌 mRNA 数据,发现胃腺癌组织中编码 MATN3 的 mRNA 水平显著比正常组织高,进一步通过 Kaplan-Meier 生存分析和 Cox 回归分析发现 MATN3 mRNA 表达高的胃癌患者无病生存率和总体生存率显著降低,因此 MATN3 的过表达可以用作胃腺癌患者不良预后的独立预测因子。同样,Zhang 等[17]通过免疫组化实验发现含黄素单加氧酶 5(FMO5)在结肠癌组织中高表达,并进一步在 TCGA 数据库验证了 FMO5 mRNA 高表达,后续利用 Kaplan-Meier 生存分析和 Cox 回归分析评估 FMO5 的高表达与预后之间的关系,结果发现 FMO5 的高表达可能在结直肠癌发生和远处转移中起作用,并且可以作为结肠癌预后的独立预测因子。由于单因子预测的能力具有一定局限,Liang 等[18]在胰腺癌的研究中利用 TCGA 数据库的 175 例胰腺癌样本的 miRNA 测序数据和临床数据,构建多变量 COX 回归分析模型评估每一个 miRNA 与总体生存率之间的关系,构建了一个包括 5 个 miRNA 的预测组合,提高了胰腺癌患者预后预测的可靠性。
肿瘤化疗耐药常常导致治疗失败,研究化疗耐药的机制,开发出新的治疗策略,提高患者的生活质量是目前亟待解决的问题。通过利用不同功能的数据库以及结合实验分析是一种重要的研究方法。Sun 等[19]分析 TCGA 数据库中的胰腺癌 miRNA 测序数据发现胰腺癌组织中的 miR-374b-5p表达显著降低,后续通过体外实验发现 miR-374b-5p 通过靶向胰腺癌细胞中的几种抗细胞凋亡蛋白使胰腺癌肿瘤细胞对化疗药物敏感,表明 miR-374b-5p 的表达下调可能是胰腺癌化疗耐药导致预后不良的原因。与之类似,Wei 等[20]从 GEO 数据库下载了 86 例卵巢癌患者接受化疗后的 miRNA 表达数据,在线工具 GEO2R 分析出了化疗应答和无应答两组之间的 6 个差异表达 miRNA。随后用 TargetScan 预测出 317 个潜在的靶基因,通过构建它们的蛋白互作网络得到了 6 个潜在关键基因 PIK3R5、PTEN、MAPK3、S1PR3、BDKRB2、NCBP2。对其进行 GO 和 KEGG 富集分析,发现 PIK3R5 和 MAPK3 与卵巢癌化疗耐药的多个生物学过程密切相关,这表明 PIK3R5、MAPK3 可能在卵巢癌化疗耐药中起重要作用。Xue 等[21]利用 GEO 数据库分析前列腺癌多西紫杉醇耐药细胞系的差异表达 LncRNA 和 mRNA,结合体外建模和细胞实验,确定了 MALAT1-miR-145-5p-AKAP12 的调控关系,阐明了长链非编码 RNA MALAT1 的过表达抑制miR-145-5p 从而导致 mRNA AKAP12 水平增加,最终导致前列腺癌细胞对多西紫杉醇耐药。
肿瘤转移是恶性肿瘤的主要特征之一,也是引起癌症患者死亡的重要因素,研究肿瘤转移机制,对于制定转移防治策略、延长患者生命具有重大意义[22]。Xu 等[23]从 TCGA,GEO 数据库下载了肾细胞癌的微阵列数据和 RNA 测序数据,然后分为两个队列,一个队列以正常组织为对照,一个队列以原发肾细胞癌组织为对照。结果发现 LncRNA DUXAP8 的表达水平在肾细胞癌组织、转移性肾细胞癌组织中均显著上调,而且 Kaplan-Meier 生存分析发现较高的 DUXAP8 表达水平与肾细胞癌患者总生存率时间较短有关,体外试验表明,DUXAP8 高表达可能通过增强癌细胞的侵袭能力而导致肿瘤转移。Chen 等[24]利用了同样的方法,在结肠癌的研究中通过分析结肠癌肝转移组织和原发组织的 LncRNA 表达谱,发现了肝转移相关 LncRNA LUCAT1,进一步体外实验证实了 LUCAT1 可能通过促进细胞侵袭而在结肠癌肝转移中起作用。而 Tian 等[25]通过分析来自 TCGA 数据库的肺鳞癌转移组织与原发组织的差异表达 mRNA,然后进行加权基因共表达网络分析、蛋白质相互作用网络分析、GO、KEGG 富集分析以及 qRT-PCR 分析差异表达基因的生物学功能,最后发现 CFTR、SCTR、FIGF 几个基因与肺鳞癌转移的病理学过程关系密切。
灵活运用现有不同的数据库进行肿瘤研究,不仅能够使研究者充分利用现有结果为其研究提供参考,而且还能降低研究成本提高研究效率加深对肿瘤的认识。但是其中也存在一些不足,例如一些数据库所提供的在线分析功能相对较单一,收录的临床信息还不够全面以及各相关数据库之间的联系与整合还可进一步加强。伴随这些问题的改进与完善,将会减少研究者工作量,进一步扩大数据量,为肿瘤研究者提供更多的帮助,从而推动肿瘤研究的深入。
[1] Hanahan D, Weinberg RA. Hallmarks of cancer: the next generation. Cell, 2011, 1(5):646-674.
[2] Luscombe NM, Greenbaum D, Gerstein M. What is bioinformatics? A proposed definitionand overview of the field. Methods Inf Med, 2001, 40(4):346-358.
[3] Tomczak K, Czerwińska P, Wiznerowicz M. The cancer genome atlas (TCGA): an immeasurable source of knowledge. Contemp Oncol (Pozn), 2015, 19(1A):A68-A77.
[4] Cancer Genome Atlas Research Network. Comprehensive molecular characterization of gastric adenocarcinoma. Nature, 2014, 513(7517): 202-209.
[5] Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Res, 2013, 41(Database issue):D991-D995.
[6] Clough E, Barrett T. The gene expression omnibus database. Methods Mol Biol, 2016, 1418:93-110.
[7] Chen F, Shen C, Wang X, et al. Identification of genes and pathways in nasopharyngeal carcinoma by bioinformatics analysis. Oncotarget, 2017, 8(38):63738-63749.
[8] Hu B, Shi C, Jiang HX, et al. Identification of novel therapeutic target genes and pathway in pancreatic cancer by integrative analysis. Medicine (Baltimore), 2017, 96(42):e8261.
[9] Kanehisa M, Goto S. KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res, 2000, 28(1):27-30.
[10] Kanehisa M, Sato Y, Kawashima M, et al. Kegg as a reference resource for gene and protein annotation. Nucleic Acids Res, 2016, 44(D1):D457-D462.
[11] Kanehisa M, Furumichi M, Tanabe M, et al. Kegg: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res, 2017, 45(D1):D353-D361.
[12] Fang E, Zhang X. Identification of breast cancer hub genes and analysis of prognostic values using integrated bioinformatics analysis. Cancer Biomark, 2017, 21(1):373-381.
[13] Ashburner M, Ball CA, Blake JA, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25(1):25-29.
[14] The Gene Ontology Consortium. Expansion of the gene ontology knowledgebase and resources. Nucleic Acids Res, 2017, 45(D1): D331-D338.
[15] Wang J, Zhou Y, Fei X, et al. Integrative bioinformatics analysis identifies ROBO1 as a potential therapeutic target modified by miR-218 in hepatocellular carcinoma. Oncotarget, 2017, 8(37):61327- 61337.
[16] Wu PL, He YF, Yao HH, et al. Martrilin-3 (matn3) overexpression in gastric adenocarcinoma and its prognostic significance. Med Sci Monit, 2018, 24:348-355.
[17] Zhang T, Yang P, Wei J, et al. Overexpression of flavin-containing monooxygenase 5 predicts poor prognosis in patients with colorectal cancer. Oncol Lett, 2018, 15(3):3923-3927.
[18] Liang L, Wei DM, Li JJ, et al. Prognostic microRNAs and their potential molecular mechanism in pancreatic cancer: a study based on the cancer genome atlas and bioinformatics investigation. Mol Med Rep, 2018, 17(1):939-951.
[19] Sun D, Wang X, Sui G, et al. Downregulation of miR-374b-5p promotes chemotherapeutic resistance in pancreatic cancer by upregulating multiple anti-apoptotic proteins. Int J Oncol, 2018, 52(5):1491-1503.
[20] Wei S, Wang Y, Xu H, et al. Screening of potential biomarkers for chemoresistant ovarian carcinoma with miRNA expression profiling data by bioinformatics approach. Oncol Lett, 2015, 10(4):2427-2431.
[21] Xue D, Lu H, Xu HY, et al. Long noncoding RNA MALAT1 enhances the docetaxel resistance of prostate cancer cells via mir-145-5p- mediated regulation of AKAP12. J Cell Mol Med, 2018, 22(6):3223- 3237.
[22] Liu Y, Cao X. Characteristics and significance of the pre-metastatic Niche. Cancer Cell, 2016, 30(5):668-681.
[23] Xu X, Xu Y, Shi C, et al. A genome-wide comprehensively analyses of long noncoding RNA profiling and metastasis associated lncRNAs in renal cell carcinoma. Oncotarget, 2017, 8(50):87773-87781.
[24] Chen Y, Yu X, Xu Y, et al. Identification of dysregulated lncRNAs profiling and metastasis-associated lncRNAs in colorectal cancer by genome-wide analysis. Cancer Med, 2017, 6(10):2321-2330.
[25] Tian F, Zhao J, Fan X, et al. Weighted gene co-expression network analysis in identification of metastasis-related genes of lung squamous cell carcinoma based on the Cancer Genome Atlas database. J Thorac Dis, 2017, 9(1):42-53.
国家自然科学基金(31171351)
李涛,Email:59889906@qq.com
2018-10-16
10.3969/j.issn.1673-713X.2019.01.014