生物信息学在雄激素非依赖性前列腺癌进展机制研究中的应用

2020-09-16 14:14赵琪熊鹰
现代泌尿生殖肿瘤杂志 2020年2期

赵琪 熊鹰

doi:10.3870/j.issn.1674-4624.2020.02.017

自人类基因组工程实施后,美国国立生物技术信息中心(NCBI)记录的生物信息数据呈指数级增长,由此产生了一门独特的学科——生物信息学[1]。生物信息学是一门综合计算机信息技术学、生物学、统计学等学科并应用于收集、分析和整合数据的学科,主要研究基因组、蛋白质及生物大分子的结构信息和功能组学[2]。随着大量肿瘤医学生物数据的累积,我们可利用生物信息学对各类分子从系统到个体的不同层面进行分析,从而发现其相互的功能联系[3]。

一、生物信息学在肿瘤研究中的应用

1.构建肿瘤生物信息学数据库:数据库的建立是肿瘤信息储备的关键,更是研究的基础,通过大量肿瘤样本的数据分析可以得到单个实验难以获得的规律性结论,同时为研究人员提供便捷的数据分析服务与数据共享平台[4]。目前主要的数据库有TCGA数据库[5]、CGHub数据库(https://cghub.ucsc.edu)、ICGC数据库(https://icgc.org)等综合型肿瘤数据库,也有我们经常用到的肿瘤转录组数据库,如GEO数据库[3]、Oncomine数据库[6]等,药物与肿瘤数据库有canSAR数据库[7]、CMap数据库[8]、DrugBank数据库[9]。

2.探究肿瘤生物特异性分子:在数据库中统计、收集所研究的某类型肿瘤数据信息并与对照组进行差异分析,将差异结果运用R语言等工具进行GO分析和KEGG通路分析,以及应用生物信息平台工具[如String数据库(https://string-db.org/)、Cytoscape(https://cytoscape.org/)]分析其肿瘤进展中的生物过程并找到关键信号分子,并对肿瘤进行聚类,探究新的肿瘤亚型。

3.肿瘤药物的研发:将药物生物信息学数据库(如canSAR数据库、CMap数据库、DrugBank数据库)运用于已分析出的特异性基因或蛋白分子,筛选出针对特异性蛋白分子或转导路径作用的潜在药物[10]。

4.应用于癌症的筛查:DNA高通量测序数据分析应用于潜在癌症的筛查或诊断[11]。

二、生物信息学在前列腺癌进展机制研究中的应用

目前,前列腺癌已是导致老年男性死亡的最主要原因之一,且其发病率和死亡率不断增加[12]。虽然绝大多数前列腺癌的发展及转移依赖雄激素的维持,并且抗雄激素治疗作为早期前列腺癌的一线方案已有60多年,但是这个治疗方案对大多数前列腺癌患者从雄激素依赖性发展到雄激素非依赖性状态的维持时间只有16~18个月[13]。目前,该治疗方案仍有较多不足之处,且治疗雄激素非依赖性前列腺癌(androgen independent prostate cancer, AIPC)的一线药物不多,所以对AIPC的研究仍是当前热门课题,其中结合生物信息学对AIPC的研究作为一种新的研究方式已被广泛使用,为AIPC早期诊断、治疗及预后提供了线索[14]。

1.生物信息学在基因表达水平探究AIPC发生机制的应用:近年来研究发现的新一类基因调节因子,如miRNA,其参与细胞分化、增殖、凋亡[15]。有研究表明在AIPC的转变过程中miRNA起到关键作用[16]。Ren等[17]为研究前列腺癌骨转移的特异基因,使用了生物信息学方法分析miR-210-3p与潜在靶点的关系,经生物信息学分析表明miR-210-3p通过靶向NF-κB信号传导TNIP1和SOCS1(细胞因子信号传导的抑制因子)的负调节来维持NF-κB信号传导的持续激活,导致前列腺癌细胞发生迁移和骨转移。Wan等[18]在AIPC雄激素剥夺产生耐药性发生机制的研究中发现,miR-135a是雄激素的重要靶点;通过生物信息学和体外细胞实验验证发现,miR-135a下调MMP11抑制前列腺癌转移,下调RBAK促进前列腺癌细胞周期停滞和凋亡。Yang等[19]基于TCGA数据库通过生物信息学挖掘出miR-93-5p在前列腺癌的进展中有着重要作用,发现其低表达可抑制细胞增殖、侵袭和改变AIPC细胞周期,并经体外PC3系细胞实验验证。

2.生物信息学在蛋白分子水平探究AIPC新生物标志物的应用:生物标志物作为较理想的预测临床预后的生物学分子,主要用于疾病筛查、诊断和检测[20]。目前,前列腺癌最主要的生物标志物——PSA已广泛应用于临床,但其特异性较低,容易产生假阳性[21]。为更好地了解前列腺癌新生物标志物,基于生物信息学对一些潜在的关键基因如mRNA或长链非编码RNA探究,Ai等[22]通过TCGA、GEO数据库挖掘出关键基因,通过STRING数据库关键基因与目标蛋白相匹配而得到PTK2、PTEN、TLN1这3种主要的蛋白分子,其与细胞连接、黏附和细胞骨架紧密相关。通过体外细胞实验表明PTEN缺失可促进PC3细胞系增殖[23],而抑制PTK2可延缓AIPC患者的疾病进展[24]。DNA的甲基化可能使DNA稳定性及DNA转录过程中基因表达谱改变以致蛋白质相互作用方式发生变化,其中DNA启动子高度甲基化导致肿瘤抗原因子、microRNA及肿瘤抑制因子沉默,而致癌基因上调[25]。目前基于生物信息学前列腺癌DNA甲基化研究亦是此类热点,Wu等[26]通过生物信息学方法对DNA甲基化数据集(GSE76938)和表达谱数据集(GSE29079)的基因差异富集分析发现,AKT1、PRDM10和FASN可作为肿瘤启动子,FLNA可作为前列腺癌的肿瘤抑制因子;Xu等[27]利用生物信息学分析TCGA中的甲基化RNA数据从而获得甲基化差异基因,同时利用GEO中两个甲基化表达谱(GSE112047和GSE76938)数据集来验证筛选,发现甲基化基因包括MAOB和RTP4可作为研究AIPC新生物标志物的关键基因,其生物信息学方法路线图如图1所示。

图1 前列腺癌生物信息学方法路线图

3.生物信息学在AIPC敏感药物筛选中的应用:由于雄激素依赖性前列腺癌进展到AIPC后恶性程度高、侵袭快、对传统药物的耐药性强[28],因此通过生物信息学研究潜在的敏感药物是当前的热点。药物研究过程中会产生大量数据,利用这些数据建立大型数据库可分析识别新药物靶标[29],包括CMap数据库、DrugBank数据库、canSAR数据库均是我们经常使用的药物相关数据库。将我们需要分析的基因与CMap数据库进行表达谱匹对,经统计分析挖掘出最相符的药物-疾病-基因组,结合DrugBank数据库进行药物挖掘,反馈出一个优先度高的药物名单。李铁求等[30]将AIPC关键基因与CMap数据库进行联合分析,发现药物靶基因与AIPC关键基因发生显著的交叉富集,与抑制AIPC相关基因表达有着明显的关联,这表明该药物靶基因可靠度高,并富集出相关药物—甲硫达嗪、新生霉素,经MTT法等实验方法验证这些药物对前列腺癌细胞具有一定的抑制作用。canSAR数据库也是目前在药物研发领域广为使用的数据库,canSAR将药理学、药物和化学数据、结构生物学、蛋白质网络以及全面的“药物可能性”评估相结合,为研究者在癌症与药物研发方面提供线索。Wedge等[31]根据AIPC突变基因谱挖掘出目标基因并经蛋白互作网络富集靶标蛋白,最后经canSAR数据库匹配共分析得到11个批准疗法靶点和7个调查药物靶点,包括BRAF、ESR1、RARA、RXRA、HDAC3等蛋白质,这些蛋白质均可作为临床试验中的药物靶标,而且分析出的156种蛋白有近80种是现有药物的靶标。

三、生物信息学在AIPC中应用的研究趋势

侯春宇[32]的研究中,通过蛋白质组学在生物信息学中的应用来探究PKCζ蛋白质的调节通路,其研究方法如图2所示。

图2 蛋白质组学在生物信息学中的应用路线图

BioGRID数据库用于储存和传播来自模型生物和人类的遗传和蛋白质相互作用数据,STRING数据库可用于研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,是目前覆盖物种和使用最多的数据库。CoIP-MS鉴定的PKCζ蛋白复合物中未知蛋白质组分经CRAPome过滤后,在BioGRID数据库中检索获得了PKCζ相互作用蛋白。该研究结合蛋白分子实验和蛋白质组学,通过生物信息学方法发现最具有分析价值的信号通路包括EGF、FGF、PDGF号通路[33]。Frantzi等[34]在AIPC肿瘤标志物筛查研究中发现,结合生物信息学与蛋白质组学来探究蛋白质分子的准确性更高。另外,Arntzen等[35]认为,通过药物敏感性和耐药性细胞系或临床样本的比较分析,鉴定癌细胞中药物耐药性的生物标志物已成为大量蛋白质组学研究的主题。这些关于蛋白质组学的研究数据表明,随着功能基因组学的信息量的快速增加,生物信息学与蛋白质组学在研究中起着至关重要的作用,相对之前对单一肿瘤标志物的分析,现在对蛋白质谱与基因谱的综合判断,是鉴定信号分子、生物标志物和研究肿瘤发展信号途径的有效方式之一。同时应用蛋白质组学及基因组学对癌症相关蛋白质进行筛选和鉴定,以及对其功能研究将是今后此类研究的一个重要趋势。当然生物信息学亦有其不足之处,基因表达谱数据来自基因芯片实验,包含了数据包实验、芯片设计方式等,而由此形成的数据误差、噪音信号往往都很普遍,这就要求实验人员在挑选芯片的时候最好选用符合MIAME原则的芯片数据库[36-37],重复提取芯片数据以降低随机误差,另外,因个人主观因素对差异基因取舍也会导致一定的偏差。