生物信息学与肿瘤精准治疗

2022-03-24 05:56:43王德强
中国肿瘤外科杂志 2022年5期
关键词:信息学克隆变异

王德强

生物信息学(bioinformatics)是一门新兴的交叉学科,是生物学、数学、计算机学及信息学等学科的有机结合,通过对生物信息进行获取、加工、存储、分析和解释,从而揭示大量而复杂的生物数据所包含的生物学意义。近年来,随着高通量测序技术的发展和推广应用,生物信息学获得了迅猛的发展。在肿瘤领域,生物信息学奠定了精准治疗的基础,但是肿瘤的高度复杂性和异质性也给生物信息学带来了巨大的挑战。本文将着重概述生物信息学在肿瘤精准治疗中的现状和发展前景,以期推动肿瘤精准治疗的发展。

1 经典的肿瘤生物信息学研究

癌症基因组图谱(the cancer genome atlas,TCGA)计划基于基因组、转录组、蛋白组及甲基化等数据,对泛癌种进行了分子分型和深入的分子刻画,揭示了肿瘤异质性[1]。TCGA推动生物信息学研究走向繁荣。与之类似的包括国际癌症基因组联合会(the international cancer genome consortium,ICGC)和全基因组泛癌分析(the Pan-Cancer analysis of whole genomes,PCAWG)联合会的研究[2-3]。但治疗和临床转归的数据在这些研究中缺失较多。

为了更好地研究肿瘤异质性与临床结局的关系,追踪治疗中的肿瘤进化(the TRAcking cancer evolution through therapy,TRACERx)研究应运而生,主要对非小细胞肺癌(non-small-cell lung cancer,NSCLC)、恶性黑色素瘤、前列腺及肾癌开展了伴随治疗的多组学分析[4]。此外,晚期癌症环境生后评价(the posthumous evaluation of advanced cancer environment,PEACE)对多转移部位进行取样研究(NCT03004755)、胶质瘤纵向分析联盟(the glioma longitudinal analysis consortium,GLASS)对治疗中的胶质瘤进行不同时间点的取样研究,均提高了我们对肿瘤进化的认识[5]。

单细胞测序(single-cell RNA-seq,scRNA-seq)技术使得同时对肿瘤和肿瘤微环境(tumor microenvironment,TME)中的组成细胞进行分子刻画成为现实。人类肿瘤图谱网络(the human tumour atlas network,HTAN)便针对多种肿瘤类型,构建了转录组和TME景观的单细胞三维图谱,加深了我们对肿瘤内部异质性(intra-tumor heterogeneity,ITH)的认识[6]。

上述研究均有利于肿瘤预防、诊断和治疗的更精准化,但相关认识的临床转化仍需要进一步发展。

2 基因组分析与肿瘤精准治疗

利用下一代测序(next-generation sequencing,NGS)检测肿瘤DNA的改变,从而协助肿瘤诊断和治疗的技术已广泛应用于临床。当前主要的技术包括靶向测序(针对特定基因集,或称panel测序)、全外显子测序(whole-exome sequencing,WES)及全基因组测序(whole-genome sequencing,WGS)。生物信息学的主要作用是识别可用药的DNA改变。

基因组分析的关键是变异的识别(variant calling),生物信息学流程可参考基因组分析工具包(genome analysis toolkit,GATK)最佳实践[7]。单核苷酸变异(single nucleotide variants,SNVs)是最常见的DNA改变,其次是少于50个碱基对(base pairs,BPs)的插入或缺失(insertions or deletions,indels),这些变异可以归纳为短变异(short variants)。生物信息学分析的重点是变异的注释,获取其生物学意义和临床相关性。一系列的生物信息学工具可供使用,例如ClinVar、癌症体细胞突变目录(the catalogue of somatic mutations in cancer,COSMIC)及癌症基因组解释器(the cancer genome interpreter,CGI)等。除了体细胞变异,胚系变异(germinal variants)也对药物疗效和毒性有重要影响,相关的生物信息学工具包括DrugBank、PharmGKB及PharmCAT等。

基因变异分析既往主要应用于靶向或化疗药物的选择,其局限性包括:①大多数基因变异的生物学意义并不明确,也缺乏相应的治疗药物;②针对特定基因变异的新型靶向药物在全球的可及性较差,常常限于少数发达国家或地区,或者相关临床试验限于少数中心城市且信息难获取;③基于特定基因突变的治疗效果仍然有限;④靶点突变以外的共突变对治疗影响较大,却仍然缺乏基础研究和应对的策略;⑤检测panel、质量和分析能力等因素的制约。

最近,基因变异分析也开始在新兴的免疫治疗领域发挥作用。一些生物信息学研究发现特定基因突变影响免疫检查点抑制剂(immune checkpoint inhibitors,ICIs)的有效性[8-9]。把体细胞基因突变的总数计算为肿瘤突变负荷(tumor mutation burden,TMB),发现与一些肿瘤的ICIs疗效有关[10]。但是,TMB仍缺乏标准的检测和计算方法,且高和低TMB的分界即使在同一肿瘤类型中也存在争议。同时,最近一项研究发现TMB在某些肿瘤类型中与ICIs疗效无关甚至负相关[11]。

肿瘤中也可发生大片段(≥50 BPs)的基因改变,属于结构变异(structural variations,SVs),例如基因拷贝数变异(copy number variations,CNVs)、基因重排和融合等。目前检测SVs较优的技术包括WGS、纳米孔测序(nanopore-based sequencers)及长读测序(long read sequencing)等,也有相应的生物信息学分析工具如WisecondorX等。尽管HER2扩增、EML4-ALK及BCR-ABL1融合等SVs已有对应的靶向治疗药物,更多SVs的生物学意义和靶向治疗仍有待研究。

此外,突变标签能够揭示肿瘤发展相关基因突变过程的类型,可用于分析单碱基替换、双碱基替换、indels、CNVs和基因重排等多种变异。突变标签的生物信息学工具包括COSMIC、SignatureAnalyzer及HRDetect等。研究发现,DNA损伤修复缺陷相关的突变标签可用于化疗和免疫治疗效果的预测[12-13]。而且,BRCA1、BRCA2及同源重组(homologous recombination,HR)缺陷相关的突变标签与腺苷二磷酸核糖聚合酶(poly ADP-ribose polymerase,PARP)抑制剂的疗效有关[14]。但一些突变标签的临床意义仍有待阐明。

3 转录组分析与肿瘤精准治疗

转录组主要涉及基因表达。从RNA测序(RNA sequencing,RNA-seq)获得的原始序列到特定格式的基因表达值需要一系列的生物信息学工具。其中,去除低质量读数和样本间正常化等质控非常重要。转录组的一项重要应用是差异表达基因(differentially-expressed genes,DEGs)分析,用于研究不同分组间(例如有效和无效组)的基因表达异质性,经典的生物信息学工具包括DESeq2、edgeR及limma等。基于DEGs,可以开展功能富集分析,进一步揭示DEGs相关的生物学意义。功能富集分析主要包括3种方式:①过表征分析(over-representation analysis,ORA),以DAVID、PANTHER及WebGestalt等为代表;②功能分类评分(functional class scoring,FCS),以基因集富集分析(gene set enrichment analysis,GSEA)、基因集变异分析(gene set variation analysis,GSVA)及Camera等为代表;③通路拓扑(pathway topology)分析,以PathNet为代表。通过功能富集分析定位到特定信号通路或基因功能,可以提示可能有效的干预方法,有利于进一步研究的开展。

转录组分析与蛋白-蛋白交互作用(protein-protein interaction,PPI)分析及加权基因共表达网络分析(weighted correlation network analysis,WGCNA)等结合,有利于定位影响表征的关键基因,促进了新治疗靶点或疗效标志物的发现。与某种肿瘤药物敏感性相关的转录组图谱可以用于药物的选择,相关的生物信息学工具包括癌症药物敏感性基因组学(genomics of drug sensitivity in cancer,GDSC)、癌症治疗反应门户(cancer therapeutics response portal,CTRP)及癌症细胞系百科全书(the cancer cell line encyclopedia,CCLE)等。在这些工具中,输入基因名就能查询数千种肿瘤细胞系中该基因与各种药物敏感性的关系。基于转录组的聚类和降维等方法可以产生与药物敏感性相关的基因列表或称基因表达标签(gene expression signatures)。生物信息学工具如DrugVsDisease等可以用于预测ICIs的治疗反应[15-17]。

基于转录组的药物选择仍在探索中,主要的局限性包括:①基因表达是动态变化的,药物应激是主要的驱动力;②基因表达的调控网络庞大而复杂,影响因素众多;③样本质量极易影响RNA-seq;④仍然缺乏基于人体的广泛临床试验和循证依据。

4 多组学分析与肿瘤精准治疗

一些生物信息学工具提供了基于多组学特征筛选新靶点和选择药物的方法。PANOPLY和MOAlmanac整合基因组和转录组数据用于靶点和药物的选择。癌症药物基因图谱(the cancer druggable gene atlas,TCDGA)整合的数据包括短变异、基因融合、CNVs及基因表达等。DrugComboExplorer还纳入了甲基化数据,并可预测可能有效的药物组合。多组学因果导向搜索(causal oriented search of multi-omics space,COSMOS)还纳入了磷酸化蛋白质组学和代谢组学数据。DeepDRK则基于多组学数据,使用机器学习方法预测肿瘤细胞系和患者的药物敏感性。在免疫治疗方面,基因组和转录组数据可用于预测肿瘤新抗原,从而促进个体化疫苗的设计,使用相关工具如pVACtools。多组学工具的局限性在于技术门槛高、费用高及耗时长等,目前也仍然处于临床前研究阶段。

5 克隆分析与肿瘤精准治疗

肿瘤细胞由主克隆和若干亚克隆组成,体现了ITH。存在于所有肿瘤细胞的突变为克隆突变,否则为亚克隆突变。携带某些突变的亚克隆天然对药物抵抗,同时抗肿瘤治疗施加的进化压力导致新的突变出现和克隆选择,是耐药的关键原因。因此,克隆分析有助于克服肿瘤耐药和研发新的治疗。相关的生物信息学工具包括FastClone、MOBSTER、PyClone-Ⅵ、PhyloWGS及SciClone等。PanDrugs则可用于预测对克隆和亚克隆均可能有效的药物,有助于践行克隆治疗,即对所有肿瘤克隆均有效的理想治疗。但是,克隆分析目前仍受限于测序范围、深度、肿瘤纯度及分析方法等。

6 scRNA-seq和空间转录组(spatial transcriptomics,ST)分析与肿瘤精准治疗

大体(bulk)RNA-seq检测的是肿瘤中各种细胞基因表达的平均值,而scRNA-seq反映了各细胞亚群基因表达的异质性。scRNA-seq分析主要有3个步骤:原始数据处理、正常化和聚类,以及对结果的功能解释。其中,功能解释主要涉及各细胞亚群的生物学定义。生物信息学工具如edgeR和limma等同样可以对单细胞数据进行DEGs分析。VISION和UCell可以针对单细胞或细胞亚群进行EGFR评分。肿瘤细胞和TME之间的配体-受体交互作用对于理解ITH至关重要,相关的工具包括CellPhoneDB和NicheNet等。轨迹推断和基因表达的动态分析可以帮助我们理解选定亚群的“现在”和“未来”。剪接mRNA转录体现了细胞现状,而未剪接mRNA可预测细胞进一步转录的方向和速度,有助于我们理解细胞转化过程,相关的工具包括Slingshot、velocyto和scVelo等。基于这些功能解释,我们可以针对不同肿瘤细胞亚群预测可能有效的治疗药物,相关工具包括DEGAS和Beyondcell等。

7 总结和展望

肿瘤的复杂性体现为多层面的综合的异质性,如患者间、肿瘤内和多组学的异质性等,且随着肿瘤发展而变化,给肿瘤治疗带来巨大的困难。高通量测序技术的发展使得我们能够深入理解肿瘤异质性,而生物信息学则是其中的关键工具。生物信息学已潜移默化的应用于临床,例如对NGS数据的分析和解读,并最终以基因检测报告的形式呈现于临床医生面前。肿瘤的精准治疗实际上以生物信息学为基础,并基于生物信息学的发展而不断进步。但是,我国大部分临床医生对生物信息学仍缺乏了解,更遑论应用。一种不良趋势也广泛存在,即将生物信息学仅仅当作发表论文的捷径,忽视了数据库的建立、基础理论、方法学和临床应用的研究。一些研究者也轻视生物信息学,没有意识到生物信息学对基础和临床研究的巨大推动作用。总之,蓬勃发展中的生物信息学对于肿瘤的研究和治疗均至关重要,应该得到广大临床医生和研究者的高度重视。

猜你喜欢
信息学克隆变异
克隆狼
环球时报(2022-09-20)2022-09-20 15:18:57
鸡NRF1基因启动子区生物信息学分析
浙江:诞生首批体细胞克隆猪
今日农业(2020年24期)2020-12-15 16:16:00
变异危机
趣味(数学)(2020年4期)2020-07-27 01:44:16
变异
支部建设(2020年15期)2020-07-08 12:34:32
初论博物馆信息学的形成
中国博物馆(2018年2期)2018-12-05 05:28:50
抗BP5-KLH多克隆抗体的制备及鉴定
兽医导刊(2016年12期)2016-05-17 03:51:50
变异的蚊子
百科知识(2015年18期)2015-09-10 07:22:44
Galectin-7多克隆抗体的制备与鉴定
miRNA-148a在膀胱癌组织中的表达及生物信息学分析