基于二代测序技术检测肿瘤超低频突变面临的挑战及对策

2021-12-05 20:05张换勤刘洋郭旭邢金良权志博
中国癌症防治杂志 2021年5期
关键词:碱基文库准确性

张换勤 刘洋 郭旭 邢金良 权志博

早期诊断对提高肿瘤患者预后,降低死亡率具有重要意义。然而,早期实体瘤体积往往较小、肿瘤细胞含量低、携带的肿瘤特异突变信息也较少,因此早期诊断依然面临巨大挑战[1]。癌症细胞中存在的一些超低频突变能导致肿瘤治疗抵抗[2],也是复发的基础[3]。由此可见,超低频突变的准确检测具有重要意义。液体活检技术是通过检验血液、尿液、唾液、胸腔积液等体液中的生物标志物对疾病进行诊断。其中,液体活检中最重要的检测内容之一是携带肿瘤特异性突变信息的循环肿瘤DNA(circulating tumor DNA,ctDNA)[4]。然而,肿瘤患者血浆中可检测到的ctDNA突变含量极少,难以检测。有研究表明从Ⅰ期肺癌患者ctDNA中检测到的突变频率通常在千分之一以下,甚至达到十万分之一的级别,给检测带来了巨大挑战[5]。因此,超低频突变检测技术对ctDNA临床转化应用能否成功具有至关重要的作用。目前检测基因组超低频突变技术主要包括突变扩增系统(ARMS⁃PCR)、微滴式数字PCR(droplet digital PCR,ddPCR)和二代测序技术(next⁃generation sequencing,NGS)。ARMS⁃PCR成本低廉、操作简单,但灵敏度略低、稳定性欠佳。与ARMS⁃PCR相比,ddPCR具有较高的稳定性、准确性和灵敏度。然而,ARMS⁃PCR与ddPCR的通量均较低,且只能检测已知变异。NGS具有可同时检测多个基因、多种类型的未知突变等优势。但NGS实验环节较复杂,在样本制备、文库构建、上机测序及数据分析等过程中,诸多因素均可影响超低频突变检测的准确性[6]。本文就目前NGS检测超低频突变过程面临的挑战及解决策略作一综述。

1 样本制备对超低频突变检测的影响及应对策略

目前,福尔马林固定石蜡包埋(formalinfixedparaffin embedded,FFPE)肿瘤组织是临床研究中最常见的样本类型之一[7]。然而,基于NGS对FFPE样本进行精准超低频突变检测的可行性尚不确定[8]。在样本制备时,采用福尔马林固定会对样品中的核酸产生极大影响,其中固定不足则导致核酸降解,而固定过度会导致蛋白质间更广泛的交联,增加核酸提取难度。最重要的是,在福尔马林固定组织过程中会使DNA发生以下损伤:⑴甲醛诱导DNA交联。甲醛处理会使样品中的生物分子产生广泛的分子交联和化合物,极大降低通过杂交、PCR和测序进行后期分子分析所获得的突变信号[9]。⑵福尔马林诱导的碱基损伤会降低PCR效率。此外,用于PCR的DNA聚合酶在损伤位点复制时,会产生假阳性突变。⑶FFPE样本中的DNA经过福尔马林处理并且长期保存后,容易发生严重的断裂、单链化、无碱基位点、氧化损伤等,导致基因组不完整,影响基因突变检测的准确性[10]。此外,手术室样品处理过程中的冷缺血时间、样本大小和脱钙方法均会影响FFPE样本后续的DNA分析。石蜡包埋切块的储存方法和截面厚度也会影响FFPE样本中DNA的提取效率[11]。事实上,使用少量的DNA可能会进一步加剧上述困难的程度,因为假阳性突变会随着起始DNA量的减少而增多[12]。这些假阳性突变不能与真正的超低频突变区分,因此严重影响FFPE样本中超低频突变检测的准确性。

针对FFPE样本处理对测序产生的影响,目前有些处理方法可有效降低上述原因引起的假阳性突变,如Agilent公司的HaloPlex target enrichment system能够特异性捕获并分析每个目标片段的两条链,从而减少DNA片段化引起的假阳性突变,进而提高突变检测的灵敏度[13]。利用尿嘧啶⁃N⁃糖基化酶(UNG酶)可减少胞嘧啶脱氨引起的C>A/G>T假阳性突变[14]。此外,样本应尽量在中性福尔马林试剂中保存8~24 h,尺寸定为3 mm3,块储存时间少于1年,载玻片组织切片储存时间少于1周[11]。也可进一步考虑使用水溶性双功能催化剂(邻氨基苯甲酸酯和磷酸酯)加速去除甲醛诱导的分子交联和化合物[15]。

除FFPE样本外,新鲜肿瘤组织目前也应用于临床研究。而肿瘤异质性是肿瘤组织面临的最大挑战。肿瘤异质性是恶性肿瘤的特征之一,是指肿瘤在生长过程中,经过多次分裂增殖,其子细胞呈现出分子生物学或基因方面的改变,使肿瘤的生长速度、侵袭能力、对药物的敏感性、预后等方面产生差异[16]。简而言之,肿瘤异质性指肿瘤内既有致瘤细胞亚群,也有非致瘤细胞亚群。即肿瘤组织内的每个细胞中DNA是否发生突变以及发生突变的频率均有差异,这给肿瘤组织中超低频基因突变的检测带来巨大挑战。单细胞测序可以避免肿瘤异质性对突变检测的影响。从理论上讲,对单个细胞进行测序可以消除混合测序固有的时间及空间偏倚,因为无论何时出现突变或某个被测序的细胞内所有遗传突变均可被检测[17]。

此外,液体活检作为肿瘤非侵入性的早期诊断方法,具有广阔的临床应用前景,也为肿瘤异质性的监测提供可能。在液体活检研究中,循环肿瘤细胞(circulating tumor cell,CTC)及ctDNA应用最广泛,但目前有关CTC突变检测的研究较少。血浆ctDNA是肿瘤早期诊断及预后研究中最常见的检测对象,但也面临诸多挑战。研究显示血浆中的ctDNA高度片段化,其片段分布范围为134~144 bp[18],且片段化程度可能随着肿瘤大小的增加而增加[19]。DNA高度片段化还可能导致包含超低频突变位点的ctDNA分子数量的减少,进而影响ctDNA超低频突变检测的准确性。此外,血浆中的ctDNA含量占比仅为0.01%~1.00%[20],半衰期也仅为 4~30 min[21],这一特征进一步影响了ctDNA检测的准确性。有研究显示,针对晚期癌症患者,部分ctDNA突变频率在0.5%以下,意味着只有测序深度达到4 000~5 000 X才可能有效检测超低频突变。针对血浆样本,目前提高测序深度是准确检测超低频突变的首选。近年来,多种靶向深度测序方法已被用于分析ctDNA中特定的基因组区域,且高度敏感。例如通过设计特异性引物对目标区域进行靶向扩增的标记扩增子测序(tagged amplicon sequencing,TAm⁃Seq)、基于肿瘤基因突变数据库筛选癌症相关突变后进行靶向捕获的癌症个体化深度测序分析方法(cancer personalized profiling by deep sequencing,CAPP⁃Seq)以及通过对目标基因增加一个特定编码序列后进行靶向扩增的安全测序系统(safe⁃sequencing system,Safe⁃SeqS)等。

2 文库构建对超低频突变检测的影响及应对策略

CHEN等[22]研究发现大型公共数据库中许多超低频突变可能是由于DNA损伤引起的假阳性突变。测序文库构建时,首先需要进行DNA片段化,其中超声与酶切是常见的DNA片段化方式。然而,超声打断过程易发生氧化损伤,导致C>A/G>T假阳性突变[23]。而非平末端缺口、无碱基位点或因酶促机制变化产生的其他不完整性DNA片段更容易受到损伤[24],从而影响超低频突变检测的准确性。在文库构建时,DNA片段的末端修复和A尾连接使用低保真聚合酶,PCR扩增步骤使用高保真聚合酶,但当DNA模板受损时,所有的聚合酶都更容易产生假阳性突变。PCR扩增步骤引入碱基错配也是导致假阳性的一个重要环节,PCR前几轮循环产生的错误会随扩增过程延长而呈指数增长趋势[25]。此外,DNA扩增酶具有一定的扩增偏向性,尤其是针对GC含量差异大或存在二级结构的模板。

对于氧化损伤引起的假阳性突变,COSTELLO等[26]明确了超声打断过程致DNA氧化损伤的作用,并提出通过引入抗氧化剂来减少DNA氧化的方法。对于PCR过程中的错误,可以使用独特分子条形码(unique molecular identifiers,UMI)来纠正。UMI是一组随机碱基排列的的寡核苷酸序列,通常用于高通量测序过程[27]。迄今为止,基于UMI开发了3种单链一致性测序策略:Safe⁃SeqS[28];单分子分子倒位探针(smMIPs)[29];UMI接头[30]。其可将误差降低 2~3个数量级,而且可以准确识别频率为0.1%的超低频突变,但仍然无法识别第一个PCR循环产生的错误。2012年,CABEL等开发了双重测序(Duplex Seq)技术[31]。该法通过对DNA双链的两条链进行独立标记和测序,这种方法将错误率降低至10-7~10-4或更低,而且能够避免第一个PCR循环产生的错误。因此,这种方法检测超低频DNA突变以及单分子计数具有很高的灵敏度。AHN等[32]通过该方法对人类乳腺正常干细胞和非干细胞中的线粒体DNA突变进行综合分析,发现绝大多数突变频率小于0.5%,且常规NGS无法检测到,表明这些线粒体DNA突变可能有助于表征人类乳腺正常上皮细胞,并可以作为癌症干细胞突变谱的参考。目前,市场上已发布PCR⁃free建库试剂盒,例如华大平台Hieff NGS®OnePot II DNA Library Prep Kit,该试剂盒可以有效避免聚合酶造成的扩增偏向性,同时可以避免PCR扩增错误的产生及累计。

3 测序过程对超低频突变检测的影响及应对策略

NGS可进行多个样本混合测序,在测序芯片的同一泳道内通常有数百甚至数千个文库,即使测序前的样本制备合格,文库构建没有问题,测序过程中也可能发生样本之间的交叉污染,即样本1的测序数据中混入样本2的基因组序列信息[33]。研究显示,即使是同一个物种内的适量污染(2%~5%),也会增加基因突变检测的错误率[34]。此外,最近研究表明,使用排他性扩增(ExAmp)生成簇的Illumina测序仪(包括HiSeq 3000、HiSeq 4000、HiSeq X系列和Novaseq)更容易发生样本标签错配(index misassignment)问题,且Illumina描述这种现象为“标签跳跃”(index hop⁃ping),即测序过程中样本1的index和样本2模板相连接、样本2的index和样本1模板相连接,而这可能会产生高达10%的交叉污染[35]。在测序过程中,酶活性下降以及信号分析误差的累积也会导致测序周期越长,测序质量越低[36]。总的来说,NGS存在较高的测序错误率(0.1%~1.0%),对于高频的遗传性突变检测,该错误率可以接受,但是癌症中频率小于1%的超低频体细胞突变,该测序方法存在诸多局限。

针对样本间交叉污染的问题,可以在文库构建过程中的待测模板一端加上一段已知碱基信息的短序列用于标记不同样本,通常把这段已知序列称为index或barcode,但是单端index容易引起“标签跳跃”[33],因此双index技术(待测模板两端均加index或barcode)能更好地解决样本之间交叉污染的问题[37]。此外,ZHANG等[38]基于已知群体常见变异位点的等位基因频率开发了一种算法来估算DNA污染情况。

4 数据分析过程对超低频突变检测的影响及应对策略

测序数据的质量控制和预处理对在下游数据分析中获得高准确性的突变信息至关重要,尤其是超低频突变。在数据分析前,通常使用数据过滤和修剪程序去除低质量的测序接头序列和碱基。不适宜的过滤和修剪程序必然影响数据的产出,进而影响超低频突变检测的灵敏度。测序质量也极大影响后续突变分析,因此指控阈值也很重要。碱基质量值是衡量测序质量的重要指标,质量值(Q)越高代表碱基被测错的概率(P)越小,例如质量值Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%。一般要求下机测序数据的Q30至少达到85%。此外,有研究表明修剪程序对提高血浆中超低频突变检测准确性至关重要,但对新鲜肿瘤组织与FFPE组织样本有效性并不理想[39]。

数据分析过程中另一个必不可少的步骤是序列比对,即在序列文件中查找与目标基因最匹配的片段,并通过比对识别基因突变和测序错误。在序列比对中,错配碱基数是至关重要的参数,错配碱基数过少会导致遗漏真正的突变,相反错配碱基数过多则会导致假阳性突变数量增多。一项针对线粒体DNA突变识别方法的研究显示,当将错配碱基数设置为3时,突变识别准确性最高[39]。为减少假阳性突变,目前已开发了多种突变过滤策略[23]。例如,删除测序文库制备过程中的人工鸟嘌呤氧化所产生的较低频率C>A/G>T 突变[40];删除突变频率和突变碱基质量不符合二项式检验的假阳性突变位点,有研究显示这些突变是由测序错误引起[41⁃42]。不同比对算法对超低频突变检测的准确性及敏感性均会产生影响[43]。目前BWA(Burrows⁃Wheeler Aligner)软件常被应用于NGS数据比对,其主要功能是将差异度较小的序列比对到一个较大的参考基因组上。其中提供了3种算法:⑴WA⁃backtrack,仅应用于测序reads长度不超过100 bp的数据;⑵BWA⁃SW,支持序列长度70 bp~1 Mbp的测序数据,同时支持剪接性比对;⑶BWA⁃MEM是支持序列长度70 bp~1 Mbp的算法,也最常用、最新、最准确[44]。

5 小结

测序技术自面世至今,短短几十年内发生了许多技术革新。目前,高通量测序技术已日趋成熟并取得了很大成就,但也仍存在诸多挑战,如即存在许多与癌症相关的基因突变,也存在许多未知意义突变,即目前并没有获得完整的肿瘤相关基因组突变信息。此外,尽管使用UMI方法可以提高超低频突变检测的准确性,但是利用来自UMI的生物信息学分析方法目前尚未标准化。因此,未来仍需进一步探索,提高检测技术,才能进一步加强对超低频突变的认识,并将超低频突变检测更广泛地应用于临床实践中。

猜你喜欢
碱基文库准确性
用生命保卫中央文库的陈为人
浅谈如何提高建筑安装工程预算的准确性
专家文库
基因“字母表”扩充后的生命
理解语境与名句的关系,提高默写的准确性
点亮经典文学之灯——“百年文库”第一辑隆重推出
应用思维进阶构建模型 例谈培养学生创造性思维
关于推荐《当代诗坛百家文库》入选诗家的启事
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员