全基因组测序后质粒的组装与鉴定研究进展*

2022-08-19 03:23苟秋凤代富英谢拥军
成都医学院学报 2022年4期
关键词:碱基质粒染色体

苟秋凤,代富英,曹 康,谢拥军,潘 渠

成都医学院基础医学院 病原生物学教研室(成都 610500)

全基因组测序(whole genome sequencing,WGS)从1977年发展至今,已成为一种快速、低成本获取生物体全基因组的方法[1]。WGS可发现基因组变异,在微生物的分类鉴定中应用广泛[2]。WGS经历了三代技术革新,二代测序和三代测序的结合已成为目前最广泛的杂交测序方法[3-4]。杂交测序一方面使用长读长跨越重复序列或缺口,另一方面使用短读长纠正测序中错误的碱基[5]。GenBank数据库中完成WGS的菌株越来越多,用传统的DNA文库或PCR扩增的方法无法获得的质粒可由WGS数据进行组装,但组装质粒的正确性和完整性需要进一步鉴定和分析。从WGS中准确识别染色体序列和质粒序列是质粒鉴定分析的先决条件[6]。WGS可获得高质量的质粒序列,但很多组装质粒并不一定真实存在,质粒的组装仍存在较多问题,且尚未被解决,需改良WGS后的组装。本文对WGS技术的发展、WGS后质粒的组装、质粒的鉴定及质粒组装中存在的问题进行综述。

1 WGS的发展

第一代测序技术以Sanger等[1]提出的链终止法及Maxam等[7]提出的链降解法为标志。Sanger测序使用4种带有荧光标记的2′, 3′-二脱氧胸腺嘧啶三磷酸(2′, 3′-dideoxythymidine-5′-triphosphate,ddTTP)。在DNA合成中,因ddTTP在2′, 3′上不含羟基不能形成磷酸二脂键,特定在含胸苷酸的位置终止,阻止链的延伸;在DNA反应体系中分别加入4种带有同位素荧光标记的ddTTP,在凝胶电泳显影后,其条带的位置可确定DNA序列[8]。1977年噬菌体phiX174使用Sanger测序法完成了基因组测序[8]。Sanger测序依赖于使用DNA聚合酶,在受控条件下转录DNA的特定区域,需要模板、引物及电泳分离产品,其特点为通量低,不适用于长片段测序。

第二代测序也称下一代测序,以瑞氏Roche公司的454测序、美国Illumina公司的Solexa/HiSeq测序和美国ABI公司的SOLiD系统高通量测序为标志[9]。Illumina测序技术采用合成测序技术,将带有固定接头的文库变性为单链并移植到流动槽上,然后进行桥接扩增,形成含有克隆DNA片段的簇。测序前文库借助线性化酶连接成单链,然后用含有不同荧光、可移除保护基团的4种碱基补充模板,用电荷耦合器捕获信号、分析数据[9]。Illumina测序技术主导第二代测序市场,测序速度快、成本低,其读长正确率高达99.9%,但长度只有100~300 bp[3,10-11],导致许多基因组被分割成数百个或数千个读长;而基因组包含许多长读长的重复序列,短读长导致片段化组装或缺口,无法正确测重复序列,组装的连续性较差[4,11-12]。二代测序依赖于PCR,而PCR扩增GC%极值区的效率低[11],准确测序GC%极值区难度较大。

第三代测序以美国PacBio公司的单分子实时测序(single-molecule real-time sequencing,SMRT)和纳米孔测序(oxford nanopore technologies sequencing,ONT)的长读长测序技术为标志[13]。SMRT对单个DNA分子实时测序,通过SMRTbell(一种闭合的单链环状DNA)的发夹结构连接模板DNA,进入到芯片SMRTcell的最小测序单元ZMW中。ZMW底部固定的聚合酶与SMRTbell结合并开始复制,SMRTcell中4种不同荧光标记的核苷酸被结合时产生可识别的光脉冲数据即可进行分析[14]。SMRT比大多数测序方法更快,平均读长>10 kb,但单次测序碱基错误率较高[15],通过多次测序可降低错误率,但受聚合酶活性限制,读长和测序次数相互影响。SMRT吞吐量较低,1个SMRTcell中有150 000个ZMW,但只有35 000~70 000个ZMW可成功产生读长。SMRT体积庞大,需要大量的初始投资,适用于大型测序中心,因测序成本较高导致使用受限[4, 14]。ONT在流动槽中进行,流动槽中的2个离子溶液被含有纳米孔的膜隔开,当DNA经过纳米孔时,通过发生的电导率变化来识别DNA碱基,最后利用软件进行数据处理,完成数据采集和分析[13, 16]。ONT通量高且快速,读长的长度不受技术本身限制,与受测DNA分子长度有关,如果DNA质量足够,可获得高达1 Mb的读长。ONT的读长错误率比SMRT高[4, 11],但新的文库制备技术和碱基识别算法的错误率可降至12%[17]。ONT体积小且便宜,初始投资低,可在预防疾控中心进行快速测序,便于诊断[4]。SMRT和ONT的共同特征为产生长读长,不需要引物和PCR扩增,减少或消除PCR扩增带来的测序偏差。长读长可跨过短读长在重复序列和高GC%含量区产生缺口[18],提高基因组装配的连续性,但由于较高的碱基错误率,需要在组装前或组装后使用短读长校正组装[19]。

生物体通过WGS可获得全部基因组信息。Pareek等[20-21]对人类和模式生物体进行WGS分析发现,基因组有多种变异类型,例如单核苷酸多态性(single nucleotide polymorphisms,SNP)、拷贝数变异、复合物重排等。WGS可监测癌症基因突变,探索其功能或临床意义[22-23]。微生物的WGS结果通过与已测菌株的序列比对,可发现新生物或鉴定特定的细菌生物。宏基因组测序也是一种快速检测和发现新物种的测序方法,其基因组数据来自同一物种,不是单一的菌株,不需要对微生物分离和纯化。已测序的宏基因组中包含许多未被鉴定的质粒序列,从宏基因组数据中组装质粒计算量大且费时、费力[24]。细菌病原体的WGS具有流行病学监测的潜力[25]。

2 WGS后质粒的组装

WGS后质粒的组装程序根据贪婪法、重叠布局共识(overlap-layout-consensus,OLC)、de Bruijn图和字符串图的不同算法来组装序列[26]。二代测序的短读长采用DBG进行组装,而SMRT和ONT采用适用于长读长组装的OLC方法。MinION和SMRT产生的读长用Falcon、Miniasm、Hybrid等组装程序组装发现,SMRT读长组装的错配数更少,精确度明显高于MinION,但组装程序对均聚物(TTTTT、AAAAA、CCCCC和GGGGG)识别较差[4]。使用Illumina短读长和ONT长读长的联合组装(Unicycler)可充分利用二者优势,拼接富含质粒的细菌基因组,组装更大的重叠群[27]。Unicycler对WGS后质粒的组装包括7步:1)使用高准确度的Illumina短读长进行组装,设置k-mer值构建重叠群[28],去除深度<50%DBG的重叠群,消除大多数污染序列;2)贪婪法使用测序深度和连接信息确定重叠群的多重性,将多重性分配给染色体重叠群之外的高拷贝数质粒重叠群;3)通过构建短读长的搭桥连接成对的单拷贝重叠群,配对末端,短读长可解析小重复序列;4)长读长的搭桥,与多个单拷贝重叠群比对的长读长可用于桥接,长读长可解析更大的重复序列,桥接序列来自2个连续序列之间的图,而不是长读长,可提高序列的准确性,当存在多个桥接路径时,根据与长读长一致序列选择最佳搭桥路径;5)桥的应用,Unicycler为每一个桥分配了质量分数,并按质量递减顺序应用桥,确保当存在多个矛盾的桥时,使用最佳匹配的选项;6)删除已在桥中使用且不提供额外连接信息的重叠群,将桥合并形成大的重叠群,再使用TBLASTN搜索dnaA或repA等位基因[29],使其开始于正链上编码的基因,降低基因在序列开始和结束处断开的风险;7)使用短读长对重叠群进行校正,降低不匹配率[30]。使用Unicycler组装得到的质粒,准确度由Illumina短读长的准确度决定,可有效避免ONT长读长拆分错误引入的序列污染,最后利用二代短读长数据对组装质粒进行纠错,得到准确度高的基因组。

3 WGS后质粒的鉴定

WGS获得大量片段化的质粒读长,通过对其组装和解读,进一步分析质粒序列特征,了解菌株的生物学特性。随着WGS技术的发展,GenBank数据库中产生许多测序后组装的质粒,然而组装质粒并没有得到鉴定和分析,分析质粒序列仍具有挑战性。鉴定质粒的方法可分为2种[31]:1)从测序读长或组装图中重建整个质粒序列,如Recycler、PlasmidSPAdes、PLANCET[32-34];2)通过鉴定或验证组装的重叠群是否来自质粒。现有鉴定重叠群是否来自质粒的预测程序可分为3种[35]:1)通过标记基因搜索的方法,如搜索序列中复制子的PlasmidFinder[36];2)基于质粒和染色体序列的基因组特征的方法,如根据质粒序列和染色体序列的k-mer频率的cBar、Plasmidseeker、Mlplasmids、PlasFlow[37-40];3)基于读长深度和GC%含量特征鉴定质粒[41]。

Carattoli等[36]利用PlasmidFinder对559个质粒序列进行鉴定,成功识别263个质粒。PlasmidFinder是依据参考复制子来鉴定质粒序列,因此无法鉴定与参考质粒序列无明显相似性的新型质粒[33]。Zhou等[37]根据五聚体频率的差异,使用cBar程序从881个完全测序的原核生物基因组中区分染色体序列和质粒序列,分类准确度为92%。Roosaare等[38]用Plasmidseeker对8 514个质粒序列进行检测,发现其灵敏度达100.00%,特异性为99.98%,但无法检测拷贝数低且与参考质粒相似性低的质粒。研究[42]显示,质粒检测的敏感性cBar最高(87.45%),其次是PlasmidSPAdes(81.49%)和PlasmidFinder(36.47%)。但另一项研究[40]表明,cBar错误预测其他序列为质粒序列(假阳性)的错误率达6.46%。在一项148个参考质粒的鉴定案例中,PlasmidSPAdes正确预测了125个质粒,cBar正确预测了84个质粒,Recycler正确预测了21个质粒,PlasmidFinder正确预测了13个质粒[31]。综上,质粒的组装或鉴定工具的检测能力有明显差异,无法正确检测质粒,WGS装配工具的精度有待进一步提高。

4 WGS后质粒组装存在的问题

在一项对植物乳杆菌PC518菌株进行WGS发现,通过全质粒组测序和PCR扩增全序列的方法鉴定了WGS后的组装质粒[43]。PCR扩增结果显示,大质粒只能被扩增出一段序列,并非真实存在的质粒(假阳性质粒),表明大质粒序列中可能出现染色体序列或其他质粒序列的错误识别并被组装到1个质粒上。WGS和全质粒组测序的2次测序均组装出序列一致的大质粒,表明染色体序列和质粒序列仍难正确区分[42]。在WGS和全质粒组测序中有部分碱基不同的组装质粒,表明WGS中存在错误测序的碱基。在全质粒组测序中出现1个WGS中未发现的质粒,经PCR验证是1个完整的质粒。经过BLAST比对分析发现,该质粒被错误组装在WGS的大质粒上,WGS中出现假阴性质粒。WGS未能正确组装出质粒的重复序列,当基因组序列中有高度重复序列区、插入序列、极端GC%含量或不同的甲基化模型时,短读长会产生不正确的组装[44-45]。

从WGS数据中鉴定质粒或染色体的序列是一大挑战,然而质粒重叠群的合并比其鉴别更困难[41],短读长测序无法解析重复元件,导致每个基因组产生数百个重叠群[34]。有研究[18]描述WGS后基因组组装中遇到的问题:利用短读长组装无法解决rRNA的长串联拷贝、其他串联重复序列和高GC%含量的区域(90%~100%)引起的问题。质粒组装过程中存在多种重复:质粒内重复是指质粒内的重复;质粒间重复是指由多个质粒共享的重复;共享重复是指在质粒和染色体之间共享的重复[46]。这些重复序列可以是2个或数百万个拷贝,用短读长测序技术难以解决。短读长测序产生数百个染色体和质粒重叠群组成的片段组合,短读长从头组装,导致片段化组装和错误组装[39]。Arredondo-Alonso等[31]研究表明,长片段测序可帮助染色体和染色体外序列的解析。长读长测序虽可改善基因组组装的连续性问题,提高重复序列的装配质量,但仍有较多的插入或缺失难以检测和纠正[42]。

随着Illumina测序技术不断增长,在同一流动池中,对多个样本同时测序变得越来越普遍。每个样本使用索引,然后在相同的流动池中一起测序,因存在一些混合的可能性,其中基因组DNA读取被分配到错误的索引,从而被分配到错误的样本中[47]。这些污染序列来自其他DNA样本的交叉污染,或是用于测序的DNA样本中的细菌污染,或是测序中特意引入用于质量控制的噬菌体DNA。污染序列影响下游数据分析的质量,导致序列错误组装,去除污染序列是所有测序项目的标准质量控制。利用BLAST与参考基因比对,排除污染序列,其速度慢且参考基因的空白或基因组中结构变异均可出现假阳性结果[48]。当一个样本被不同基因型的DNA污染时,得到不同单核苷酸多态性等位基因比率,然后通过筛选对污染序列进行识别和定量[49]。污染序列随着测序深度增加而减少,因此提高测序深度可降低污染序列的影响[50]。

由于一些质粒不包含任何明显的质粒基因,质粒逃避检测或因质粒拷贝数与染色体相似,可预测出假阴性质粒。一些错误分类的染色体重叠群作为质粒来源,或非质粒的环链被报告为质粒[42,46]。因受到染色体序列的污染,质粒预测通常是不完整的,在预测的质粒中经常存在染色体衍生的重叠群[39]。因重复序列的存在,在区分染色体序列和质粒序列方面仍存在一定问题[42]。质粒常携带重复元件,组装质粒与其他质粒和微生物基因组有共享基因[32],细菌基因组中频繁出现的插入序列和转座元件阻止了质粒的完整组装。

5 展望

WGS后质粒的组装和鉴定是一项艰巨的任务,SMRT和ONT具有很大的发展潜力,然而碱基的高错误率对正确组装质粒序列提出挑战。组装质粒获得有利于质粒工具的发展,但这些组装质粒存在错误组装、假阳性质粒、假阴性质粒的问题。WGS后质粒组装的精度需要专业技术人员参与,更新组装软件,改良WGS后的质粒组装。

猜你喜欢
碱基质粒染色体
基因工程中载体概述
农杆菌转化法中的“Ti质粒转化载体系统”的简介
——一道江苏高考题的奥秘解读和拓展
基因“字母表”扩充后的生命
创建新型糖基化酶碱基编辑器
开发新方法追踪植物病害的全球传播(2020.6.7 iPlants)
小鼠转录因子STATl真核表达质粒的构建及生物学功能分析
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?