张子敬 ,刘燕蓉,张顺进,贺 花,李佳霄,刘 贤,吕世杰,李志明,王二耀,雷初朝,黄永震*
(1.河南省农业科学院畜牧兽医研究所,河南郑州 450002;2.西北农林科技大学动物科技学院,陕西杨凌 712100;3.西北农林科技大学动物医学院,陕西杨凌 712100;4.河南省畜牧总站,河南郑州 450008)
随着生物信息学的快速发展,DNA 测序技术在不断创新。第一代测序技术,即Sanger 的链终止方法[1]于1977 年登上历史舞台,其主要应用于人类基因组(HGP)计划,人们耗时15 年花费了30 亿美元完成了首个人类基因组图谱。尽管一代测序读长可达1 000 bp、精确度高达99.999%,但测序通量低、成本高等缺点限制了它的大规模应用。直到21 世纪初,以高通量为主要特点的第二代测序技术(又称为下一代测序技术,Next-Generation Sequencing,NGS)的开发,如Roche 公司的454 技术、Illumina 公司的Solexa 技术和ABI 公司的SOLID 技术[2],使成本从HGP 的1 亿美元1 个基因组下降到2015 年底的1 000 美元1 个基因组,并且测序时间大幅缩短,成功地把DNA 测序引入到了高通量测序时代,同时也把研究方向从单个基因位点扩展到全基因组研究的水平层面,并从人类应用扩展到各种生物的研究中。然而由于第二代测序技术存在读长过短、引入PCR 扩增错误、具有GC 偏好性等缺点,不能够完全满足人们对于全基因组测序的需求。随着人们继续研究高通量测序技术,以单分子测序为技术特点的第三代测序——He-licos 单分子测序仪、Pacific Bioscience 的SMRT 技术(PacBio)和Oxford Nanopore Technologies 公司的纳米孔单分子测序技术登上了DNA 测序技术的舞台。与第二代测序的核心原理,即边合成边测序相比,第三代测序技术的特征在于单分子测序,即不需要PCR 扩增,这就避免了PCR 扩增引入错误,同时第三代测序具有更高的通量和测序效率。
1.1 Pacific Bioscience SMRT 技术 从测序手段来看,PacBio 测序是基于光信号的三代测序技术,可在目标DNA 分子复制的过程中捕获序列信息(即边合成边测序)。PacBio 测序使用一种被称为SMRTbell 的模板,这是一个通过将发夹接头序列连接到目标双链DNA 分子两端而形成的单链环状DNA 分子。当SMRTbell 通过被称为SMRT cell 的芯片上时,SMRTbell 会扩散到被称为零模式波导(Zero-Mode Waveguide,ZMW)的测序单元中,每个SMRT cell 中含有15 万个零模式波导管。ZMW 是一种直径仅为几十纳米的纳米孔,每个ZMW 底部都固定有聚合酶,可以与SMRTbell 的任一发夹接头序列结合并开始复制。SMRT cell 中添加有4种不同荧光基团的核苷酸,不同荧光基团被激活时会产生不同的发射光谱。当一个碱基与聚合酶结合时,便会产生一个光脉冲被记录下来,根据光的波长和峰值便能够识别这个碱基[3]。PacBio 测序的一个关键是将反应信号与游离碱基的荧光背景区别出来,因为ZMW 的孔径小于波长,从底部打上去的激光不直接通过孔径,但是可以在孔径处发生光的衍射,仅仅能够照射ZMW 的底部区域。而DNA 聚合酶就锁定在底部的这个区域,由于其只能被碱基携带的荧光基团激活并检测到发光,从而大大减少了背景荧光的干扰。PacBio 测序的另一个关键就是聚合酶的活性,它决定了测序的长度。DNA聚合酶的活性会在激光照射下逐渐减弱,因此不能无限长度的进行合成反应,所以DNA 链的测序长度是有限的。此外当存在如甲基化之类的碱基修饰时,相邻碱基的测序时间会变长,因此可以通过测定相邻2 个碱基的测序时间来检测碱基修饰。PacBio 的测序速度很快,然而,这种测序方法的错误率(可达到15%)远高于二代测序,不过因为出错随机,可通过增加测序深度来有效纠正测序错误。
1.2 纳米孔单分子测序技术 与基于光信号的PacBio 测序不同,纳米孔单分子测序技术(The Single-Molecule Nanopore DNA Sequencing)的实质是利用电信号测序的技术,其原理是纳米孔内有共价结合的分子接头,当单个碱基或DNA 分子通过纳米孔通道时,会使电荷发生变化,从而短暂地影响流过纳米孔的电流强度。由于化学结构的差异,A、C、G 和T 这4 种不同碱基通过纳米孔时会产生不同强度的电流,通过灵敏的电子设备可以检测到电流变化,进而可以识别DNA 链上的碱基完成测序。与上述PacBio 测序方法相比,纳米孔单分子测序技术处理样品非常简单,也不需要脱氧核糖核苷酸,这也使得该测序方法的成本不是很高。然而,纳米孔单分子测序技术也有缺陷,由于DNA 通过纳米孔极其迅速,极可能引起电流特征性变化不明显,从而降低测序的准确度,故将单个核苷酸通过孔的速度降低则成为了这个技术拟解决的难题,与PacBio 测序类似,纳米孔单分子测序的碱基错误率也远高于二代测序。
2.1 在基因组方面的应用
2.1.1 从头组装 获得一个物种的基因组对相关研究者具有十分重要的意义,二代高通量测序的发展使得诸多物种的基因组从头组装(De novo Assembly)成为现实。然而由于许多生物学和技术上的原因,特别是重复或杂合序列、测序错误、嵌合读码、读长不足或读码覆盖不全或有偏差等因素[4],造成高质量的基因组组装具有很大挑战性。在这些限制因素中,最突出和最具挑战性的便是重复序列,二代测序技术因为读长过短(只有50~500 bp)在鉴别重复元素等方面存在固有的局限性。三代测序的长读长(10 kb 以上)克服了二代测序的这些限制,因此利用三代测序产生的长读长进行从头组装成为三代测序的主要应用方面[3]。
2016 年,Shi 等[5]用单分子实时(SMRT)测序对中国人个体HX1 进行测序,构建物理图谱,生成2.93 Gb 的从头组装数据集,为中国个体生成了第一个近乎完整的从头组装基因组,该基因组填补了人类参考基因组GRCh38 中274 个(28.4%)空白,与GRCh38 相比,发现了12.8 Mb 的HX1 特异性序列,包括在先前报道的亚洲人基因组中不存在的4.1 Mb 序列。2018 年,Matthew 等[6]也使用SMRT 测序对2 个瑞典人基因组进行了重新组装,研究发现每个个体中有超过10 Mb 的序列从人类参考基因组GRCh38 中缺失,而且大约有6 Mb的新序列是与中国人的个人基因组(HX1)共有的。这些研究结果表明了GRCh38 参考基因组还不完整,同时证明了三代测序在复杂基因组的组装上具有独特的优势,能够发现诸多二代短读长测序遗漏的基因组信息。
目前三代测序除了应用在人类基因组的从头组装上,也已经用在水稻[7]、小麦[8]、猪[9]、鸡[10]、牛[11]、羊[12]等具有重大经济价值的动植物基因组的从头组装上。
2.1.2 结构变异检测 结构变异(Structural Variation,SV)包括拷贝数变异、插入、删除、易位以及这些事件的组合等,SV 已被证明对许多物种的进化、基因组疾病、基因调控和其他表型等有重大影响[13]。与单核苷酸多态性(SNPs)相比,SV 的情况复杂得多,因此更难以检测和识别。由于二代测序长度较短,检测出的SV 具有低灵敏度和假阳性率高的特点,对这些复杂SV 的研究有很大的局限性,尤其是涉及重复区域的结构变异研究。而三代测序产生的读长平均长度远大于二代测序产生读长,大大有利于结构变异的检测。Couldrey 等[14]利用PacBio 长读长测序和Illumina 测序检测和评估新西兰奶牛的拷贝数变化,研究表明这种长读长测序对于CNV 的检测是一个理想的平台,将最终有助于改进基因组预测。
全外显子组测序(Whole Exome Sequencing,WES)目前被广泛应用于疑似或临床证实有遗传疾病的患者的基因检测。但是目前Illumina 的短读长测序技术在临床上诊断为孟德尔病(单基因病)的患者中,有很大比例(60%~70%)的患者在WES 上得到阴性结果[15]。即从临床WES 中只能发现一种杂合致病变异,可能原因是从短读测序技术检测致病结构变异(SVs)的能力有限。Miao 等[15]应用Nanopore 测序对一名未能通过WES 找到病因的患有糖原储存型疾病(常染色体隐性病,由G6PC 基因双等位基因突变引起)的患者进行全基因组测序,发现一个7.1 kb 的缺失,其覆盖了另一个等位基因上的2 个外显子,这表明复杂的结构变异可能解释了隐性疾病中WES 缺失第二个致病等位基因的部分情况。缺失的2 个断点都在Alu 元素内,于是Miao等[15]设计了基于断点的Sanger 测序和定量PCR 分析,以用来对患者家庭计划生育的另一个孩子进行胚胎植入前遗传诊断(PGD),在通过体外受精后获得的4 个胚胎中,经PGD 后将1 个G6PC 基因无缺失的胚胎进行移植。经产前诊断、产后诊断及出生后情况证实无疾病症状。该研究第一个使用三代长读长测序来识别外显子测序阴性患者中具有因果关系的复杂结构变异,从而使成功的个性化PGD 成为可能。同时该研究表明,三代测序为通过短读测序发现未确诊或被误诊患者的基因变异提供了一种手段,并有助于提高临床诊断的效率。
2.2 在转录组方面的应用
2.2.1 全长转录组测序(Iso-Seq) 短读长RNA 测序(RNA-seq)技术的发展大大提高了基因表达的定量效果。然而这个方法的主要局限性之一便是由于读长很短,根本无法解析最复杂的基因或包含许多类似转录本形式的基因家族的结构[16]。Iso-Seq 是基于SMRT 测序技术,凭借超长读长的优势,无需打断RNA 分子,直接对反转录的全长cDNA 测序,即可得到从5’末端到3’PolyA尾的高质量全长转录本序列,从而对同源异构体、可变剪接、融合基因、同源基因、超家族基因、等位基因表达等进行精确分析,而且Iso-Seq 允许在不使用参考基因组的情况下直接测序10 kb 以下的转录本[3]。
选择性剪接是真核生物中广泛使用的一种增加蛋白原种类的机制。二代短读长测序在定性基因表达和事件检测方面是有效的。然而,其准确检测剪接基因变异的能力有限。Shi 等[5]对HX1 转录组的长读长测序中揭示了新的未在GENCODE 中注释的、被短读RNA-Seq遗漏的剪接基因。Chen 等[17]同样采用Iso-Seq 技术对家兔进行全转录组分析,从14 474 个基因座中获得了36 186 个高信度转录本,其中超过23%的基因座和66%的亚型尚未在目前的参考基因组中得到注释。此外,在这一新构建的转录组中检测到17%的非编码RNA 和多达24 797 个可变剪接以及11 184 个可变聚腺苷酸化事件。Li 等[18]用PacBio 测序技术对猪转录本进行了研究,获得了389 781 个高质量的FLNC reads,其中77 075 个亚型包含39 940个位点,97 727个可变剪接事件和4 394个以前未在猪中注释的新lincRNA。该研究首次对猪的剪接变异提供了全面的观点,并证明了Iso-Seq 在识别FL 剪接亚型方面的优势。这些研究都表明了基于三代测序的Iso-Seq 在构建一个更完整的参考转录本、准确评价转录组的复杂性、完善对基因组的注释方面具有巨大优势。
2.2.2 快速鉴定病毒基因型 畜禽健康不断受到病毒感染的挑战,病毒感染可引起肠、呼吸道、生殖和全身性疾病。利用基于二代测序的宏基因组学方法从病原体中检测核酸是诊断检测的一种基本解决方案。然而,大多数二代测序平台需要大量投资,而且病毒基因组学还需要大量的实验室准备工作,包括离心、过滤和核酸酶处理,以丢弃构成现有大部分核酸的细菌和宿主核酸。此外,样本中的病毒核酸含量非常低,在二代测序分析之前需要对这些基因组进行靶向或随机扩增,扩增可能会引起偏差。以上这些因素导致从样本采集到生成诊断报告需要花费大量时间,阻碍了快速诊断的发展。
掌上纳米孔测序仪(MinION 测序仪)是一种最新的基于Nanopore 测序的微型测序仪,仅有U 盘大小,十分便携。Theuns 等[19]用MinION 测序仪对用细胞培养的猪流行性腹泻病毒和轮状病毒A 进行测序,测序开始后7 s 便检测到序列,3 h 后测序深度可达19.2~103.5X。在Theuns 等[19]人对细胞培养的病毒鉴定成功后,他们通过对一只1 周大的乳猪的粪便样本进行分 析,进一步测试了MinION 的性能,结果表明MinION 可以快速检测肠病毒。新城疫(NDV)是家禽养殖业面临的全球性挑战,对新城疫病毒(NDV)的快速识别和毒力预测能够有效提高管理效率。Butt 等[20]也使用MinION测序仪对33 个鸡蛋分离物样本(其中15 个NDV 基因型和15 个临床样本)进行测序分析,并与Miseq 测序进行比较,两者都能准确预测到毒力和基因型,而且MinION 测序和MiSeq 测序的序列结果基本一致。
总的来说,虽然这些检测需要在更多病毒更多情况下进行更广泛的验证,但在不久的将来,这种新技术将改变诊断的方式。届时,一个样本中所有病毒和其他病原体的完整概述遗传信息将只需几分钟在一个读数中给出,而不需要不同的诊断分析。
2.3 在表观遗传学领域的应用 表观遗传修饰在基因表达的抑制、胚胎发育的调控和细胞染色质结构的测定等方面具有重要影响,例如细菌表观遗传修饰在细胞应激反应、DNA 复制、分离、耐药等过程中起着关键作用。在以往的表观遗传修饰检测中,亚硫酸氢盐测序是在二代测序平台上最常用的全基因组甲基化模式检测方法,它需要对亚硫酸氢盐处理过和未处理过的DNA 进行测序,并且需要比较这两个序列的读长,该处理过程繁琐且效率有限。而且由于二代测序缺乏简单的方法来确定大多数DNA 修饰的位置,许多DNA 修饰通常被忽略[21]。而利用三代测序技术检测细菌表观遗传修饰能够实时检测DNA 的合成状况并能够分析测序过程中各种类型的DNA 修饰(包括某些类型甲基化m6A、m4C、m5C 在内的碱基修饰),无需DNA 预处理或扩增[22]。Rand 等[22]使用MinION 装置检测了大肠杆菌不同生长阶段基因组DNA 甲基化水平的变化,研究者用20 X 的测序深度准确地绘制了大肠杆菌DNA 中96%细胞因子的甲基化状态。2017 年,Castro-Wallace 等[23]利用MinION 纳米孔测序仪进行了极端环境太空站下细菌的基因组测序、组装、甲基化等研究,结果表明该测序仪可以在国际空间站上进行快速的现场诊断和微生物鉴定,并且可以在任何空间环境中进行大规模的微生物鉴定。简而言之,三代测序相比于目前标准的亚硫酸氢盐测序可以提供新的见解,而且具有更大的优势,是一种高效、强大的DNA 碱基特征识别方法。
与一代测序的低通量、二代测序的短读长相比,三代测序做到了高通量、长读长,长读长能够有效减少基因组拼接的成本,节省计算的内存和时间,在原理上也避免了PCR 的扩增错误,同时可以直接应用在RNA 测序、DNA 甲基化等研究上。新兴的三代长读长测序技术以及相关的生物信息学软件,使得人们为在动植物上构建出越来越多高质量的基因组、转录组、表观基因组成为可能。三代测序带来的更高质量的参考基因组和整个染色体更好的分辨率,促进了基因组各个方面的分析:更完整和更准确的基因表达、更好地测定临床变异,改进的调控区域和其他重要基因元件的定位,改进的等位基因特异性的分型。
然而三代测序仍存在一些重要限制因素:碱基错误率太高、依赖DNA 聚合酶的活性、成本高、生物信息软件不够丰富等。因此,对这些因素的改善有益于促进三代测序的应用。虽然三代测序的碱基错误率远高于一代测序和二代测序,但是利用先进的生物信息学方法,读长中单个核苷酸测序的错误率对组装序列准确性的影响相对较小,因为在具有足够测序深度的情况下(30X或更高),它们可以有效地将每个核苷酸测序的错误率由20%降低到1%以下[24]。不过这也带来了成本的提高,三代测序的测序成本远高于二代测序,所以仅用三代测序进行大规模群体应用目前是不现实的。因此,将廉价的二代测序与三代测序进行结合分析是有必要的。比如利用二代测序对三代测序进行校正,利用相对较少的由长读长测序产生的高质量参考基因组来改进之前仅用短读长测序产生的大量基因组的分析。另一个重要研究成本便是数据的计算,这些测序数据的计算需要大量的数据存储和计算成本。因此,还需要进行更多的算法和系统研究,使得分析更快、更廉价、更实用。目前新的技术如机器学习技术、深度学习技术等,可以用来进一步提高序列的准确性,或改进对基因组变异或表观遗传修饰的检测。因此新的下游校正软件、变量调用软件和可视化工具等都有待于相关研究者的进一步开发。
相信对三代测序限制因素的改进能使得三代测序的应用范围和应用规模越来越大,诸如应用在宏基因组学和泛基因组学的发展上,促进在诸多物种上的研究。这些研究不但可以促进人们对生命科学的进一步了解,而且还可以应用在精准医学上,例如从基因的水平上来对疾病进行预防,促进“全民小康”的实现。