高通量基因测序仪行业标准的验证

2021-08-07 07:56孙楠曲守方陈样宜高飞张文新于婷黄杰
分子诊断与治疗杂志 2021年7期
关键词:碱基高通量文库

孙楠 曲守方 陈样宜 高飞 张文新 于婷★ 黄杰★

随着检测技术发展,高通量测序技术已经在临床被广泛应用于遗传和肿瘤检测领域,如无创产前基因检测(NIPT)、胚胎植入前遗传学筛查与诊断(PGS/PGD)、遗传病筛查与诊断、肿瘤诊断与治疗等[1-4]。目前商业上常用的二代测序平台根据测序原理可分为光学技术(Illumina 公司和华大基因公司为代表)和半导体技术(Thermo 公司为代表)[5-6]。每个测序平台都有各自的特异性参数,包括仪器大小、通量、读长、运行时间及测序成本等,应结合具体的临床应用需求选择合适的测序平台进行评估[7]。不同测序平台之间存在显著的系统性差异,对测序平台性能进行综合评估能够有效规范临床应用平台的使用和应用开发。为实现对第二代测序仪器性能评估,中国食品药品检定研究院研制了测序仪性能评价用脱氧核糖核酸国家参考品,也制定了高通量基因测序仪行业标准。本研究按照制定的高通量基因测序仪行业标准的性能指标的要求,使用测序通量<20 Gb/run 且≥2 Gb/run 高通量基因测序仪进行验证,评价该标准的可行性。

1 材料与方法

1.1 试剂与仪器

测序仪性能评价用脱氧核糖核酸国家参考品,包括四种基因组DNA 样本,分别是人基因组DNA 样本(Human_1~3)、大肠杆菌基因组DNA 样本(Ecoli_1~3)、高GC 含量细菌基因组DNA 样本(Olsenella_1~3)、人乳头瘤病毒11 型基因组DNA样本(HPV11_1~3),中国食品药品检定研究院(简称中检院)提供。

文库构建试剂盒、测序反应通用试剂盒(半导体法)和BioelectronSeq 4000 基因测序仪,东莞博奥木华基因科技有限公司提供。

1.2 文库构建

采用文库构建试剂盒(半导体测序法)对样本进行文库制备。先将国家参考品DNA 酶切,接头连接,进行目标DNA 片段的PCR 扩增,获得待测序分析的文库。使用荧光定量PCR 仪测定各个文库的浓度,按照等物质的量混合文库。

1.3 测序

采用测序反应通用试剂盒(半导体法)(S10010)并按照试剂盒说明书进行操作。将一定量的混合文库,加到测序芯片上,用Bioelectron-Seq 4000 基因测序仪,将带有测序接头的DNA 文库加入乳液扩增反应体系,使每个DNA 模板在独立的微扩增环境中扩增放大,然后将其作为测序模板载入测序芯片。将四种脱氧核苷酸分别标记不同的荧光基团,每一个循环添加一种核苷酸,该核苷酸如果被合成到DNA 中会释放氢离子,引起溶液pH 值变化从而得到核苷酸序列信息。

1.4 数据分析

测序完成后通过生物信息软件,对获得的fastq 数据进行过滤,使用BWA 软件,将每个read与参考序列进行比对,使用软件GATK Haplotype Caller 对比对结果进行变异分析。

2 结果

2.1 测序覆盖率和测序平均深度

对于“测序覆盖率和测序平均深度”,标准要求制造商应规定检测国家参考品或标准品的测序覆盖率和测序平均深度。制造商规定的要求为:测序覆盖率要求>95%,测序平均深度应>100×。结果表明,测序覆盖率为99.99%,测序平均深度为166×,符合制造商的规定。

2.2 测序准确率

对于“测序准确率”,标准规定在制造商规定的测序覆盖率和测序平均深度下,符合以下要求:①检测人基因组DNA 参考品或标准品中指定的全外显子区域,比对率应符合制造商的要求,与指定全外显子区域单核苷酸多态性(Single nucleotide polymorphisms,SNP)和插入缺失(Insertion-deletion,Indel)参考数据集比较,SNP、Indel 的准确率和灵敏度应符合制造商的要求;②检测人基因组DNA 参考品或标准品中指定的全外显子区域,比对率应符合制造商的要求,与人基因组DNA 参考序列中指定的全外显子区域比对,测序一致序列准确率应不低于99.0%;③检测细菌和病毒DNA 参考品,与对应参考序列比对,测序一致序列准确率应不低于99.0%。结果表明,对国家参考品中人基因组DNA样本(Human)的比对率为86.14%,碱基测序准确率为98.97%;SNP、Indel 准确率为95.40%;SNP、Indel灵敏度为85.75%,均符合制造商的要求:比对率应>80%,碱基测序准确率应>95%,SNP、Indel 准确率应>90%,灵敏度应>80%。对国家参考品中人基因组DNA 样本的一致序列准确率为99.94%,符合制造商的一致序列准确率>99.0%要求。对国家参考品中人乳头瘤病毒11 型基因组DNA 样本(HPV11)、大肠杆菌基因组DNA 样本(E.coli)、高GC 含量细菌基因组DNA 样本(Olsenella),HPV11的测序一致序列准确率为100%;E.coli 的准确率为99.95%;Olsenella 的准确率为99.88%,均符合制造商的一致序列准确率>99.0%要求。

将下机数据分别与参考基因组进行比对,统计比对率和错配率,进而计算出碱基准确率(1-错配率),将人基因组样本的数据与人类参考基因组hs37d5 使用BWA 比对,然后使用GATK Haplotype Caller 对比对结果进行变异分析获得检测的变异数据集,最后分析该数据集在27 Mb 外显子区域的结果与高置信变异集的比对一致性情况,将大肠杆菌E.coli,高GC 菌Olsenella 和HPV-11 下机数据与各自基因组的一致性序列比对。见图1。

图1 国家参考品比对结果Figure 1 Mapped results of national reference materials

人基因组样本数据与人类参考基因组hs37d5进行比对和变异检测,与高置信变异标准集进行比较,变异评估结果见表1和图2。

图2 外显子27M 区域人基因组样本的变异评估结果Figure 2 Variation assessment results of human genome samples from exon 27M region

2.3 重复性

对于“重复性”,取国家参考品进行三次重复测序,每次结果均符合“测序覆盖率和测序平均深度”和“测序准确率”要求,结果见图1、表1。

表1 外显子27M 区域人基因组样本的变异评估结果Table 1 Variation assessment results of human genome samples from exon 27M region

3 讨论

传统的化学降解法、双脱氧链终止法以及在它们的基础上发展来的测序技术统称为第一代测序。它在分子生物学研究中发挥了重要的作用,如人类基因组计划。第二代测序主要包括罗氏454 公司的454 测序技术、Illumina 公司的Solexa 测序技术和Life Technologies 公司的Ion Torrent 测序技术[8-10]。与传统测序技术相比,二代测序技术的核心思想是边合成边测序,具有高通量、低成本等优点。

许多公司进行了高通量测序仪的开发和应用。但是目前尚无统一的标准对高通量测序仪的性能及使用进行规范,对其临床上的风险不易把控,所以亟需研制相应的行业标准对其性能进行评估。行业标准的制定将有助于提高并统一产品的标准[11-12]。中国食品药品检定研究院制定了高通量基因测序仪行业标准。经过对各测序指标的筛选、比较与分析,最后确定了符合高通量基因测序仪的评价指标,包含测序读长和通量、碱基识别质量百分比、测序覆盖率和测序平均深度、测序准确率、重复性、软件功能、安全要求、环境试验要求和电磁兼容性要求等。鉴于不同测序平台因为其测序原理和技术手段不同,具有不同的测序平均读长。测序平均读长过短会影响后续拼接、组装和比对等,从而影响测序效果。因此需要对测序读长这一指标加以规范。测序通量也是代表性的指标之一,因为高通量测序区别于一代Sanger 测序的明显差别之一就在于其测序通量。而测序准确率这一指标,可以最直观的表现每次测序结果的精确程度,其对高通量基因测序结果评价具有重要意义。

二代基因测序技术检出数据量非常庞大,要借助生物信息学分析,对检测结果进行初步分析。研究表明在进行Indel 分析时,由于Indel 存在导致Indel 周边碱基的测序质量会有所降低,从而对Indel 的检出以及可靠性评估都会造成较大影响[13]。在测序一致序列准确率均不低于99.0%的情况下,在SNP、Indel 的准确率和灵敏度存在较大的差别,主要是平台本身的技术原理和技术性能决定的。本研究的一致序列准确率是计算平台在所有覆盖区域上的主要碱基与参考序列一致的占比,次要碱基不列入统计,次要碱基可能为测序错误,也可能为真实存在的变异。本研究的平台采用GATK Haplotype Caller 软件获得SNP 和Indel,该软件对某位置上存在两种以上的碱基时,会用隐马尔科夫模型在给定的read 数据下,计算各单倍型的进行最大似然值,给出可信变异的列表。因此在平均深度为100×的测序中,测序有效覆盖区域的一致序列准确率可以达到99.0%甚至99.9%的水平。半导体测序法的特点是快速实时读取碱基,碱基准确率相比基于荧光信号识别碱基的高通量测序平台稍差,特别是连续相同碱基(homopolymer)的区域测序获得的错配碱基部分为可重复的情况,在未进行系统性校正的情况下容易超过软件统计模型设定的阈值,从而导致准确性和灵敏度下降。Ion Proton 平台一般采用扩增子法进行文库构建。SNP 仅是单个碱基的变化,因此对于PCR 扩增的影响极小,但Indel 一般是多个碱基的插入或者缺失,若发生Indel 的位置与PCR 引物的位置有交叉时,则极有可能导致扩增失败,Indel 的扩增失败率要远远高于SNP,导致其准确性和灵敏度远远低于SNP。比对基因组主要是观察测序序列与参考序列的相似程度,扩增子长度在200 bp 左右,SNP 的单个碱基变化导致测序序列与参考序列的差别是非常小的。但是Indel的十几个碱基的插入与缺失,使测序序列与参考序列的差别大幅增加,增加了基因组比对的困难,导致Indel 的reads 被丢弃。因此在生信分析比对基因组过程中也会导致Indel 的准确性和灵敏度远远低于SNP。实际临床应用中,可采用基于半导体测序平台测序偏好的相关分析方法如TMAP 和TVC 配套软件,准确性可提高至97%;或者开发基于特定基因位点变异模式的贝叶斯分析方法,降低测序错误的影响,提高检测性能。国家参考品中增加了SNP、Indel 的准确率和灵敏度的要求,但并未对平台进行统一规定,要求制造商给出各自平台的具体要求。这一评价方式和国际上评价测序仪的方式一致。

本研究采用BioelectronSeq 4000 基因测序仪按照高通量基因测序仪行业标准对国家参考品进行检验,测序通量<20 Gb/run 且≥2 Gb/run。验证结果显示符合行业标准的测序覆盖率和测序平均深度、测序准确率和重复性的要求,表明该行业标准具有很好的适用性,可以用于高通量测序仪的性能评价和上市后的监督管理工作。

猜你喜欢
碱基高通量文库
高通量卫星服务专用网络的应用模式探索
高通量血液透析治疗老年慢性肾衰竭对治疗有效率、Hb及ALB指标的影响研究
新一代高通量二代测序技术诊断耐药结核病的临床意义
高通量卫星通信综述
基因“字母表”扩充后的生命
创建新型糖基化酶碱基编辑器
Spiritual Humanism: Its Meaning and Expansion
关于推荐《当代诗坛百家文库》入选诗家的启事
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员