杨越,陶瑞旸,李敏,3,于欢,4,陈丽琴,王亚丽,李成涛
1.内蒙古医科大学法医学教研室,内蒙古 呼和浩特010030;2.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海200063;3.四川大学华西基础医学与法医学院,四川 成都610041;4.苏州大学医学部法医系,江苏 苏州215000
Y 染色体遗传标记由于父系遗传的特点,在法医学领域受到了学者们的广泛关注。目前,法医学实验室主要采用毛细管电泳技术对Y 染色体上短串联重复(short tandem repeat,STR)遗传标记进行检测,用于家系检索或亲缘关系鉴定。近年来,二代测序(next generation sequencing,NGS)技术发展迅速,可以完成多类遗传标记的检测,且测序成本也有较大的下降。学者们开始尝试应用这一技术对Y染色体上STR与单核苷酸多态性(single nucleotide polymorphism,SNP)遗传标记联合检测进行更为精准的Y 染色体信息溯源。本文拟阐述Y 染色体遗传标记的主要类型及其在法医学中的应用现况,介绍NGS 技术用于法医遗传学分子标记检测的主流平台、原理以及应用优势,总结国内外可用于检测Y 染色体遗传标记的商品化NGS 试剂盒及自主构建的NGS 检测体系的性能,讨论目前在法医学领域应用NGS 技术仍待解决的问题,并对NGS 技术的应用前景进行展望。
Y 染色体独属于男性个体,在男性性状发育中意义重大。其长度约为60 Mb,占人类基因组总量的2%左右[1]。Y 染色体上不与X 染色体发生重组的区域称为非重组区(non-recombining Y,NRY),约占整个染色体的95%。非重组区在同一家系的男性中世代稳定遗传(不考虑突变),呈现高度特异性和保守性。Y染色体上有STR 和SNP 两类多态性遗传标记,即YSTR 和Y-SNP,在法医学实践中应用最为广泛,如性别鉴定、混合斑检测、亲缘关系鉴定、家系排查及种族推断等[2]。在Y染色体上,多个连锁的STR和(或)SNP等位基因排列组合形成单倍型(haplotype),一组同源的单倍型则构成单倍群(haplogroup)[3]。
Y-STR 从其发现到应用经历了漫长的过程:ARNEMANN 等[4]于1986 年发现第一个可变重复序列为[TAGA]n的Y-STR(后命名为DYS19);ROEWER等[5]在1992 年出具了一份有关DYS19的报告,标志着Y-STR 开始应用于法医学;直到2004 年,Y-STR 在法医遗传学领域的应用才得到广泛认可。我国法医学界也对Y-STR 展开了积极的研究与应用,在2005 年已有报道称将Y-STR 家系分型方法应用于侦破强奸杀人案[6]。此后许多案件的侦破都有赖于Y-STR 的参与[7],因此建设法庭科学Y-STR 数据库对于辅助案件侦破具有重大意义[8]。需要指出的是,相同的单倍型由同一父系家族中的所有男性共享,这导致YSTR 分型检测结果不唯一,其价值在于排除而不能认定,更无法精准识别个体[9]。针对这一局限性,学者们提出了快速突变Y-STR、低突变率Y-STR[8]等概念,有助于区分同一父系的不同个体或提高系统发育树的分辨率等法医学实践[10-13]。
Y-SNP 在法医学中可作为Y-STR 的补充工具而发挥作用,并参与Y 染色体单倍群进化树的构建[14],因此近年来备受法医遗传学领域学者关注。第一个Y-SNP 基因座于1994 年由SEIELSTAD 等[15]发现并报道。相比于Y-STR,Y-SNP 的突变率更低,在遗传过程中更稳定,是推断父系地理祖先的理想标记[8]。在某些复杂的亲权鉴定中,如缺少其他亲属参与的祖父-孙子亲缘关系鉴定、男性个体间全同胞(半同胞)关系鉴定、叔-侄关系鉴定等,如果Y-SNP 分型检测结果不一致,可直接判定被鉴定人间不具有上述关系[16]。然而,Y-SNP 属于Y 染色体二等位遗传标记,即1 个标记通常只有2 个等位基因,所含遗传信息有限,这就意味着需要检测大量的Y-SNP 位点才能获得较高水平的识别率,因此Y-SNP 较少单独应用于法医学检案[17]。
NGS,也被称为大规模平行测序(massively parallel sequencing,MPS)[18],可以同时完成多个样本和(或)多种遗传标记的并行检测,节约检测样本量和检测时间,并可在合成测序模板互补链的同时读取序列数据[19]。NGS 技术的出现推动了相应测序平台的发展[20],目前法医应用较为成熟的NGS 测序平台主要有美国Illumina公司的Miseq FGxTM系统[21]和美国Thermo Fisher Scientific 公司的Ion TorrentTM半导体测序平台(如Ion S5TM[22])。Miseq FGxTM系统测序流程通过DNA片段化、末端补平、加A尾以及加测序专用接头等步骤构建可供上机的DNA 文库;再经过桥式扩增(bridge amplification)反应形成簇,从而放大测序荧光信号;运用边合成边测序的技术进行测序,带有荧光基团和阻断基团的脱氧核糖核苷三磷酸(deoxy-ribonucleoside triphosphate,dNTP)与序列结合,释放相应碱基的荧光信号,测序仪通过捕获荧光信号从而进行检测[23]。而Ion TorrentTM半导体测序平台同样采取边合成边测序的策略,区别在于使用的接头序列不同、采用乳化PCR 而非桥式扩增;此外,它不需要依赖光学系统记录结果,而是在dNTP 和DNA 模板结合释放出H+后,通过半导体传感器记录反应体系的局部pH 值变化,并以此来判断核苷酸类型[24]。
应用NGS 技术对STR 进行检测,可获得全解析度STR 基因座信息,大幅度提高STR 基因座的多态性,获得更高的个体识别效率。同一STR 基因座中核心序列可能既存在长度差异也存在序列差异,当基序出现变异或重复序列的重复次数改变时,基因座的序列信息不同,扩增片段长度却不会发生改变。利用传统的聚合酶链反应-毛细管电泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)技术检测包含此类变异的STR 基因座,由于仅针对扩增片段长度进行区分,因此会出现相同的检测结果,而使用NGS 技术检测STR 基因座能够清晰地分辨基因座中序列信息的差异[25]。如WANG 等[26]报道,在D12S319基因座观察到等位基因“21”存在6 种NGS-STR 序列,而CE 技术仅能依据长度检测到等位基因“21”。此外,当侧翼序列存在SNP 位点或InDel 位点时,NGS检测将获得更多等位基因及其序列信息,从而增加STR 基因座遗传信息含量。
NGS 技术应用于微量、降解或混合物等疑难检材分型的优势也十分显著。从微量生物检材中可提取的DNA 量通常偏低,应用CE 技术无法达到最佳检验要求,而应用NGS 技术则能够获得更多的基因分型结果[27-28]。对于陈旧的骨骼、牙齿以及腐败的组织等降解检材,由于模板DNA 高度碎片化,应用CE-STR试剂盒进行DNA 分型时可能会出现“优势扩增”或者“无效扩增”,而NGS 的扩增子长度不受CE 荧光染料的限制,提高了降解检材STR 基因座的检出率[29-30],并通过增加STR 基因座进一步提高个体识别和亲权鉴定的证据强度。此外,NGS 技术可以获得相同长度等位基因间的序列差异信息,提高识别能力,使混合样本的分析更加简便高效[31-33]。
NGS 技术针对STR 基因座的检测具有诸多优势,由此催生出许多商业化NGS-STR 试剂盒。由于YSTR 呈父系遗传的特点,其在与男性相关的法医学案件实践中具有重要意义,所以不乏试剂盒中涵盖一定数目的Y-STR 基因座。美国Illumina 公司推出的ForenseqTMDNA Signature Prep 试剂盒是第一个经过验证的同时包含STR 和SNP 的试剂盒[34],也是目前基于Miseq FGxTM系统最成熟的商品化试剂盒[35]。该试剂盒共包含58 个STR 基因座(27 个A-STR、7 个XSTR 和24 个Y-STR)以及172 个SNP 标记(94 个个体信息SNP、56 个祖先信息SNP 和22 个表型信息SNP)。CHURCHILL 等[36]在2016 年对该试剂盒的测试版本进行了评估,除DYS392基因座由于覆盖深度过低导致3 次重复实验中的2 次结果不能确定外,其余YSTR 基因座的NGS 分型结果与CE 结果完全一致;DYS456基因座性能较差(序列覆盖率<0.6),可能出现等位基因丢失或将测序错误结果误判为基因突变的现象,因此该基因座在正式版本中被剔除。GUO等[37]对正式版的试剂盒进行了评估,发现以200 pg DNA 即可获得全部的SNP 分型图谱,100 pg 可获得全部的STR 分型图谱,但其认为一些性能不佳的Y-STR基因座(如DYS392、DYS481和DYS612等)有待优化;这与MORENO等[38]的报道类似,其在DYS392和DYS385两个基因座上观察到等位基因不平衡、部分或全部缺失的现象。国内有研究者[39]使用该试剂盒对108 名云南苗族个体进行测序以研究其序列多态性,结果从所测个体中检出了106 种Y-STR 单倍型,在24 个YSTR 基 因 座 上 共 检 出204 个 基 因,在7 个Y-STR 基 因座(DYF387S1、DYS390、DYS389Ⅱ、DYS437、DYS438、DYS448、DYS612)上的等位基因存在片段长度相同而序列不同的情况。这些针对ForenseqTMDNA Signature Prep 试剂盒的研究均证明了其包含的24 个YSTR 基因座在法医遗传学领域具有一定的应用价值。另外,美国Promega 公司也基于Miseq FGxTM系统推出了PowerSeqTM系列试剂盒,其中PowerSeqTMAuto/Y System 试剂盒共包含22 个A-STR 基因座、1 个性别标记Amelogenin和23个Y-STR基因座。SILVA等[40]对该试剂盒进行了评估,发现基于Y-STR 序列信息的等位基因数目多于基于其长度的等位基因数目(13.8%),且根据序列进行等位基因分析时,可获得更高的杂合度、多态信息含量和遗传多样性等。PowerSeqTMAuto/Mito/Y System 试剂盒是在PowerSeqTMAuto/Y System试剂盒的基础上增加了10 个线粒体DNA(mitochondrial DNA,mtDNA)基因座,在应用该试剂盒对YSTR 基因座进行分型检测时,同样可以增加等位基因多样性,从而增加单倍型多样性[41]。
除商业化试剂盒外,一些法医学者也围绕感兴趣的Y-STR 基因座展开了研究。由于Y 染色体上存在回文区域,Y-STR 相比A-STR 结构更为复杂。某些Y-STR 基因座在染色体上存在多个拷贝,在使用特异性引物扩增时会产生多个PCR 产物,可能会被错认为是单倍型上的不同基因座,通过NGS 技术可以从序列多态性角度获得更为详细准确的Y-STR 序列信息和分型结果。安雷雷等[42]初步建立了基于NGS技术的Y 染色体多拷贝STR 基因座(DYF404S1)分型方法,有3 例样本可能由于Y 染色体上发生重组[43]而出现三等位基因的异常分型;225 例样本中除5 例由于扩增不均衡导致分型失败外,其余样本均得到正确分型结果。另有部分学者自主构建了基于NGS 平台的Y-STR 检测体系:ZHAO 等[44]构建了一个包含13 个Y-STR 基因座(DYS19、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392、DYS437、DYS438、DYS439、DYS448、DYS456、DYS635、GATA-H4)的检测体系,并应用Ion TorrentTM半导体测序平台对其进行了验证评估。该研究中除了DYS389Ⅱ的扩增子相对较长而导致其检测失败率达到1.8%外,其他所有基因座均被成功检出。由于存在序列组成差异,在DYS389Ⅱ、DYS390、DYS437、DYS448和DYS6355 个基因座上分别观察到7、3、2、6 和5 个新等位基因,在DYS438由于发生碱基置换而观察到了1 个新等位基因,核心重复序列上游有4 bp 碱基缺失,导致DYS390的1 个等位基因与CE 检测的分型结果不一致。KWON 等[45]构建了1 个包含23 个Y-STR 基因座(DYS19、DYS385a/b、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、DYS448、DYS456、DYS458、DYS481、DYS533、DYS549、DYS570、DYS576、DYS635、DYS643和YGATAH4)的 检测体系,并使用Miseq FGxTM系统对250 名韩国无关男性个体样本进行测序。研究通过对比基于NGS 与CE 得到的分型结果,发现CE 方法检测到的基因多样性较低的Y-STR位点,可能通过NGS 方法显示出更高的等位基因多样性;借助于类似的多重分析系统,法医实验室可获得大量的Y-STR 重复序列信息和侧翼序列信息;研究还报道了该体系的stutter 峰和信噪比,为分析低拷贝数和混合DNA 样本的等位基因提供了有效的信息。上述研究证明,基于NGS 平台的检测体系将有助于在法医遗传学实验室中进一步开展对Y-STR 的应用。
由于从点样到分型均可实现自动化,基质辅助激光解吸电离/飞行时间质谱(matrix-assisted laser desorption ionization time-of-flight mass spectrometry,MALDI-TOF-MS)技术一直被认为是一种较理想的中高通量Y-SNP 检测技术,法医学者们也围绕这一技术展开了相关研究[46-48]。但质谱技术对组织样本的分型效果较差,且所需样本量较高,因此在大规模应用中存在一定的局限性。Ion TorrentTM半导体测序平台等NGS 平台被引入法医遗传学领域后,由于其操作简便、节约成本、高灵敏度及高精确度等优势,为SNP 的分型检测带来了新方向和新思路[49]。现已有生物公司基于各NGS 平台开发出了专门针对法医学应用的商品化SNP 检测试剂盒。例如,美国Thermo Fisher 公司基于Ion TorrentTM半导体测序平台开发的HID-Ion AmpliSeq Identity Panel,是该平台第一个商业化的SNP 检测试剂盒,共 包含90 个A-SNP 和34 个Y-SNP。EDUARDOFF 等[50]对该试剂盒的测试版本进行了评估,发现25~100 pg 的DNA 可获得90%~95%的SNP 分型;5 个SNP 标记(rs2032597、rs2399332、rs1979255、rs1004357、rs938283)检测到分型不一致现象,在试剂盒的正式版中剔除了这些标记[51];由于测序深度不足或分析参数设置不当等原因,在9 个SNP 位点观察到信号丢失。OCHIAI 等[52]针对HIDIon AmpliSeq Identity Panel 的研究表明,与Sanger 测序相比,NGS 测序可以通过更简便的步骤提供更全面的Y-SNP 分型,而且这种工具还可用于不同人群的亲子鉴定或个人识别[53]。刘浩等[54]使用该试剂盒对降解检材进行了检测,平均检测成功率82.7%,平均杂合子均衡性74.8%,相较于CE差异有统计学意义(P<0.05)。
国内外另一大研究热点是基于NGS 平台自主构建Y-SNP 遗传标记检测体系,对深部序列结构进行分析并对体系的分型能力进行验证。RALF 等[55]使用Ion TorrentTM半导体测序平台对530 个Y-SNP 进行并行测序分型,该体系涵盖了整个Y 染色体遗传发育树的分支,从而可最大程度获得父系谱系分类。GAO等[56]利用Ion TorrentTM半导体测序平台构建了包含74 个Y-SNP 标记的检测体系,对100 个四川汉族样本进行分析后将其分为18 个单倍群,并据此绘制了新的系统发育树。这种新的系统发育树几乎覆盖了中国所有的Y 单倍群,因此可以用来准确定位任意中国男性在系谱中的位置。WANG 等[57]设计了一个包含165 个Y-SNP 位点的NGS 检测 体系,并依据54 名无关男性个体样本的测序数据分析评估体系的测序性能,研究发现,除9 个性能较差的Y-SNP(4 个覆盖度过低,5 个背景噪声较高)以外,其余标记表现良好,并且可达到较高的分辨率,证明了该Y-SNP 检测系统可补充以前的检测方法,是一种适用于中国人群进行父系亲缘关系鉴定和法医学家系溯源的有利工具。
NGS 技术的高速发展丰富了法医遗传学研究的方式,成为具有极高应用价值的法医学检测技术,国内外法医学者都迫切期望将这一技术的先进成果应用于实际案件检验中。现已有NGS 商业化试剂盒可检测STR 和(或)SNP,用于个体识别或亲权鉴定等法医学实务[58]。另有学者构建了针对Y-STR 或Y-SNP的NGS 检测体系,为进一步将NGS 技术应用于父系亲缘关系鉴定或家系溯源等提供了理论依据[59]。此外,许多研究[60-61]还表明,Y-STR 和Y-SNP 的联合分析不仅可用于男性的个体识别,还可用于父系生物地理谱系推断,并且所获得的Y-STR 和Y-SNP 频率分布对于评估中国汉族人群乃至世界男性人群分级具有重要意义。但目前,联合应用的主要方法为通过CE 与NGS 分型体系分别对样本进行检测,将所得YSTR 和Y-SNP 数据整合后再进行分析[62]。而随着NGS 技术的应用,对多种遗传标记进行并行测序分析不仅可节约检测时间,同时也可减低样本的损耗,因此近来亦有将Y-STR 和Y-SNP 复合扩增后进行并行测序的报道[63],可能成为今后法医学Y 染色体遗传标记检测的有力技术手段。
然而,当前法医遗传学界对于NGS 技术的应用仍有大量工作有待开展:(1)大规模并行测序的实现使DNA 检测结果不再单一,而是可能涵盖A-STR、YSTR、X-STR、线粒体DNA 信息等多种标记类型的遗传信息。信息量骤增的同时,数据的形式也更为复杂,因此需要数据库拥有更强大的对比和存储信息能力。(2)各测序平台都有出现测序错误的概率,因此研制并完善操作简便、准确性高、分析快速的测序数据分析软件对于NGS 数据的使用具有重要意义。此外,综合分析所有遗传标记及其侧翼区信息并实现NGS 数据与现有大量CE 数据的一致性和兼容性也是亟待解决的问题。我国在制定NGS 数据应用标准方面也仍处于探索阶段,不同实验室不同平台的等位基因命名规则、检测结果解读需要统一,以便后续实现数据共享。同时,我国需要研发适合中国人群的具有自主知识产权的NGS Y-STR(SNP)检测试剂盒,以期发现新的等位基因,积累各民族、各地域人群的等位基因频率并扩充Y 染色体DNA 数据库。