盛 翔 ,包 云 ,张家硕 ,李 敏 ,李亚男 ,徐倩男 ,张素华 ,李成涛
(1.苏州大学医学部法医学系,江苏 苏州 215123;2.司法鉴定科学研究院 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;3.内蒙古医科大学基础医学院,内蒙古 呼和浩特 010030;4.温州医科大学法医学系,浙江 温州 325035)
遗传标记是法医遗传学中进行个体识别和亲子鉴定的主要依据,寻找人类基因组中分布广泛、具有高鉴定能力、易于检测分析的遗传标记是获得法医物证检验高概率认定结论的基础。目前,用于法医遗传学实验室的主要遗传标记为短串联重复(short tandem repeat,STR)序列[1-2],是 2~6 bp 重复的长度多态性遗传标记。STR多态性较高,但在实践中发现其存在突变率高[3]、PCR扩增片段长、数量有限等缺陷。单核苷酸多态性(single nucleotide polymorphism,SNP)作为第三代遗传标记,是在基因组水平上由单个核苷酸变异引起的DNA序列多态性,与STR相比,其优势表现为突变率更低[4-5]、扩增子短、容易实现多个位点的复合扩增[6-7],有利于降解检材的分型[7]。然而,检测SNP位点的技术复杂多样[8-9],难以在各法医实验室间普及。综上所述,寻找一种合适的新型遗传标记具有重要意义。 插入/缺失(insertion/deletion,InDel)遗传标记表现为DNA片段的插入或缺失形成的二等位基因长度多态性,在一定程度上弥补了STR和SNP的应用缺陷,受到国内外学者的关注。本文主要从InDel遗传标记的特性和遗传学基础、法庭科学中的应用以及InDel的研究方法等方面进行综述,以期为后续研究提供参考。
2002年,WEBER等[10]指出了人类基因组范围内存在约2000个InDel遗传标记,占人类多态性标记的8%。2006年,MILLS等[11]应用全基因组重测序及计算机技术绘制了第一张人类基因组InDel遗传标记的分型图谱,该图谱包括415436个InDel遗传标记,平均密度为每7.2kb碱基即可发现一个InDel。2010年,千人基因组计划联合工作组[12]描绘了人类遗传变异图,其中包括1500万个SNP、100万个InDel和2万个结构变异的染色体定位、等位基因频率及单倍型结构。2015年,该工作组提供了更加全面的人类全基因组测序结果,在26个人群共2 504名个体的全基因组序列中发现了8 470万个SNP、360万个InDel和6万个结构变异[13]。上述研究表明,InDel是人类基因组中广泛分布的一种遗传标记,具有研究价值。
InDel按照表现形式可以分为以下五类[11]:(1)单个碱基对的插入/缺失;(2)单碱基对重复插入;(3)多碱基对(2~15 个)重复插入;(4)转座子的插入;(5)随机DNA序列的插入/缺失。目前,法庭科学领域主要关注的是第五类InDel遗传标记,本文亦主要讨论该类型。作为一种表现为插入和缺失两种状态的长度多态性遗传标记,产生InDel的分子遗传学机制与很多因素相关。2003年,BRITTEN等[14]认为InDel的产生可能与转座子复制或插入、移动元件插入、序列异常重组和同类重复拷贝不等交换等因素有关。2004年,KONDRASHOV等[15]在研究人类编码区外显子序列时发现,InDel的产生频率与所在序列的碱基类型有一定关系。2005年,BHANGALE等[16]提出一种能够从目的基因中全面识别InDel变异的方法,并从330个备选基因中找到2393个突变点,指出人类基因组中缺失的发生高于插入的发生,并且认为InDel的产生机制不同于替换。另外,SJÖDIN等[17-18]的研究表明,InDel变异与复制错误、复制滑移及点突变也有一定的关系。截至目前,仍有大量InDel的产生机制有待进一步研究。
由单个或多个碱基的插入或缺失造成的、表现为DNA长度差异的InDel遗传标记,适用于目前STR分型常用的复合荧光多重聚合酶链反应(polymerase chain reaction,PCR)联合毛细管电泳(capillary electrophoresis,CE)分型平台,易于在不同实验室间普及[10-11]。同时,由于InDel遗传标记仅表现为二等位基因,易于分析。在人类基因组超过2000个InDel遗传标记中,约71%是2~4个核苷酸长度的差异[19],使得PCR扩增片段小,有助于降解检材的DNA分型。而且,InDel具有与SNP相近的突变率,约10-8[5],明显低于STR的突变率[4](10-5~10-3),具有较高的稳定性。在过去的十几年,国内外学者建立了一些适用于法医学检验的InDel分型体系并对其群体遗传学数据进行了报道。
2009年,PEREIRA等[20]选取常染色体非编码区的38个InDel遗传标记建立了一套用于个体识别的多重PCR分型系统,扩增片段均小于160 bp,0.3 ng的DNA模板便可获得完整分型,对部分STR分型出现丢峰的降解DNA样本也可获得完整分型。该体系在非洲、欧洲及亚洲的人群中多态性好,随机匹配概率达到了10-15~10-14,可以有效地用于人群个体识别。同年,该课题组还证实了上述系统能够提高实际案件中高度降解的骨骼样本和石蜡包埋组织的检测成功率[21]。 2012年,ROMANINI等[22]联合应用上述 38个InDel和50个SNP分析35年前的遗骨,再次证实了该系统适用于降解检材的分析。PINTO等[23]使用15个STR和38个InDel分析100对叔侄和祖孙二联体,结果表明,在二联体中两个个体检测结果均相符的情况下,使用InDel遗传标记计算似然率更容易获得正确结果,从而降低了错判率。2016年,FERRAGUT等[24-25]用该系统分别分析同为犹太祖先的6个人群和伊比利亚半岛北部边缘6个人群的遗传结构,结果证实,该系统可以有效区分不同大洲的人群,对遗传距离很近的人群区分也有一定的价值。综上所述,PEREIRA等建立的38个InDel复合扩增体系具有广泛的法医遗传学实际应用价值。PIMENTA等[26]选取了常染色体上不连锁的40个InDel构建复合扩增体系用于亲权关系鉴定,这些位点在欧洲人群中等位基因频率均接近0.5,应用该体系分析360例巴西无关个体及50例标准母-子-可疑父三联体,40个InDel遗传标记的平均杂合度达到0.48,随机匹配概率达3.48×10-17,在法医学亲权关系鉴定中的系统效能与13个CODIS STR基因座相当。
2011年,LI等[27]在常染色体上选取29个高信息量不连锁的InDel遗传标记,建立了一套适合于中国汉族人群个体识别的多重PCR体系,并用该系统检测上海汉族无关个体的等位基因频率及遗传学参数,累积个体识别率在0.999 9以上,为中国汉族人群的InDel多态性研究提供了宝贵的数据。同年该团队又建立了包含30个常染色体InDel位点的多重复合扩增系统——InDel_typer30,所有位点扩增片段均小于260bp,并对中国5个民族(汉族、回族、藏族、维吾尔族、蒙古族)419名无关个体进行检测并评估了该系统效能,30个InDel位点在5个民族中的等位基因频率分布平衡,所有位点处于连锁平衡状态,匹配概率均达到 10-11[28]。
Investigator®DIPplex试剂盒是第一款针对常染色体InDel位点开发的商品化试剂盒,该试剂盒包含30个常染色体InDel遗传标记和性别鉴定基因(Amelogenin),扩增片段长度均在160bp内。2012年,LARUE等[29]对Investigator®DIPplex试剂盒进行了系统效能研究。该试剂盒可以分析多种类型的检材,并且在DNA模板量为62 pg时就能获得完整分型图谱,混合样本比例在6∶1~19∶1范围内可清楚检见低比例提供者。对30个InDel位点的人群研究表明,所有位点均符合连锁平衡,随机匹配概率达1.43×10-11,非父排除率在0.999999999以上。随后,国内外学者相继证实了该试剂盒在法医学个体识别和亲权鉴定中作为辅助检测工具的应用价值,同时也为法医遗传学研究提供了大量的基础数据[30-34]。HOLLARD等[35]尝试应用该试剂盒分析古DNA样本,结果表明,试剂盒适用于降解检材的分析。CARVALHO等[36]尝试将该试剂盒中的30个InDel位点用于模拟法医学案件中混合样本的研究:取男女性样本标准品各0.5 ng/μL进行混合,分型结果表明,混合样本的两个个体组分可清晰识别,相对于STR分型结果,避免了影子峰的干扰,使结果更容易判读。SHEN等[37]亦利用该试剂盒分析检测了中国土家族人群并与其他15个人群数据进行比对,结果显示这些位点具有高多态性,在法医学案件中可以作为STR检测的有效补充。这30个InDel位点在不同人群中存在遗传差异,可以作为人群结构和始祖信息研究的遗传标记。
近年来,InDel位点也开始被用于法医人类学的研究。早在2006年,国外学者BASTOS-RODRIGUES等[38]首次依据40个低突变率的小片段InDel位点研究人类基因组多样性计划-人类多态性研究中心(Human Genome Diversity Project-Centre d’Étude du Polymorphisme Humain,HGDP-CEPH)多样性体系[39],将世界范围内的人群进行分类并描述了人群间和人群内的差异。2010年,SANTOS等[40]选取与血统信息相关的48个始祖多态性位点(ancestry informative marker,AIM)构建复合扩增体系,分析三个已知混合血统的巴西人群,结果证实,该体系可以准确评估混合人群中个体和总体的祖先成分。MANTA等[41]选取在不同地理起源的人群中等位基因频率存在显著性差异的46个常染色体InDel位点作为AIM,对巴西413名无关个体进行祖先信息研究,证明该系统对巴西个体和群体水平祖先信息研究快速、有效。2016年,SUN等[42]提出将几个在物理位置上相距很近的InDel遗传标记看成一个位点,即multi-InDel遗传标记,用以提高二态遗传标记的祖先推断能力,可以很好地区分人群结构和推断祖先信息。
X染色体全长150 Mb,拥有1 100个基因,约占人类基因组的5%,2005年由ROSS等[43]完成了其测序工作,为X染色体遗传标记的研究奠定了基础。近年来,随着常染色体InDel遗传标记被学者们发掘和应用,针对X-InDel位点也有了系列研究。2009年,EDELMANN等[44]构建了包含26个X-InDel的体系用于亲权关系鉴定,并证实了其在混合人群中可以获得准确的亲权鉴定结果,在三联体研究中位点突变率低、遗传稳定。2012年,PEREIRA等[45]从 dbSNP和Marshfield二等位基因InDel数据库中获得非洲、欧洲和亚洲主要人群中多态性程度高的32个X-InDel,建立多重复合扩增体系检测撒哈拉以南的非洲、欧洲和东亚人群样本的遗传数据,将位点中连锁的部分按照单倍型计算,在男性及女性中的累积个体识别率均在0.999 9以上,二联体平均非父排除率在0.998~0.9996,三联体平均非父排除率在0.99997~0.999998。CAPUTO等[46]用33个X-InDel的多重复合扩增体系在阿根廷人群中也做了类似的研究。2014年,孙宽等[47]建立了三种荧光染料标记的18个InDel的扩增体系——X-18PLEX,用于中国汉族人群法医DNA鉴定的辅助分型检测。
X-InDel可用于人类进化研究。2009年,RIBEIRORODRIGUES等[48]同时分析13个X-InDel的多重扩增体系,评估巴西混合人群X染色体的组成,结果与基于mtDNA和Y染色体信息的分析[49]吻合。2010年,FREITAS等[50]在上述13个X-InDel基础上增加了20个多态性高的X-InDel,构建了新的多重复合扩增体系,新增加位点在欧洲、非洲和亚洲人群中的平均杂合度均在0.3以上,用其对巴西混合人群进行分型,在男性和女性的累积个体识别率均达0.999 9以上,三联体累积非父排除率达0.9999以上,二联体累积非父排除率为0.999 2,体系中33个InDel位点在实验中表现出的系统效能与文献[51]报道的10个XSTR的效能相当,并且可以作为父女关系鉴定中XSTR突变情况下的补充鉴定标记。
女性的两条X染色体在减数分裂时容易发生邻近染色体的片段交换,导致等位基因紧密连锁的单倍型传递[52]。有研究[53]报道,稳定的紧密连锁X-STR在解决亲权鉴定时,通过单倍型频率能够获得更高的法医学应用效能。据此,为了提高二等位基因InDel遗传标记的个体识别能力,FAN等[54]开始研究紧密连锁的X-InDel在法医遗传学中的应用潜能,将多于两个物理位置紧密连锁的InDel作为一个新位点,能通过一对PCR引物扩增,这种新位点至少有三种单倍型形式,共选取10个紧密连锁的X-InDel用千人基因组数据库分析其潜能并在中国人群中调查单倍型频率,多态信息含量在0.415~0.566,所有位点经Bonferroni校正后均符合Hardy-Weinberg平衡。该研究中选取的这些位点被证明相对于传统的单个InDel位点拥有更高的多态性,可以作为个体识别和亲权关系研究的一种有力检测工具。同年,FAN等[55]将紧密连锁的X-InDel增至13个,为复杂亲缘关系鉴定提供了新的补充手段。
Y染色体仅存在于男性体细胞中,约95%的区域为非重组区,具有在减数分裂中不发生交换重组,单倍型传递和父系伴性遗传等特点。早在1997年,JOBLING等[56]就综合论述了Y染色体在法医学和亲权关系鉴定中的研究价值。1999年,SU等[57]采用Y染色体二等位基因遗传标记观察东亚人群的遗传结构,用存在于目前东亚人群中的Y染色体单倍型重建该区域古代移民模式。2001年,KARAFET等[58]检测位于亚洲东南部、东北部、中部地区的25个群体1383名无关男性Y染色体非重组区的52个多态性位点来阐释东亚人群的父系人群历史。2002年,Y染色体联合工作组[59]公布了一个简约的Y染色体单倍群树,应用245个二等位基因遗传标记将全球具有代表性的样本划分为153个单倍群,首次修订了标准的命名系统,并用标准命名系统对现有的突变情况和Y染色体单倍群进行命名,为父系人群的溯源研究提供基础支撑。2003年,JOBLING等[60]补充和发展了Y染色体单倍群树,应用标准的命名系统整合来自不同研究的多态性数据,将Y染色体DNA变异数据应用于人类进化研究。2008年,KARAFET等[61]在JOBLING等研究的基础上补充了Y染色体单倍群树,主要介绍S和T两个主要的新单倍群,并且按照2002年Y染色体联合工作组给出的命名系统进行命名,对原有的几处进行了修改并对新Y染色体树的主要分支进行描述。2008年至今,研究者相继增加Y染色体二等位基因遗传标记来补充和修订已有的单倍群树[62-64]。
2010年,MIZUNO等[65]从日本四个主要群岛和冲绳收集1 346名男性个体同时检测7个Y染色体二等位基因遗传标记并根据检测结果将其分为7个单倍群,结果表明,这些数据对基于Y-STR单倍型的单倍群的预测是有用的,可以作为始祖和地理起源研究的辅助遗传标记,Y染色体二等位基因遗传标记为人类遗传历史剖析提供了新的视野。2015年,LI等[6]应用71个Y染色体二等位基因遗传标记的复合扩增体系分析中国新疆汉族人群无关个体,单倍型多样性达到0.9930,具有法医学应用价值。
综上所述,学者们利用大量的Y染色体二等位基因遗传标记建立了较为系统的人类Y染色体单倍群树,为家系溯源及系谱重建等研究提供了线索。
InDel遗传标记是基于基因组中插入或缺失位点两侧的序列设计特异性引物进行PCR扩增,目前标准的检测手段是电泳分型技术,包括琼脂糖凝胶电泳、变性或非变性聚丙烯酰氨凝胶电泳以及毛细管电泳,其中DNA实验室主要使用的是基于PCR和毛细管电泳技术分型,该平台操作简单、快捷,结果分析准确[10],但是随着法医遗传学技术的不断优化和发展,使InDel遗传标记的研究方法不仅局限于此,国内外学者逐渐开始探索InDel遗传标记的不同研究方法。
2016年,BUS等[66]用焦磷酸测序的方法检测8个存在于Investigator®DIPplex试剂盒中的位点,研究焦磷酸测序技术用于遗传标记研究的使用价值,检测结果与Investigator®DIPplex试剂盒的毛细管电泳结果进行比对,两种分型方法得出的结果一致,经最优化标记处理,焦磷酸测序技术复合体系可同时扩增5个InDel位点得到最佳效果,相对于STR分型,焦磷酸测序可以得到位点的序列信息,为一些实际应用提供了低成本、高收益的替代方法,但对于混合样本的检测效能还有待进一步研究。2017年,LIU等[67]采用InDel位点的两对特异性引物进行扩增,利用实时荧光定量技术检测,探讨法医学案件中遇到的混合检材的分析方法。该研究选取最小等位基因频率在0.2以上的10个InDel位点,用上述方法定量分析两个反应的Ct值并进行比较,此方法可成功检测1∶1 000~1∶50范围内的混合样本中较小DNA贡献者,实验表明,基于实时荧光定量PCR技术的分离扩增策略为混合样本的检测提供了一种有力的方法。2017年,SANTURTUN等[68]应用微滴式数字聚合酶链反应(droplet digital polymerase chain reaction,ddPCR)分析检测造血干细胞移植的嵌合体样本和模拟混合样本来评估该方法的识别效能及灵敏度。实验证明,使用ddPCR分析单个InDel位点来评估嵌合体的概率与扩增15个STR基因座和38个InDel位点得到的计算结果相似,同时,ddPCR检测单个InDel位点扩增结果的灵敏度很高,检测混合样本的效能可以达到200∶1以上,该方法可以作为检测法医学混合样本和临床嵌合体样本的有力工具。
随着二代测序技术的出现和迅猛发展,测序过程的低成本和高通量极大地促进了生物信息学的研究。如何在海量的测序数据中进行InDel遗传标记与结构变异的识别和分析为生物信息学研究提出了新的挑战。2017年,KIM等[69]针对如何从二代测序结果中准确分辨出InDel数据,提出应用四种识别算法[Genome Analysis Toolkit(GATK)、SAMtools、Dindel和 Freebayes]分析经二代测序技术获得的全基因组序列中的InDel位点,并用Sanger测序法对四种算法得出的结果进行确认。研究表明,四种方法结合使用对InDel位点的阳性预测率可高达98.7%,这项研究可以作为准确和完整识别InDel位点的基础。2017年,AU等[70]针对二代测序中的复杂InDel容易被漏检的特点,提出并评估了INDELseek的方法,用于从二代测序数据中发现复杂的InDel位点,实践证实,INDELseek对复杂InDel的检测有100%的敏感度,可以作为准确而通用的工具。以上研究起到了优化实验方法的作用,为遗传标记的研究提供了有力的技术支持。
综上所述,InDel遗传标记作为一种新型遗传标记已经引起各个领域的关注,弥补了STR和SNP遗传标记的不足,兼容于目前标准的法医DNA实验室分型平台,为法医遗传学的个体识别和亲子鉴定提供了一种有力的补充检测手段,并且为法医人类学的群体结构和祖先信息研究提供了一种有效的辅助工具[71]。尽管如此,InDel位点作为二等位基因遗传标记所携带的信息量有限,要达到足够的系统效能需要联合应用的位点数量较多,也增加了构建多重复合扩增体系的难度。鉴于此,目前已有紧密连锁multi-InDel遗传标记的研究,进一步提高了遗传分析效能。人类基因组InDel遗传标记在不同人群中的法医DNA基础遗传数据需要进一步补充,为实际案件的应用提供理论支撑。DNA实验室新技术的出现和发展,也将为InDel的研究及应用带来新的机遇,在法医遗传学、人类学等领域发挥更大的作用。