周 密,张 科,汪 军
(1.芜湖市公安局,安徽 芜湖 241000;2.安徽省公安厅物证鉴定管理处,安徽 合肥 230061;3.安徽工程大学计算机与信息学院,安徽 芜湖 241000)
近年来,二代测序技术蓬勃发展,逐步开始运用于法医学领域。2014年,美国Illumina公司推出了MiSeq FGxTM平台和ForenSeqTMDNA Signature Prep试剂盒,美国Thermo Fisher Scientific公司推出了Ion Torrent PGMTM平台和Precision ID Identity Panel试剂盒。运用二代测序技术,基于一份检材就可以同时获得短串联重复序列(short tandem repeat,STR)、单核苷酸多态性(single nucleotide polymorphism,SNP)、插入/缺失(insertion/deletion,InDel)、线粒体 DNA(mitochondrial DNA,mtDNA)、信使 RNA(messenger RNA,mRNA)等各种类型的大量遗传标记信息。其中SNP被认为是第三代遗传标记,在法医学个体识别、表型预测和始祖研究等方面都有巨大潜力[1]。本研究将对二代测序试剂盒中SNP位点的遗传学参数进行对比分析,探讨其在个体识别和亲子鉴定中的法医学应用价值。
ForenSeqTMDNA Signature Prep试剂盒包含94个常染色体 SNP位点,Precision ID Identity Panel试剂盒包含90个常染色体SNP位点,两个试剂盒共有的SNP位点为83个,合计有101个SNP位点。ForenSeqTMDNA Signature Prep试剂盒独有位点11个:rs763869、rs8037429、rs8078417、rs2399332、rs279844、rs2920816、rs1294331、rs13182883、rs1336071、rs2111980、rs4606077。Precision ID Identity Panel试剂盒独有位点 7 个:rs1872575、rs2016276、rs2292972、rs4288409、rs560681、rs7520386、rs7704770。
在国际人类基因组单体型图计划网站(http://www.hapmap.org)和美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)网站(https://www.ncbi.nlm.nih.gov)上查询101个SNP位点的等位基因频率、基因型频率、群体调查样本量、人群来源等遗传学参数。其中95个位点的数据来源于北京汉族人群(CHB)调查结果,4个位点的数据来源于中国人群(CHN)调查结果,2个位点的数据来源于北京汉族人群和日本人群(CHB+JPT)调查结果,有2个位点仅有等位基因频率数据。
Hardy-Weinberg平衡检验通常采用χ2检验来量度常用基因型的预期值和观察值之间的吻合程度。公式为:
其中χ2检验的自由度为:
υ=基因型数-1。
将每一种基因型的χ2值相加获得总的χ2值,然后查χ2值表得P值。以P>0.05作为差异无统计学意义的界限[2]。根据SNP位点的等位基因频率和基因型频率进行Hardy-Weinberg平衡检验。
个体识别的系统效能通常用个体识别率(discrimination power,DP)和累积个体识别率(cumulative discrimination power,CDP)来定量评价,公式[3]为:
式中,Pi代表第i个基因型的频率,DPi为第i个基因座的DP。
因为CDP为1-DP的连乘乘积,所以本研究以1-DP对比遗传标记系统的系统效能。在北京汉族人群中,根据公式(2)和(3),计算 101 个 SNP 位点的DP和平均DP(DPSNP),以及两个试剂盒的CDP。根据中国汉族人群的遗传学参数[4],统计41个STR基因座的平均 DP(DPSTR)。
设个体识别中,平均n1个SNP位点等于1个STR基因座的系统效能。以1-DPSNP对比遗传标记系统间的系统效能,则有:
标准三联体鉴定的系统效能通常用标准三联体非父排除率(probability of paternity excluding in trios,PEtrio)和累积非父排除率(probability of exclusion,CPE)来定量评价,公式为:
式中,Pi、Pj分别代表第 i、j个等位基因的频率。
因为CPE为1-PE的连乘乘积,所以本研究以1-PE对比遗传标记系统的系统效能。在北京汉族人群中,根据公式(6)和(7),计算 101 个 SNP 位点的PEtrio和平均 PEtrio(PEtrio-SNP),以及两个试剂盒的 CPEtrio。根据中国汉族人群的遗传学参数[4],统计41个STR基因座的平均 PEtrio(PEtrio-STR)。
设标准三联体鉴定中,平均n2个SNP位点等于1个STR基因座的系统效能。以平均PEtrio对比遗传标记系统间的系统效能,则有:
二联体鉴定的系统效能通常用二联体非父排除率(probability of paternity excluding in duos,PEduo),公式[3]为:
式中,Pi、Pj分别代表第 i、j个等位基因的频率。
与三联体鉴定同理,在北京汉族人群中,根据公式(10)和(7),计算 101 个 SNP 位点的 PEduo和平均PEduo,以及两个试剂盒的CPEduo。根据中国汉族人群的遗传学参数[4],统计41个STR基因座的平均PEduo。设二联体鉴定中,平均n3个SNP位点等于1个STR基因座的系统效能。同理有:
双亲皆疑鉴定的系统效能通常用双亲皆疑排除率(probability of exclusion in alleged parents cases,PEAP)来定量评价,公式为:
式中,Pi代表第i个等位基因的频率。与三联体鉴定同理,在北京汉族人群中,根据公式(12)和(7),计算 101 个 SNP 位点的 PEAP和平均 PEAP(PEAP-SNP),以及两个试剂盒的CPEAP。根据中国汉族人群的遗传学参数[4],统计 41 个 STR 基因座的平均 PEAP(PEAP-STR)。设双亲皆疑鉴定中,平均n4个SNP位点等于1个STR基因座的系统效能。同理有:
101个SNP位点的等位基因频率、样本数、人群来源、Hardy-Weinberg平衡检验的P值见表1。由表1可见,除无基因型频率数据的rs722098和rs2016276位点外,其余99个SNP位点均符合Hardy-Weinberg平衡定律(P>0.05)。
表1 101个SNP位点的遗传学参数
表1(续)
表1(续)
101个SNP位点的DP见表1。ForenSeqTMDNA Signature Prep 试剂盒的 CDP 为 1-1.1521×10-34,Precision ID Identity Panel试剂盒的CDP为1-2.0524×10-33。 1-DPSNP为 0.440 4,1-DPSTR为 0.096 9,n1为2.85。结果表明,在个体识别中,平均2.85个SNP位点等于1个STR基因座的系统效能。
101个SNP位点的PEtrio见表1。ForenSeqTMDNA Signature Prep 试剂盒的 CPEtrio为 1-4.4169×10-8,Precision ID Identity Panel试剂盒的CPEtrio为1-8.7093×10-8。 1-PEtrio-SNP为 0.833 4,1-PEtrio-STR为 0.4394,n2为4.51。结果表明,在标准三联体鉴定中,平均4.51个SNP位点等于1个STR基因座的系统效能。
101个SNP位点的PEduo见表1。ForenSeqTMDNA Signature Prep 试剂盒的 CPEduo为 1-8.4837×10-5,Precision ID Identity Panel试剂盒的CPEduo为1-1.1638×10-4。 1-PEduo-SNP为 0.9030,1-PEduo-STR为 0.607 6,n3为4.88。结果表明,在二联体鉴定中,平均4.88个SNP位点等于1个STR基因座的系统效能。
101个SNP位点的PEAP见表1。ForenSeqTMDNA Signature Prep 试剂盒的 CPEAP为 1-1.2227×10-12,Precision ID Identity Panel试剂盒的 CPEAP为 1-3.7257×10-12。 1-PEAP-SNP为 0.7464,1-PEAP-STR为 0.264 1,n4为4.55。结果表明,在双亲皆疑鉴定中,平均4.55个SNP位点等于1个STR基因座的系统效能。
SNP广泛存在于人类基因组中的编码区和非编码区,平均每721 bp有1个SNP[6],是目前分布最广泛、数量最多的一种遗传标记。SNP的特点有:(1)扩增片段极短;(2)大都表现为二等位基因标记;(3)突变率约为10-9,远低于STR突变率(约10-3)[2]。这些特点决定了SNP在法医学个体识别与亲子鉴定领域中具有巨大潜力。遗传学参数是二代测序SNP位点结果解释的前提,是二代测序技术在个体识别和亲子鉴定中大规模应用的根本基础。因此本研究首先查询并计算二代测序试剂盒检测的101个SNP位点的常用遗传学参数,为SNP分型结果解释奠定基础。其次,了解了在法医学个体识别和亲子鉴定中,需要检测多少个SNP位点才能达到目前STR基因座的检验水平。本研究进一步计算了个体识别、标准三联体鉴定、二联体鉴定和双亲皆疑鉴定4种最常见的鉴定类型中,SNP位点和STR基因座系统效能换算比例,为今后设计二代测序试剂盒的SNP位点提供重要参考。
在整理101个SNP位点群体遗传学数据的过程中,笔者发现如下问题:(1)群体调查样本量过少,多为41~45人,最少的仅有18人,而STR群体调查样本量往往有数千人;(2)中国汉族人群群体遗传学数据较少,现有数据多为北京汉族人群,有2个位点还混有日本人群;(3)2个位点无基因型频率,既不能进行Hardy-Weinberg平衡检验,也不能直接计算DP值。除无基因型频率数据的rs722098和rs2016276位点外,本研究中其他99个SNP位点均符合Hardy-Weinberg平衡检验。只有处于Hardy-Weinberg平衡的群体中获得的群体数据,才能保证其可靠性和准确性,才能应用于法医学个体识别和亲子鉴定。此外,因为本研究无法获得相关数据,不能检验各SNP位点的独立性,即连锁不平衡检验,而连锁不平衡检验是个体识别的累积似然率(cumulative likelihood rate,CLR)和亲子鉴定的累积亲权指数(cumulative paternity index,CPI)计算的前提。考虑到群体数据的上述不足,笔者认为应进一步对中国汉族人群进行较大规模的SNP位点群体调查,以获取更准确的数据进行适合性检验和独立性检验,统计学数据的计算也将更为精确。
本文两个二代测序试剂盒分别包含90和94个SNP位点,个体识别系统效能换算后相当于32和33个STR基因座,远超一代测序;亲子鉴定系统效能换算后相当于18~21个STR基因座,接近一代测序[4]。在系统效能相当的情况下,SNP位点具有突变案例数极低的优势。以二联体鉴定为例,检测20个STR基因座,则平均50个案例出现1例突变,必须考虑突变案例;而检测100个SNP位点,则平均1 000万个案例出现1例突变,无需考虑突变案例。可见,STR突变案例是SNP的20万倍。此外,如果联合应用二代测序的SNP位点和STR基因座,充分利用二代测序的超大信息量优势,则祖孙、同胞、半同胞等较远亲缘关系的亲子鉴定还将有进一步发展。
总之,二代测序SNP分型技术在法庭科学中的个体识别和亲子鉴定领域展现出明显的优势,具备极大的应用价值,对于公安实战也有强大吸引力。但该技术的大规模普及仍存在如下挑战:(1)科学的结果解释。如何将二代测序数据结果转化为鉴定结论和法庭证据,有待法医DNA概率统计学理论的深入研究。(2)二代测序和一代测序数据库的接轨。公安机关DNA数据库已超过6000万条数据,而且数据量还在高速增长,二代测序结果势必要与DNA数据库平滑对接。(3)分析软件的支持。二代测序信息量极高,数据结果的分析、比对、计算靠人工几乎不可能,必须依赖计算机软件。(4)测序成本须有效降低。二代测序基于开放性平台,开发国产试剂盒可大幅降低成本。