刘泉 柯技 张苗苗
摘 要 法庭科学DNA数据库是打击犯罪,服务社会非常重要的资源。本文从我国法庭科学DNA数据库现状入手,分析了目前我国法庭科学DNA数据库的不足,并从增加可入库的人类遗传标记、扩展法庭科学DNA数据库的业务范围、搭建资源共享平台及其它方面对未来法庭科学DNA数据库建设提出了自己的构想。
关键词 法庭科学 DNA 数据库
基金项目:2018年湖北警官学院科研计划项目,主持人:刘泉,指南编号:ZN027。
作者简介:刘泉,湖北警官学院,讲师,研究方向:法医学;柯技、张苗苗,湖北警官学院。
中图分类号:D926.2 文献标识码:A DOI:10.19387/j.cnki.1009-0592.2018.10.079
法庭科学DNA数据库是指运用DNA分型技术、计算机数据库技术和网络信息技术而建立起来的数据库系统。自上世纪90年代中期起,欧美各国陆续开始建设法庭科学DNA数据库。在我国,法庭科学DNA数据库主要指的是公安的DNA数据库。我国法庭科学DNA数据库发展至今也经历了十余年,早已成为公安机关实现跨时空、多元化、精确打击犯罪的利器。但是,随着社会的不断发展,现代化的公安工作对各种法庭数据库的需求也越来越大,现有DNA数据库已不能完全满足这种现实需求,还需不断的升级改造。本文将通过分析我国DNA数据库现状,然后有针对性的,对未来法庭科学DNA数据库的建设方式提出建议。
一、我国法庭科学DNA数据库现状
目前,我国法庭科学DNA数据库已形成规模,已基本在全国建立起了“部-省-地市(县)”的三级建库模式 。2012年底我国部级库数量已超过1800万条,成为世界第一大法庭科学DNA数据库,截止至2016年5月,我国法庭科学DNA数据库总量已超4400万条。
在数据库类型方面,目前我国法庭科学DNA数据库可以按照纵向和横向两个方面进行分类。
从纵向看,DNA数据库可分为基层和中央两种类型。基层数据库由各省地县分别建库,形成地方DNA数据库;中央数据库由公安部统一建库,形成部级库。基层DNA数据按照层级进行数据存储和数据比对,并逐级上报到部级库。部级库对跨省的DNA数据进行数据比对,并将比对结果逐级下发到各地方DNA数据库。
从横向看,我国法庭科学DNA数据库又可根据数据的来源和用途分为基础DNA数据库、人员样本库、现场物证库、未知名尸体库、打拐库及大型灾难事故样本数据库等。不同来源和用途的数据库,可以将DNA数据有效分类,便于数据的快速比对和案件信息的查找。
在数据类型方面,常染色体STR基因座由于应用成熟,方法简单易行,有通用的标准等因素,已经成为我国法庭科学DNA数据库的主要数据类型。目前相关标准中要求的核心常染色体STR基因座有6个,实际应用中,录入数据库中的STR基因座远大于这6个,一般在16个以上,多在20个左右。检测较多的常染色体STR基因座,就意味着更多的信息,更可靠的比对结果。除了传统的常染色体STR基因座,近几年,我国也正在建立Y-STR基因库。由于Y染色体在人类遗传系统中,只会由父亲传给儿子,儿子传给孙子,因此,这可以在一定程度上弥补了常染色体STR基因座不能进行种属识别的不足。也就是说,Y-STR基因库让从同一父系中查找嫌疑人线索成为可能,如祖父、父亲、儿子、同胞兄弟、叔伯、堂兄弟等的 Y 染色体都是同源的。
在其它方面,尤其是数据库建设应用配套方面,我国这几年建设的步伐也很快。如加大投入,在各个县市分局建设PCR实验室,以保障大量基础DNA数据的快速检出和录入;积極开展资质认定及实验室认证认可,以保证DNA数据的可靠性;不断升级改造DNA数据库,使其不断完善,更加适应大数据环境下公安工作的需求;研究和应用DNA数据库实战战法 ,以不断提高DNA数据库的有效使用率等。
二、我国目前法庭科学DNA数据库不足
随着社会的不断发展,公安工作的不断深入,现有DNA数据库的不足逐渐凸显,主要表现在以下几个方面:
(一)遗传标记类型较少
目前,法庭科学DNA数据库的数据是以人的遗传标记的形式呈现,国际上可用于人的个体识别和亲子鉴定的遗传标记有上百种,而我国DNA数据库几乎所有遗传标记均为人类STR基因座,且以常染色体STR基因座为主。常染色体STR基因座尽管体系成熟,相对可靠,但是其对种属认定无能无力。这也意味着在公安实践中,只有当嫌疑人已经进入了侦查人员视线的情况下,该技术才能充分发挥其作用。为了弥补这种不足,Y-STR基因座也被大规模纳入DNA 数据库,可以用于同一父系的排查。但是,能进行母系排查的X-STR基因座、线粒体DNA信息在目前的DNA库中却是少之又少的。另外,由于Y-STR基因座的高突变率,STR基因座自身的天然局限等原因,新的遗传标记的使用成为DNA数据库发展的必然趋势。
(二)数据库资源有效利用率不高
我国法庭科学DNA数据库主要是用于有关人员和物证DNA信息的查找和对比,因此,比中率是衡量DNA 数据库数据利用率非常重要的一个参数维度。据相关文献报道 ,在DNA数据库高速发展的近些年中,我国DNA数据库物证比中率从53%逐年下降到39%,而同年的英国法庭科学DNA数据库物证比中率却是从59.2%稳步增长到61.9%。这一方面是由于我国DNA基础数据高速增长所致,另一方面,也与我国法庭科学DNA数据库利用方式相对单一等因素有关。
(三)数据比对能力有限
目前法庭科学DNA数据库中较难进行比对的数据是各种疑难检材的DNA数据,这些数据可能有信息缺失,也可能不符合常规的比对规则。如日常检案中的高度降解的检材、微量检材,还有难以以固定数学模型进行分析的混合性检材及亲缘关系中特殊的遗传变异个体等。以上这些检材的数据,除了少数应用战法利用DNA数据库可以进行有效检索外,绝大多数DNA数据库在检索比对上几乎无能为力。就算是常规检材,也有时会出现假配对的现象。如某年在北京市发生的一起强奸致孕案,提取受害者和胚胎组织的DNA,录入全国DNA数据库,经三联体亲缘关系比对,发现比中数据库中的7名人员,后经调查,该7名人员均无作案嫌疑 。数据比对能力有限在一定程度上也限制了数据库资源有效利用,因此,如何提高DNA数据库中的比对能力,是一个必须解决的问题。
三、未来法庭科学DNA数据库建设的构想
现代化公安工作的变化对DNA数据库提出了新的要求,法庭科学的快速发展为加强和提高DNA数据库质量提供了技术保障,不断完善法庭科学DNA数据库十分重要且势在必行。下面将主要从如何扩大DNA数据类型,如何提高DNA数据使用等方面对未来DNA数据库的建设进行探索性思考。
(一)增加可入库的人类遗传标记
目前法庭科学DNA数据库使用的是核酸类型的遗传标记,主要为人类常染色体STR基因座和Y-STR基因座,研究较多且也可用于法医领域的人类遗传标记还有线粒体DNA,X染色体DNA,SNP,Indel基因等。每一种遗传标记有自己的遗传特征和应用范围,在DNA数据库中的使用分别探讨如下:
1. SNP
SNP的中文全称是单核苷酸多态性,它是指由单个碱基转换或颠换所引起的在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性 。SNP遗传标记相较于STR基因座,具有突变率低和检验所需扩增子短的特点,对于降解检材和亲子关系的检测具有独特的优势 。SNP试剂盒的开发已将DNA样本量从pg数量级增加至mg数量级。 在亲子鉴定方面,目前,以SNP为遗传标记的个体识别体系也正在不断构建和完善中。研究顯示,SNP不仅可以用于常规检材的个体识别,还可用于混合样本中不同个体的识别。将其纳入DNA数据库,在扩展侦查方法方面有其明显的优势。
但也有学者认为,由于SNP系统还不够成熟,无法兼容目前已经有千万级 STR 数据,且相较于STR基因座尚无绝对优势,因此数据库引入SNPs可能性很低 。但是如果在现有常用STR基因座上补充相应的引入SNP系统,却可以很好的在现有基础上提高现有STR系统的识别能力,不仅如此,在种族推断、表型推断方面(如血型、身高、颅面形态等)SNPs也有很广泛的应用前景。这可能能成为DNA数据库引入SNP的突破点。
2. 与女性有关的遗传标记
目前,法庭科学DNA数据库中主要是常染色体DNA和Y染色体上的DNA,前者遗传是不分性别,后者只在男性中存在。因此,在法庭科学DNA数据库补充反应女性DNA的遗传标记非常必要。
目前比较成熟的,能反应女性遗传标记主要是两个,一个是线粒体DNA,还有一个是X染色体DNA。线粒体DNA是属于细胞核外的遗传标记,只会从母亲传给下一代,因此是良好的母系溯源或进行母系排查的指标,在数据库中可以发挥与Y-STR基因座类似的功能。X染色体既存在男性中也存在女性中,女性可以将其X染色体DNA传给儿子或女儿,而父亲只会将其X染色体DNA传给女儿。由于这个特点,X染色体DNA在亲子鉴定中有着非常重要的作用。在千万级的DNA数据库中,仅用常染色体STR基因座,系统自动配对显示的假二联体或假三联体数目不少,在这些数据中识别真伪需要耗费大量时间,将其配套的X染色体DNA计算其中,假二联体或假三联体数目自然应该会减少不少,会大大提高办案效率。
3. Indel基因
InDel意思是插入或缺失,它是一种插入/缺失多态性遗传标记 。InDe多态性是基因组中插入或缺失了不同大小的小片段DNA多态性的简称,是一种特殊类型的二等位基因遗传标记。InDel兼具STR和SNP的优点。与SNP相比,InDel突变频率较低,相对比较稳定。由于本质上与STR一样,都属于长度多态性,因此,它可以使用目前实验室现有的设备,启动成本低,分型技术易于掌握和普及。
另外,它的长度介于STR和SNP之间,适用于高度降解的DNA检材。有研究显示,对于高度降解检材,InDel分型系统明显优于传统的 STR 分型系统 。Indel基因不仅可用于个体识别,还可以用于一般的亲子鉴定、疑难的亲子鉴定以及混合检材间亲缘关系鉴定,并且在法医人类学上也有很好的应用前景 。
基于以上原因,Indel基因很有可能成为未来法庭科学DNA数据库的大规模应用的遗传标记之一。
4.其它类型的遗传标记
目前学者还对还有很多其它类型的遗传进行研究,发现其在法医学领域中也有很广阔的应用前景,如微单倍型遗传标记、DIP-STR或SNP-STR连锁遗传标记、mRNA和miRNA等。研究表明微单倍型遗传标记和DIP-STR或SNP-STR连锁遗传标记具有良好的个体识别和亲权鉴定能力,且还可以用于人群结构分析与族源推断,在混合性DNA检测方面也有潜力 。mRNA和miRNA则可以用于组织生物源性的检测 。但以上这些遗传标记仅在研究阶段,尚无具体的应用。因此,这些遗传标记要走入数据库,还需要进一步的实践检验。
(二)扩展法庭科学DNA数据库的业务范围
目前法庭科学DNA数据库只专注于人类犯罪,因此只有与人有关的数据。在实际司法实践中,法医遗传学不仅在遗留人类DNA物质的违法犯罪案件中发挥着巨大的作用,还在很大程度上将非人类遗传物质的分析纳入其中,并且在很多领域有了非常成熟的应用。这类案件有涉及物种鉴定的违法贩卖动植物案件,有偷盗家畜或宠物,找到来源后需要进行的动物的个体识别或亲子鉴定的案件,还有动物袭击案件、涉及微生物的恐怖袭击案件和食品安全案件等等 。虽然其中有些案件在我国是非公安部门监管的范围,但是凡是涉及违法犯罪,公安机关都必须参与进来。
因此,法庭科学DNA数据库如果仅是人类犯罪DNA数据库,那么其发挥的作用显然是非常局限的。在法制化不断完善和深化的今天,我国将非人类的DNA检测数据纳入法庭科学DNA数据库将是完善法庭科学DNA数据库一个重要的选择。
(三)搭建资源共享平台
共享资源可以避免重复建设,提高目前现有DNA数据库的使用率和使用成功率。法庭科学DNA数据库资源共享的层次主要分为三层。
第一层次是内部的资源贡献,主要是公安不同情报之间的信息共享和关联,如指纹库与DNA数据库,同一人相关信息的方便查询等等。这一层次的资源贡献是目前公安一直在做的事情,也是最基础的资源共享。该共享平台的搭建有利于降低侦查成本,提高破案效率。
第二层次的资源共享是外部有关数据的资源共享。这部分数据主要是可以用于法庭科学中的人的生物信息的资源共享,如目前我国在建设自己的基因库,很多医院也有自己的DNA库或是血型库等等。这些数据不仅在医学上、生物学上非常重要,有时也是法律实践中非常重要的资源。实现资源共享,在一定程度上可以避免重复建设,降低成本,提高法庭科学DNA数据库的使用效率。
第三个层次的共享是以开放给研究人员的科研数据为主要形式的共享。科技的发展离不开科研,法庭科学的日新月异也离不开法庭科学研究者的辛苦工作。法庭科学DNA数据库中拥有庞大的数据量,且其中的数据会越来越多,这些无疑都是遗传学及法庭科学中各种层次研究的基础性数据。开放部分数据用于科研对推动DNA技术及DNA数据库的发展将是巨大的。当然,这也需要在考虑信息安全和个人隐私的基础上进行。
(四)其它方面
个体识别和亲权鉴定的基础是遗传学和统计学。因此,我们除了要在生物學方面下功夫,还应不断改进统计学方法,研究更好的适合数据库搜索的数据模型,提高数据库中数据比对能力,降低错配率。不断研究适合新的数据的数据库战法,亦有利于提高数据库数据的有效利用率 。另外,增加数据库中的数据类型,扩充数据库中的数据,需要大量的人力物力。不断更新改进测序技术,例如引进先进的测序技术,如可用于高通量测序的二代和三代测序技术,将其与法医学结合起来,有利于降低成本,提高效率。
除此以外,相应的安全方案,制度标准也应不断更新以适应新的形势。
综上所述,我国法庭科学DNA数据库应随着科学技术的发展和社会需求不断改进,相信法庭科学DNA数据库必将在侦查破案、社会服务和科学贡献中发挥越来越大的作用。
注释:
李盛.关于下一代DNA数据库构建的思考.刑事技术.2013(1).49-51.
葛百川、彭建雄、刘冰.DNA数据库实战应用战法体系与能力建设研究.刑事技术.2016,41(4).259-264.
陈振乾、黄书琴.郑州市Y-STR DNA数据库建设及应用的调查研究.中国人民公安大学学报(自然科学版).2017,23(1).15-19.
刘冰.基于数据库数据分析的DNA证据作用评价.刑事技术.2015,40(3).199-203.
赵怡、王平峥、刘莹、王旭、张庆霞、焦章平、刘雅诚.DNA数据库“假三联体错中”信息分析研究.刑事技术.2016,41(6).497-499.
庞晓东、陈学亮、荣海博、俞丽娟、管桦、张涛.法医DNA检测技术的现状及展望.警察技术.2014(1).4-7.
李亚男、李敏、姜磊、栾晓辉、梁娜、徐倩男、张家硕、唐铭池、边英男、陈丽琴.43个SNP遗传标记复合检验体系的建立及其法医学应用.法医学杂志.2018,34(2).126-131+137.
刘冰.现阶段我国DNA数据库发展的几个关键问题.刑事技术.2015,40(4).318-323.
杨洁、赫佳、王丹碧、施恩、杨文宇、耿其芳、王中生.InDel标记的研究和应用进展.生物多样性.2016,24(2).237-243.
孙宽、张素华、朱如心、赵书民、李成涛.新一代遗传标记——InDel研究进展.法医学杂志.2013,29(2).134-139+143.
王玮、赵蕾、江丽、刘京、黄美莎、李冉冉、刘佳佳、马泉、王英元、李彩霞.用于中国人群个体识别的InDel多重PCR系统的构建.刑事技术.2017,42(1).1-8.
饶旼、李彩霞、赵钊、胡胜、赵鹏、聂胜洁、王乐.微单倍型遗传标记及其法医遗传学应用.刑事技术.2017,42(4).324-328.
赵禾苗、王冲、李万水、凃政、徐秀兰、孙辉、胡兰.mRNA在体液斑迹鉴定与组织来源推断中的应用.中国法医学杂志.2016,31(5).463-466.
胡荣、方晨、刘旭、安云鹤、武会娟、严江伟.法医物证学miRNA分析的研究进展.中国法医学杂志.2016,31(5).456-458+462.
Miguel Arenas, Filipe Pereira, Manuela Oliveira, et al. Forensic genetics and genomics: Much more than just a human affair.PLOS Genetics, September 21, 2017.
杨玉章.以“三性”为支撑促Y-STR DNA数据库建设及应用.现代世界警察.2018(2).100-102.