郑州市Y-STR DNA数据库建设及应用的调查研究

2017-01-12 15:41陈振乾黄书琴
关键词:信息库家系染色体

陈振乾, 黄书琴

(1.中国人民公安大学刑事科学技术学院, 北京 100038;2.郑州市公安局犯罪侦查局, 河南郑州 450000)

郑州市Y-STR DNA数据库建设及应用的调查研究

陈振乾1, 黄书琴2

(1.中国人民公安大学刑事科学技术学院, 北京 100038;2.郑州市公安局犯罪侦查局, 河南郑州 450000)

人类Y染色体具有男性特有、父系遗传的特点。在排除基因变异的情况下,男性子代与其生物学父亲具有基本相同的Y染色体。我们可以据此寻找男性嫌疑人的家系,进而缩小侦查范围。郑州市公安局利用建立的Y-STR DNA数据库破获许多重特大案件,摸索出一系列的Y-STR家系排查技战法,为侦查破案提供了新的行之有效的方法。

Y染色体; 父系遗传; Y-STR数据库; 家系排查

0 引言

随着我国现代化进程的不断推进,指纹技术、DNA技术、视频侦查技术、电子物证技术、声纹技术等都有了长足的发展,指纹、常染色体DNA等数据库的应用也已大见成效。但是,指纹数据库有一个致命的弱点,就是它对种属认定的无能无力,也就是说,只有嫌疑对象已经进入侦查人员视线的情况下,这种基于个体同一认定的识别技术才能充分发挥其作用。而常染色体DNA数据库除可以进行个体同一认定外,还可以进行父母与生物学子女亲缘关系的确认。

在人类遗传系统中,性别的确定是由分别来自父母两方的XY染色体的组合状态决定的。母亲一方提供的两种选择都是X染色体,虽然这两条染色体的基因排列可能相差很大,但孩子从母亲一方继承的只能是其中的一条X染色体;父亲一方则提供了另外的两种选择:X和Y染色体各一条,孩子能从父亲一方继承到X或Y染色体,若继承到的是X染色体,则孩子的性别为女,若继承到的染色体为Y,则孩子的性别为男。因此,Y染色体为男性独有,即在家族遗传的正常情况下,同一父系的男性成员具有相同的Y染色体。也就是说,曾祖父、祖父、父亲、儿子、孙子、叔伯、堂兄弟的Y染色体是同源的。如果排除变异,他们的Y染色体应当相同。这种父系家族的同源遗传信息,为我们筛查犯罪嫌疑人的家系提供了可能性。

1 “2007·6·5”系列强奸案的侦破

2002~2007年,在郑州登封市先后发生了16起强奸案件,现场勘查及外围信息反馈表明,案件极有可能系一人所为。嫌疑人信息特点如下:口音为本地,侵害对象多为中青年女性,常染色体DNA信息一致。由于作案人具有较强的反侦查意识和较好的心理素质,作案地域跨度大,达到了10个乡镇,作案时间呈间断状态,呈无规律作案模式,造成案件久侦不破,影响十分恶劣。2008年2月,该案被河南省公安厅列为一号案件,成为公安部督办案件,定名为“2007·6·5”系列强奸案。

“2007·6·5”系列强奸案被公安部和河南省公安厅挂牌督办后,郑州市公安局全面加强对该案的侦办力度,在短时间内对无法排除嫌疑的5 000多名男性进行了常染色体DNA排查,仍无法找到作案人。于是专案组进行了专门论证,决定从家系排查入手,以Y-STR技术为抓手进行拉网式排查。

“2007·6·5”系列强奸案的排查范围设定为案发10个乡镇的89个行政村,分片包干,逐村、逐姓、逐户进行工作,制作家系图谱、采血、检验同时进行,分工合作。经过专案组2个多月的努力,制作出了家系图谱3 000多支,采集对应的Y-STR样本7 000多人,在工作推进到2008年3月的时候,转机终于出现,“2007·6·5”系列强奸案的现场精斑比中了阳城镇一杨姓家系的Y-STR信息,后经常染色体DNA比对,认定了该杨姓家系的杨某欣。至此,登封“2007·6·5”系列强奸案成功告破。

通过“2007·6·5”系列强奸案的侦破,郑州刑警探索了Y-STR技术应用于案件侦破的技术应用路径,并初步归纳了其应用的条件:案发地为人口流动性小、人口迁移少、地域相对封闭的农村或山区的非流窜人口作案。同时,他们探索出了一套“以Y找群,以DNA找人”的Y-STR破案技战法。以Y找群,就是利用现场生物物证的Y-STR信息,与已建成的Y-STR家系数据库进行比对,借以寻找出嫌疑人的家系(群),即通过Y-STR信息确定嫌疑人的种属特征(家系);以DNA找人,即从比中的家系成员中,提取嫌疑人员的常染色体DNA样本,与现场生物物证比对常染色体DNA信息,进行人身的个体识别,确定作案人。相比以往海量提取常染色体DNA样本进行检验比对,“以Y找群,以DNA找人”战法大大节约了人力物力,显著提高了办案效率,缩短了破案时间,是对传统常染色体DNA同一认定战法的重大发展和突破性的进步。

在“2007·6·5”系列强奸案的侦破过程中,郑州警方使用的是边采集家系Y-STR样本边进行检测排查,耗费大量的时间,严重影响破案进程。这样就促使他们思考一个问题:能否事先建立一个全市、全省乃至全国的家系Y-STR样本数据库,这样在案件发生的时候就可以直接将现场生物物证的Y-STR信息与数据库进行比对,以便迅速破案呢?这就为郑州警方埋下了建立Y-STR数据库的种子。

2 郑州市公安局Y-STR数据库的建立

我国农村地区民风纯朴,思想观念相对传统,植根于血统关系的家族理念深入人心,子随父姓为主流传统,同姓家系聚居形态比较稳定,人口流动性小。部分家族的族谱以书面形式完整保留且不断续写,对于族人的迁移也做了文字说明,这都为警方建立Y-STR DNA数据信息库提供了良好的基础。

2.1 数据库的内容设计

Y-STR DNA数据信息库的核心内容主要包含家系信息、人员信息、Y-STR DNA数据信息3个部分。家系信息要求通过家系调查,绘制出每个家系所包含的所有男性的树状结构图。工作中尤其要注意的是家系中的“外来人员”情况,包括入赘、抱养、离婚和娶妻带子、私生等情况。人员信息要求尽量详尽,如身高、体重、居住地、照片等信息,可结合户籍信息系统完善。Y-STR DNA数据信息则包含每个家系采取的代表人物的Y-STR DNA样本数据信息,存在“外来人员”情况的要单采。也就是说,Y-STR DNA数据信息库由3个子数据库组成:家系图谱信息库、人员信息库、Y-STR DNA信息库。

作为公安大数据的重要组成部分,在Y-STR DNA数据信息库的建设过程中,一定要做到客观、全面、准确。

2.2 各独立数据库的信息关联设计

对于Y-STR DNA数据信息库的三大子数据库:家系图谱信息库、人员信息库、Y-STR DNA信息库,要求做到Y-STR DNA数据能够与前两个信息库自动关联,三大子信息库之间可以智能整合,案件信息可以与Y-STR DNA数据信息库自动比对,并自动完成比对结果的通报。人员信息库与全国户籍信息库的关联,做到只要输入姓名和身份证号就可以抓取户籍库中的相应人员信息,如户籍住址、出生日期、民族、照片等,做到信息输入的智能化。

出于对各子数据库数据信息碰撞、关联、整合的需要,运行迅速、关联准确的优质软件必不可少。按照“后台智能、前台傻瓜、操作简便、突出实用”的要求,郑州市公安局成立了专门的研发小组,经过多次论证、研发试用、多次改良,最终成功研发了符合实战部门要求的“Y-STR 家系排查分析系统”。该系统获得了2014年公安部基层技术革新奖。

2.3 Y-STR DNA数据信息库建设的具体阶段

郑州市公安局建立Y-STR DNA数据信息库的时间点在全国是领先的,没有前人经验,自己实践探索,边建、边用、边修正完善。郑州市公安局Y-STR DNA数据信息库的建设可以分为以下5个阶段。

2.3.1 家系调查和图谱绘制

家系图谱信息库是Y-STR DNA数据信息库三大子信息库之一,只有做好家系调查,对每个家系都能做到客观、全面、准确,才能使得数据库无垃圾数据,才能充分发挥数据库的优势作用。因此,家系调查是Y-STR DNA数据信息库质量保证的基础。为做好家系调查,必须充分调动警力并加以科学使用。工作中要求家系必须真实、情况必须客观、家系图谱必须规范、成员关系必须清晰。这就要求在工作中必须要摸清各种“外来人员”的情况:主要是入赘、抱养、离婚和娶妻带子、私生等情况。这些情况必须在家系图谱中得到明确清晰的反映。郑州市公安局2015年已经完成了全市辖区内11万支家系的调查,涉及被调查人员300多万。

2.3.2 组织精干人员进行质量验收和督导

Y-STR DNA数据信息库建设中要组织精干人员不断进行检查、督导,定期随机抽查,重点核验家系调查中的图谱质量问题、漏支漏人问题等。保证Y-STR DNA数据信息库的数据完整,基础扎实。

2.3.3 家系信息的系统录入

家系调查阶段,为了工作的方便和修改的简便,绘制的是纸质家系图谱。但是,纸质图谱有其致命的弱点:不便于数据查询。为了适应信息快速查询的需要,郑州市公安局花费了两个多月的时间,将11万个图谱全部、逐条导入《Y-STR DNA家系排查分析应用系统》,完成了传统纸质文件存贮与现代电子数据的完美结合,不但保存有纸质家系图谱备查,还完成了家系数据的电子化查询功能,真正实现了家系信息与Y-STR DNA数据信息的自动对接。

2.3.4 家系内生物样本的采集

经郑州市局Y-STR DNA数据信息库建设相关智库的数次讨论,他们确定了“抽样采集、保证数据质量、节约建库成本”的样本采集原则。由于同一家系男性公民的Y-STR DNA数据信息基本一致,为了节约采集时间、节约检验成本、保证数据质量,考虑到家系大小和代数因素,郑州市公安局确定的具体采集方案为:一是人数原则,即5人以下家系每支采集1人样本,6人以上家系每支采集2人样本,过大家系可以增加样本采集数量;二是血缘分散原则,即所采集人员的血缘尽可能的远,且尽量在家系中成员较多的分支中采集;三是年龄适中原则,即选中的被采集人的年龄尽量选取在15~45岁之间;四是“外来人员”必采原则,即若家系中有入赘、抱养、离婚和娶妻带子、私生等情况的,必须采集上述人员或其一名男性后代的样本。这样既能够保证样本的代表性,又能体现建库节约的原则。

需要注意的是,采集的样本在检测后通常会有剩余,该剩余样本必须妥善保管备用。如以后如果需要进行其他信息检测的话,该保存样本的作用就会凸显,而不需要进行二次采集。

2.3.5 Y-STR DNA样本检测入库

基于目前全国许多地方公安机关也认识到Y-STR DNA数据信息库在侦查破案中的作用并开始了Y-STR DNA数据信息库的建立工作,为了实现较大地域范围内的检索比对,也为了提高数据信息指向的精确度,郑州市公安局建立Y-STR DNA数据信息库时采用了基因座较多的试剂盒作为检测试剂,提高了指向的精度,进一步缩小了家系“种属”的范围。但是,也没有必要一味地提高检测试剂盒的基因座数量,因为过多的基因座数量,会导致同一家系成员因基因变异数目过多而给调查带来过度的干扰。

3 Y-STR DNA数据信息库应用技战法

同一家系中Y-STR DNA信息的基本一致,给我们利用Y-STR DNA数据信息库技术进行犯罪嫌疑人家系的排查奠定了物质基础,这是传统侦查理论中“种属认定”理论的具体应用。如果我们能够准确划定犯罪嫌疑人所在的人员家系(种属),则可以为我们的侦查提供较小的侦查范围,可以节约大量的人力物力。对于侦查来说,Y-STR DNA数据信息库的价值在于它能够指明侦查方向,划定较小的侦查范围,节约大量的侦查资源。2004年以来,各地在探索使用Y-STR 家系排查侦查重大案件的过程中,形成了一些较为成熟的技战法。

3.1 Y-STR 家系排查法

在地域相对封闭、人口迁移流动少的农村或山区,当作案人为本地人员,地域为几个村或几个乡镇的较小范围时,可以使用Y-STR 家系排查法来寻找嫌疑人的家系,进而比对出作案人。

所谓Y-STR 家系排查法是指在案件发生后,对相关区域进行家系调查、绘制家系图谱、进行样本采集和Y-STR检验来寻找作案人所在家系的侦查模式,即“以Y找群,以DNA找人”。其具体方法为:

(1)确定范围,即划定拟进行排查工作的地域范围;

(2)调查家系,绘制家系图谱,采集家系生物样本并进行检验;

(3)比对家系,即将上述2中的Y-STR DNA数据信息与现场生物物证的Y-STR DNA信息进行比对,比中并锁定嫌疑人家系;

(4)家系内排查,由于已经锁定了嫌疑人所在的家系,需要排查的人数已大大减少,常染色体DNA技术很快就能够比中作案人。

Y-STR家系排查法运用于案件侦破,常常可以在较短的时间内破案,提高了破案效率,使得正义可以及时得到申张。2007年以来,郑州市公安局利用Y-STR 家系排查法破获重特大案件130余起,前段时间备受网民关注的山西绛县“2010·4·9”猥亵杀害3名小学女生案以及“甘肃白银连环杀人案”的破获,也是Y-STR 家系排查法应用于实际案件的成功典范。

3.2 Y-STR DNA数据库比对合成技战法

如果说Y-STR 家系排查法是Y-STR DNA技术应用于侦查破案的初级阶段的话,那么,在Y-STR DNA数据信息库建立完成的情况下,我们就可以进行大范围、跨区域的数据比对,可以在中心城市等地域开放、人口流动跨度大、人口流动频繁的地区进行数据比对,必要时可以进行各地数据库的联网比对。比中后,通过Y-STR DNA数据信息库筛选出符合案件嫌疑人年龄、户籍地等特征的可疑家系的男性成员,与视频、情报、技侦、网监等侦查手段立体组合、合成作战,其效果会事半功倍。仅2014年全年,郑州市公安局就通过省内跨区域比对Y-STR DNA数据信息库,成功侦破重特大案件8起。

虽然城市中地域开放、人口流动跨度大、人口流动频繁,但是,通过Y-STR DNA数据库的查询,我们仍可以找到作案人的Y-STR DNA的“基因源”,进而从该源头进行人员情况的梳理。此时,如果引入技侦、网监、视频、情报等技术进行合成作战,就可以较为轻松地找出可疑家系中人员信息与犯罪现场或犯罪现场有关联的物证有交集的相关信息。通过对这些信息的梳理,可进一步缩小侦查范围,为常染色体DNA进行作案人认定提供可靠的方向指南。

2014年1月24日凌晨1时许,郑州市经济技术开发区鲍湖村一出租房内,租房人朱某艳被杀害后焚尸,现场检出Y-STR DNA信息。8月22日,Y-STR数据比中商丘睢县平岗镇一焦姓家系。经调查,该焦姓家系明朝时在濮阳定居,后迁到滑县,清朝大旱这年又南迁到睢县,后其中一支又迁徙到太康。睢县太康两县的焦姓家系共涉及11个乡镇21个行政村,112支家系,男性成员1 000多人。经对睢县太康两县的焦姓家系进行采血检测,又把范围缩小到太康县朱口镇,该镇焦姓家系男性200多人,遂把信息反馈给合成作战支队。合成作战支队以发案时间作为检索条件,查询适龄的该200多人的焦姓家系成员在郑州的活动轨迹,结果表明,在案发时段有3人在郑州活动。常染色体DNA检测后有两人被排除嫌疑,第三人焦某建已离开郑州。随即对焦某建父亲进行常染色体DNA检验,其与现场生物物证DNA符合生物学遗传关系。9月17日晚,焦某建在新疆被抓获,案件得以告破。

4 结语

4.1 应当立即在全国推广Y-STR DNA数据信息库建设

由于Y-STR DNA数据信息库在案件侦破中具有不可替代的作用,在全国推广全面建立Y-STR DNA数据信息库对于盗窃、性犯罪、杀人等刑事案件的侦破具有重要意义。当今社会经济发展迅速,农村的城镇化进程在加快,如果不及时进行Y-STR DNA数据信息库的建设,以后建设的难度会大大增加。应由公安部牵头,整合全国Y-STR DNA数据信息库建设中的先进经验,制定出Y-STR DNA数据信息库建设的国家标准,规范建库的必选、统一的基因位点及数量,将Y-STR DNA数据信息库建设成效作为基础性工作的考核内容,引导各地公安机关投入足够的人力物力,在农村人口尚未大规模城镇化迁移的情况下抓紧Y-STR DNA数据信息库的建设工作。可以省为单位进行Y-STR DNA数据信息库的建设,由公安部统一管理。在人口流动相对较少的地区如农村、都市村庄进行信息和样本采集;而城市人口虽然居住集中,但这些人群不具有血缘上的天然联系,不具有样本采集的价值,不宜建库。同时,各省在Y-STR DNA数据信息库建设时可先行试点,以点带面,在取得一定经验后再广泛建库。在建库过程中切忌盲目,不宜冒进。

4.2 Y-STR DNA数据信息库建库试剂盒基因位点的数目

鉴于目前各地渐渐建立了Y-STR DNA数据信息库,跨区域的比对已经可以实现,因此,为了使得Y-STR DNA数据信息的指向更加明确,试剂盒基因位点的数目应当适当增加。选取基因位点数量少,不能够充分区分出不同家系,不同家系出现“假比中”的概率越大;反之,选取基因座数量越多,理论上就越能够充分区分出不同家系。但是,由于在遗传过程中个体可能会发生基因的突变,同一家系不同男性个体的Y-STR DNA数据信息也可能会因此而存在微小的差别。如果检测时选取的基因位点数量过多,一方面会使得检验成本显著增加,另一方面可能会导致同一家系成员因基因变异数目过多而给调查带来过度的干扰。因此,根据郑州市公安局的实践经验和刘海等的研究,目前以27个左右的基因位点数量较为合适,既不易出现“假比中”,也不会导致变异过多带来的过度干扰。

4.3 应当构建大数据平台下的合成作战模式

指纹信息数据库、常染色体DNA数据库、Y-STR DNA数据信息库等应当相互结合,与其他公安数据库也应当进行数据共享,以打造一个大数据背景下的合成作战平台。通过对各数据库信息整合后“大数据”的分析梳理,将各信息要素通过海量计算,最好能做到可视化、扁平化、集成化,做到一站式、点对点的梳理,进而共享整个平台资源。通过多信息、多警种协同的合成作战模式,可以充分发挥信息碰撞的综合优势,实现信息潜力挖掘的深化。可以进一步提高侦查的效率。

[1] 黄书琴,等.利用指甲缝中残留DNA破案1例[J].中国法医学杂志, 2006,21(4):248-249.

[2] 吴微微,等.用Y-STR单倍型信息指导数据库采样分析[J].刑事技术,2013(1):3-5.

[3] 于兆新,等.Y-STR分型在侦破案件中的应用[J].河南科技大学学报( 医学版),2013,31(1):45-46.

[4] 郑州市公安局.Y-STR数据库建设及应用探讨[C]∥嵩山论坛(2016论文汇编),2016:2-10.

[5] 黄书琴,马会强.Y-STR数据库比对合成技战法[C]∥嵩山论坛(2016论文汇编),2016:11-21.

[6] LIU H, LI X, MULERO J, et al. Aconvenient guideline to determine if two Y-STR profiles are from the same lineage[J]. Electrophoresis, 2016,37(12):1659-1668.

(责任编辑 陈小明)

陈振乾(1964—),男,河南人,副教授。研究方向为刑事科学技术。

D919.2

猜你喜欢
信息库家系染色体
Ⅰ型肢根型点状软骨发育不良家系的遗传学分析
发育性癫痫性脑病75型家系的遗传学分析
湿地松种子园家系生长表现
多一条X染色体,寿命会更长
借助BIM构建动态造价信息库的新思路
为什么男性要有一条X染色体?
长白落叶松生长变异及优良家系选择研究
基于普元EOS平台的信息库的设计与实现
真假三体的遗传题题型探析
能忍的人寿命长