王 晶,马温华,董颖强,刘星雨,谢 颖,江 丽,李万水,赵兴春,张 建
(公安部物证鉴定中心,北京市现场物证检验工程技术研究中心,现场物证溯源技术国家工程实验室,北京 100038)
人类有23对46条染色体,其中22对44条为常染色体,还有1对为性染色体,XY组合的为男性,XX组合的为女性。Y染色体为男性所特有,严格遵循父系遗传,且重组率低、对遗传漂变敏感,与常染色体不同。研究Y染色体,可以发现人群在父系关系上的迁徙和发展,其基因多态性在不同民族和地域上也具有明显的差异性[1-2],在法医学个体识别、亲权鉴定、遗传学分析和人类迁徙等方面有重要的研究意义[3-5]。本研究对贵州地区人数较多的3个少数民族人群(回族、苗族、彝族)进行了29个Y-STR基因座(DYS391、DYS438、DYS439、DYS444、DYS447、DYS458、DYS643、DYS389I、DYS389II、DYS437、DYS448、DYS449、DYS390、DYS392、DYS393、DYS19、GATA-H4、DYS576、DYS635、DYS456、DYS460、DYS481、DYS508、DYS518、DYS533、DYS385ab、DYF387S1)的多态性研究,旨在对该地区少数民族人群的基因特征、人口迁徙等进行分析,为该地区的法医学和群体遗传学研究应用提供基础数据支撑。
从无关个体人群中筛选获得291份贵州地区回族个体血样、309份贵州地区苗族血样和331份贵州地区彝族血样,血样采集载体均为纸质类型,常温保存。通过YHRD数据库(www.yhrd.org)获得贵州仡佬族(YP001174)、四川彝族(YP001345)、湖北土家族(YP001234)、广西苗族(YP001169)、甘肃东乡族(YP000976)、上海汉族(YP000973)和河南回族(YP001359)7个群体共计4 472个单倍型分型数据作为对比数据。
按照DNATyperTMY29试剂盒(公安部物证鉴定中心)说明,采用直接扩增法进行操作[6-8],此过程中均采用9948和超纯水分别作为阳性和阴性对照。所有样本在ABI9700扩增仪上进行扩增,使用ABI3500型遗传分析仪进行检测,采用Data Collection软件进行数据收集,然后使用GeneMapper ID v3.2软件进行数据分析,并使用GeneMapper ID-X 1.4分析软件进行数据复核分析。
应用直接计数法对各基因座的等位基因频率进行统计。基因多样性(gene diversity,GD)和单倍型多样性(haplotype diversity,HD)按照公式GD/HD=[n(1-∑Pi2)]/(n-1)计算[9-10](n分别为样本数或观察到的单倍型个数,Pi分别为基因频率或单倍型频率)。使用YHRD数据库在线软件进行分子方差分析(analysis of molecular variance,AMOVA),计算群体间遗传距离Rst矩阵,并进行多维尺度分析(multidimensional scaling,MDS)[11]。
本研究中使用的29个Y-STR基因座包括25个单拷贝Y-STR基因座及2个双拷贝基因座(DYS-385ab和DYF387S1,视为4个Y-STR基因座)。贵州地区3个民族931名无关个体的29个Y-STR基因座等位基因频率分布见表1~3。在29个Y-STR基因座中,回族人群共检出229个单倍型,其中186个为唯一单倍型,29种单倍型出现2次,10种单倍型出现3次,3种单倍型出现4次,1种单倍型出现5次,计算得到的HD值为0.995 5。彝族人群共检出305个单倍型,其中281个为唯一单倍型,22种单倍型出现2次,2种单倍型出现3次,计算得到的HD值为0.999 1。苗族人群共检出282个单倍型,其中258个为唯一单倍型,22种单倍型出现2次,1种单倍型出现3次,1种单倍型出现4次,计算得到的HD值为0.998 9。
29个Y-STR基因座在贵州回族、苗族和彝族3个民族的GD值分别为0.289 9~0.874 7、0.252 3~0.915 5、0.316 2~0.947 9(表4)。在贵州回族人群中,除DYS437、DYS391、DYS438 3个基因座,其余基因座GD值均大于0.5。在贵州苗族人群中,除DYS390、DYS391、DYS508、DYS438 4个基因座,其余基因座GD值均大于0.5。在贵州彝族人群中,除DYS437、DYS391、DYS508、DYS533、DYS438 5个基因座,其余基因座GD值均大于0.5。
表1 贵州回族、苗族和彝族人群25个单拷贝Y-STR基因座等位基因频率分布Tab. 1 Guizhou Hui, Miao and Yi population allelic frequencies of 25 Y-STR loci
贵州回族、苗族和彝族在不同基因座上的等位基因频率分布存在明显差异性,同一基因座在不同民族群体中的基因频率也存在明显的差异,例如在DYS19基因座上,贵州回族群体中等位基因13的基因频率较高,贵州彝族群体中等位基因14的基因频率较高,而在贵州苗族群体中14、15、16、17 4个等位基因的基因频率呈现比较均衡的分布。在DYS389Ⅰ基因座上,贵州回族和彝族群体中等位基因13的基因频率最高,分别为0.639 2和0.643 5;而贵州苗族群体中12的等位基因频率最高,为0.514 6,详见表1。DYS387S1与DYS385ab基因座为双拷贝基因座,在不同民族群体中等位基因频率差异性更为明显。DYS385ab基因座在贵州回族和彝族群体中未观察到三等位基因分型,在贵州苗族群体中观察到1组三等位基因分型,分型为12/13/18,频率为0.003 2。DYS387S1基因座在贵州回族群体中观察到1组三等位基因分型,分型为37/38/39,频率为0.020 6。在贵州彝族群体中观察到2组三等位基因分型,分型分别为34/36/39和36/37/39,频率分别为0.003 0和0.012 1;在贵州苗族群体中观察到6组三等位基因分型,分型分别为35/36/38、35/36/39、36/37/39、36/37/40、36/38/39和37/38/40,频率分别为0.003 2、0.003 2、0.009 7、0.003 2、0.003 2和0.003 2。具体详见表2和表3。
表2 DYF387S1基因座在贵州回族、苗族和彝族人群的等位基因频率分布Tab. 2 Allelic frequencies of DYF387S1 loci in Guizhou Hui, Miao and Yi population
表3 DYF385ab基因座在贵州回族、苗族和彝族人群的等位基因频率分布Tab. 3 Allelic frequencies of DYF385ab loci in Guizhou Hui, Miao and Yi population
表4 贵州回族、苗族和彝族人群的基因多样性Tab.4 Gene diversity of Guizhou Hui, Miao and Yi populations
表5 10个民族Rst值遗传距离矩阵Tab. 5 Pairwise Rst and the associated P values computed for 10 populations
遗传距离指不同群体之间的基因差异的程度,并且以某种数值进行度量。通常由基因频率的某个函数所确定,是反应群体之间遗传差异与群体间遗传分化的重要指标。通过AMOVA分析,贵州苗族、回族和彝族与其他7个人群间的Rst遗传矩阵见表5,10个群体间有明显遗传学差异(P<0.05),10个人群间的遗传距离在0.007 8~0.138 9。其中贵州仡佬族与上海汉族的遗传距离最小(0.007 8),广西苗族和湖北土家族的距离最远(0.138 9),贵州回族与其他民族相比与广西苗族距离最远(0.130 6),贵州彝族和贵州苗族与其他民族相比与湖北土家族的遗传距离最远(0.075 4,0.116 3)。基于遗传距离MDS散点图(图1)可以看出贵州仡佬族、上海汉族、河南回族和四川彝族聚集一簇,广西苗族和贵州苗族聚集一簇,贵州回族与甘肃东乡族一簇,湖北土家族与其他民族相距较远。
图1 10个民族多维尺度分析图Fig. 1 Multi-dimensional scaling (MDS) plot for 10 populations based on Rst values
Y染色体为人类性染色体,为正常人类男性所特有。Y染色体以单倍型的形式由父亲传给儿子,呈父系遗传的方式。因此,Y染色体可被用于性别鉴定。近年来,通过对Y染色体特有的STR序列多态性进行深入研究,Y染色体上的STR基因座被广泛用于个体识别与亲子鉴定。并且通过不同民族和地域的Y-STR多态性的研究对了解人类的起源和迁移等方面也有着重要的遗传学意义[12-15]。所有Y-STR基因座位于一条染色体上,呈现的是连锁遗传,不符合Hardy-Weinberg平衡定律,个体识别与父权鉴定的统计学计算不能参照常染色体的累计法,只能以单倍型概率计算,再计算个体识别率。在Y染色体上,单个基因座的非父排除率(excluding probability of paternity,EPP)、多态信息含量(polymorphism information content,PIC)与GD相同。累计非父排除率、累计个体识别能力与HD相同。
本文29个Y-STR基因座的遗传多态性结果显示:贵州回族人群HD值为0.995 5;彝族人群HD值为0.999 1;苗族人群HD值为0.998 9。这表明此29个Y-STR基因座在贵州回族、彝族和苗族人群中具有较高的个体识别力。29个Y-STR基因座在贵州回族、苗族和彝族3个民族的GD值分别为0.289 9~0.874 7、0.252 3~0.915 5、0.316 2~0.947 9。在贵州回族人群中,除DYS437、DYS391、DYS438 3个基因座,其余基因座GD值均大于0.5;在贵州苗族人群中,除DYS390、DYS391、DYS508、DYS438 4个基因座,其余基因座GD值均大于0.5;在贵州彝族人群中,除DYS437、DYS391、DYS508、DYS533、DYS438 5个基因座,其余基因座GD值均大于0.5。上述结果表明这29个Y-STR基因座的大部分基因座在贵州回族、苗族和彝族3个人群中具有较高的遗传多态性,适合用于法医学应用。通过对不同民族和地域间人群的分析,同一基因座在不同地域民族之间的Y-STR基因座多态性具有明显的差异[16-18]。如DYS533在苗族中的GD值为0.635 8,在回族中的GD值为0.673 9,在彝族中的GD值为0.495 5,说明各个民族之间都有自己独特的单倍型,对不同地域民族间的Y-STR基因座频率不能通用,不同地域民族的Y-STR基因座基因频率的详细调研具有重大的法医学和遗传学意义[19-20]。
本研究选择了其他7个民族群体与贵州苗族、彝族和回族群体进行遗传学分析,这7个民族群体分别为:湖北土家族、甘肃东乡族、上海汉族、贵州仡佬族、四川彝族、河南回族和广西苗族(除上海汉族外其他属于少数民族)。选择这7个民族群体是为了比对同一地域不同民族的遗传学差异(贵州仡佬族)、同一民族不同地域的遗传学差异(四川彝族、河南回族、广西苗族)以及不同地域不同民族间的遗传学差异(湖北土家族、甘肃东乡族、上海汉族),尤其是少数民族间的遗传学差异。对贵州3个群体与这7个群体进行AMOVA分析,获得的Rst遗传距离矩阵显示:同一地区不同民族间遗传距离较远,例如贵州仡佬族与贵州回族遗传距离为0.075 7,表明即使在同一地域内,不同民族间遗传学参数存在较大差异,其不同民族间遗传交流较少,遗传结构较为独立;同一民族不同地域群体间的遗传距离也存在明显差异性,例如河南回族与贵州回族遗传距离为0.057 4;但同一民族的亚群体易聚为一类,遗传距离相对较近,例如广西苗族与贵州苗族的遗传距离为0.012 4,此结果表明,可能由于迁徙等原因,同一民族群体即使处于不同地域,其遗传距离依然较近;而通过不同民族且不同地域群体间的遗传数据进行对比,发现该组遗传距离较远,比如广西苗族与湖北土家族的遗传距离最远为0.138 9,湖北土家族与贵州苗族和四川彝族的遗传距离也较远,分别为0.116 3和0.118 7,贵州回族和广西苗族和四川彝族的遗传距离也较远,分别为0.130 6和0.122 1。这说明遗传距离与不同地域不同民族群体都有着密不可分的联系,尤其在少数民族群体之间,不同民族且不同地域间的民族群体间,其遗传学差异越明显,遗传距离越远。
综上所述,29个Y-STR基因座在贵州回族、苗族和彝族人群中大部分基因座的遗传多态性较高,其联合运用具有较高的个体识别力,适用于法医学个体识别和亲权关系鉴定。本文通过对贵州苗族、回族和彝族3个人群与其他7个群体的遗传结构分析,进一步为各民族的起源和迁移等遗传关系研究提供了重要基础。