张 建,白 雪,张译文,张 成,王 郗,莫晓婷,叶 健*,李生斌
(1. 西安交通大学生物证据研究院,国家生物安全证据基地,西安 710049;2. 公安部物证鉴定中心,北京 100038;3. 中国科学院北京纳米能源与系统研究所,北京 100083;4. 北京大学信息科学技术学院,北京 100871)
Y染色体是决定生物个体性别的性染色体的一种,为男性特有,因此可采用Y染色体分析法对家史溯源、家系遗传和祖先鉴定开展研究[1-3]。本研究选取江西省南部的瑞金、兴国等地区(以下简称“赣南地区”)汉族人群为研究对象,获取该地区男性个体DYS460、DYS389I、DYS390、DYS533、DYS389II、DYS392、DYS518、DYS508、DYS458、DYS437、DYS385ab、GATA-H4、DYS576、DYS643、DYS456、DYS391、DYS447、DYS438、DYS448、DYF387S1、DYS393、DYS635、DYS439、DYS19、DYS444、DYS449、DYS481 29个Y-STR(Y chromosome short tandem repeats)基因座的遗传学数据,旨在对该人群的基因特征、人口迁徙、基因融合进化等进行分析,为该地区的群体遗传学和法医学研究应用提供基础数据参考。
采集赣南地区1 532例汉族健康男性无关个体的静脉血样本于采集卡并干燥保存。本研究得到公安部物证鉴定中心科研伦理委员会的批准(审批编号:2020-009),所有样本供者在采样前签署了知情同意书。
DNATyperTMY29试剂盒(公安部物证鉴定中心,中国),Mastercycler pro型基因扩增仪(Eppendorf公司,德国),3730型遗传分析仪(ABI公司,美国)。
采用直接扩增法操作[4-6],按照DNATyperTMY29试剂盒说明书建议的反应体系和条件进行复合扩增 :72℃ 20 min ;95℃ 11 min,94℃ 30 s,59℃3 min,31个循环;60℃ 59 min。扩增产物用3730型遗传分析仪进行毛细管电泳检测分析,运用GeneMapper IDX1.4软件对数据结果进行Y-STR分型。
用直接计数法计算各个基因座的等位基因频率和单倍型频率,其中两个双拷贝基因座DYS385ab、DYF387S1按照单倍型计算。按公式D=[n(1-∑Pi2)]/(n-1) 计算基因多样性(gene diversity,GD)和单倍型多样性(haplotype diversity,HD),其中n分别为样本数或观察到的单倍型个数,Pi分别为基因频率或单倍型频率[7]。应用Mega-X软件对选取的群体构建进化树,用YHRD在线工具软件(www.yhrd.org)进行分子方差分析(analysis of molecular variance,AMOVA),对群体间遗传距离(Rst值)进行计算,同时构建多维尺度图(multi-dimensional scaling,MDS)[8]。
赣南地区汉族1 532个个体观察到1 453种单倍型,其中1 384种单倍型为唯一分型,1种单倍型出现4次,8种单倍型出现3次,60种单倍型出现2次,HD值为0.999 924。计算整理29个Y-STR基因座在赣南汉族人群中的等位基因频率,具体数值如表1所示。观察发现,在29个Y-STR基因座上共发现240个等位基因,各基因座分别出现4~21个等位基因,其中DYS385ab基因座的单倍型最多,共出现21个等位基因,73种单倍型,其次为DYF387S1基因座,共出现11个等位基因,44种单倍型。同时观察到,在DYF387S1上出现2例三等位基因,在DYS518上出现4种微变异基因(X.2分型),DYS458上出现3种微变异基因(X.1和X.3分型),DYS448、DYS481、DYS385ab上各出现2种微变异基因(分别为X.2、X.1和X.3分型),DYS449、DYS392、DYF387S1上各出现1种微变异基因(分别为X.2、X.1和X.3分型)。上述的三等位基因分型和微变异基因模式已用其他商品试剂盒进行了验证。29个Y-STR基因座在赣南汉族人群中的基因多样性见表2,GD值为0.381 5(DYS438)~0.876 6(DYS518),除了基因座DYS508、DYS437、DYS391和DYS438外,其余25个基因座的GD值均高于0.5。
表1 29个Y-STR基因座在赣南汉族人群中的等位基因频率分布(n=1 532)Tab. 1 Allele frequency distribution of 29 Y-STR loci in Gannan Han population (n=1 532)
表2 29个Y-STR基因座在赣南汉族人群中的基因多样性(n=1 532)Tab. 2 Genetic diversity of 29 Y-STR loci in Southern Jiangxi Han population (n=1 532)
将赣南汉族人群与黑龙江汉族、上海汉族[9]、呼伦贝尔汉族、北京汉族[10]、甘肃汉族、乐山汉族[11]、福建汉族、湖南汉族[12]、潮汕汉族[13]、广西汉族及东方汉族[14]人群进行遗传距离比较,用Rst值来表示遗传距离[3],得到Rst值矩阵(表3)。Rst值范围为0.000 2~0.024 9,赣南汉族与福建汉族(0.000 2)之间的遗传距离最近,与潮汕汉族(0.004 3)、湖南汉族(0.004 4)间的遗传距离较近,与黑龙江汉族(0.024 9)、东方汉族(0.021 6)的遗传距离较远。将赣南汉族人群与海南黎族[15]、广西壮族[16]、新疆哈萨克族[17]、云南白族、宁夏回族[18]、甘肃回族[19]、新疆回族、西双版纳傣族、辽宁满族[20]、四川彝族[21]、北川羌族、呼伦贝尔蒙古族[22]、贵州苗族、甘孜藏族及延边朝鲜族人群遗传距离进行比较,其Rst值范围为0.005 9~0.468 9,Rst值矩阵见表4。赣南汉族与云南白族(0.005 9)的遗传距离较近,与甘孜藏族(0.468 9)的遗传距离较远。同时得到赣南汉族与26个人群的系统进化树(图1)和MDS结果(图2),其中图1a、2a为赣南汉族与其他汉族群体间的分析,图1b、2b为赣南汉族与少数民族群体间的分析。
表3 赣南汉族与11个其他汉族人群的Rst值(n=1 532)Tab. 3 Rst between Southern Jiangxi Han and eleven other Han populations (n=1 532)
表4 赣南汉族与少数民族人群的Rst值(n=1 532)Tab. 4 Rst between Southern Jiangxi Han and the ethnic minorities populations (n=1 532)
在图1a所示的汉族群体的系统进化树中,赣南汉族、福建汉族、潮汕汉族、乐山汉族、上海汉族、湖南汉族、广西汉族的遗传关系较近,聚为一类;而甘肃汉族、黑龙江汉族、呼伦贝尔汉族以及北京汉族聚为一类,体现了南北汉族遗传结构差异。此外,海南东方汉族与其他汉族的遗传关系都较远,可能是海南岛因地理位置所限,而与其他群体的基因交流太少造成的。遗传距离是指不同群体或物种间的遗传差异程度,可用一定的值来衡量,是反映群体间遗传差异的重要指标[23]。从Rst值和MDS图(图2a)可以看出,赣南汉族与福建汉族遗传距离最近,应与人口迁移情况以及两地如今均为客家人聚居地有关。千百年来,由于战乱和受灾,中原地区大量汉族人从黄河流域南下,其中包括客家人的祖先。特别是晚唐江淮大混战后,大量汉人不断南下,大批汉人涌入赣南。汉族移民在江西定居后,由于盐土匮乏等原因,在南宋末年以后,其中一部分继续南下进入福建。汉族的南下迁徙,并聚居江西和福建,形成了客家人群体[24]。本研究从遗传学角度说明了江西、福建客家人的迁徙、融合。同时,研究发现赣南汉族与福建汉族汇聚后,再与潮汕汉族汇聚,这一现象可能与客家人、潮汕人通婚普遍且均是从中原迁徙而来有关,不同之处在于:客家人从江西南部走山路,到福建西部,然后到广东东部,潮汕人则走沿海路线迁徙而来。另外,乐山汉族、湖南汉族以及广西汉族与赣南汉族有着较近的遗传距离,可能与历史上“江西填湖广,湖广填四川”等移民事件有关。各地汉族人群之间的遗传距离体现了迁徙造成的基因传承与差异。
图2 赣南汉族与26个人群的MDS结果Fig. 2 MDS results of Southern Jiangxi Han and twenty-six other populations
在与少数民族的系统进化研究中(图1b),赣南汉族、云南白族、西双版纳傣族、海南黎族、广西壮族、四川彝族、北川羌族、延边朝鲜族以及贵州苗族的遗传关系较近,聚为一支;甘孜藏族独立为一支;辽宁满族、宁夏回族、新疆回族、甘肃回族、新疆哈萨克族、呼伦贝尔蒙古族聚为一支,体现了我国人群Y-STR基因座的遗传结构在以秦岭-淮河为界的南北方差异明显。云南白族和西双版纳傣族汇聚后再与赣南汉族汇聚,且云南白族与赣南汉族遗传距离最近(图1b、2b),这可能与云南大理的文化特点以及汉族人口迁徙入滇有关。云南大理文化的特点是突破原有文化,通过与外来文化的接触和交流,以丰富自身的传统文化。自明初开始有大批汉人迁往云南,外来汉族与原居云南的白族不断接触,有些白族祖先被汉族影响[25],产生了基因的交流融合。
图1 赣南汉族与26个人群的系统进化树Fig. 1 Phylogenetic trees of Southern Jiangxi Han and twenty-six other populations
除了拟常染色质区之外,Y染色体的大部分在减数分裂时不会出现重组交换,其特异基因座上的等位基因序列结构能够以单倍型的形式稳定的由父亲传给儿子,呈父系遗传[26]。由于这种特性,Y染色体常被用于性别鉴定。近些年来,由于对Y染色体特有STR基因座研究的不断深入,Y-STR基因座被广泛用于法医DNA检,如混合样本(男女混合、多个男性混合)的检测、单亲亲子鉴定等。同时由于Y-STR在减数分裂过程中不发生重组,其序列的改变仅由突变所引起,Y -STR所记录的进化信息和所显示的遗传距离可能较其他遗传标记更为准确[27]。对不同民族和地域人群Y-STR多态性的研究,对于了解人类的起源、迁徙、基因交流融合、父系溯源等方面也有着重要的遗传学意义[28]。
本研究显示,29个Y-STR基因座在赣南汉族人群中的GD值范围为0.381 5(DYS438)~0.876 6(DYS518),除了DYS508、DYS437、DYS391和DYS438这4个基因座外,其余25个基因座GD值均高于0.5[29],在其他人群中这4个基因座的GD值高于和低于0.5的情况均有报道[9-22,30],该值的不同体现了其在不同人群中的差异。如乐山汉族人群各基因座的GD值中DYS437、DYS438和DYS391高于0.5,而DYS508低于0.5;东方汉族人群各基因座的GD值中DYS437和DYS508高于0.5,而DYS438和DYS391低于0.5;在贵州苗族人群中,DYS391、DYS438和DYS508这3个基因座的GD值低于0.5,而DYS437的GD值高于0.5。另外,本研究的单倍型多样性为0.999 924。研究数据表明29个Y-STR基因座在赣南汉族人群中有较高的遗传多态性,对法医学父系鉴定、个体识别有重要应用价值。
29个Y-STR基因座中,DYS385ab、DYF387S1为双拷贝基因座,即一对引物在Y染色体上有2个结合位点,可以扩增出2个片段长度不同的PCR产物。Y-STR基因座有多个拷贝,可能与染色体的结构有关。与常染色体相比,Y 染色体上基因较少、分布的密度较低,因而承受的选择压力也较小,故较易发生大片段的插入事件,并且Y染色体大部分不发生重组,致使这些片段插入情况更容易发生[31]。对Y染色体常染色质区的序列分析也发现,较多的序列在Y染色体上出现1次以上,且常常以回文序列的形式存在[32]。上述因素是导致Y染色体上出现多拷贝STR基因座及容易出现异常分型的原因。在1 532例样本中,DYF387S1基因座上有出现2例三等位基因分型情况。在DYF387S1基因座上出现三等位基因分型的情况也有报道,如在朔州汉族人群中的发生率为1.75%[33],在通化朝鲜族人群中的发生率为2.04%[34],在贵州回族、苗族人群中的发生率分别为2.06%和2.59%[30],在本研究中该情况的发生率仅为0.13%。其发生率差异较大,应与民族及地域因素相关。多等位基因现象在日常案件DNA检验中应引起重视, 特别是对于多个男性混合的样本, 采用Y-STR检验结果分析男性个体的人数时, 尤应注意此种现象。在1 532例样本中,DYF387S1基因座上出现2例三等位基因,这表明该基因座在所研究群体中更容易出现特殊分型,推测出现这种现象的原因是该基因座发生了新拷贝复制。另外,在DYS518、DYS458、DYS448、DYS481、DYS385ab、DYS449、DYS392、DYF387S1等基因座上均出现微变异基因情况。在日常法医DNA检验过程中,若Y-STR基因座出现多等位基因或微变异基因等特殊分型情况,会更有利于法医学亲权鉴定[35]。
回族是我国少数民族中人口较多、分布最广的一个民族,在历史上经历过主要的4次大规模的人口迁徙后,逐渐形成了目前大分散、小集中的分布格局。本研究发现,宁夏回族、新疆回族以及甘肃回族的遗传距离较近,而与其他民族有较远的遗传距离,这是因为回族群体的婚配受宗教影响较深,与其他民族较少通婚,而使基因的交流和传承更多的是发生在本民族、本教门内[36-37],使得回族各群体与其他民族在Y-STR基因座特征遗传上既保持其民族的独立性又各自有别。同时,与赣南汉族遗传距离相对较近的海南黎族、广西壮族聚为一支,表明海南黎族与广西壮族两地先民同属一个支系,相关历史学研究也为此提供了佐证[38]。赣南汉族与甘孜藏族、呼伦贝尔蒙古族等遗传距离较远,说明地域和民族的不同会造成Y-STR基因座遗传的更大差异性。Y-STR基因座在不同的区域、民族之间的遗传差异性[39],使得Y-STR基因座的遗传多样性研究在人口迁徙、父系家族追溯等研究中的应用越来越有价值。
综上所述,本研究的29个Y-STR基因座在赣南汉族人群中具有较高的遗传多态性,能够满足家系排查及法医学检案的要求,所获得的等位基因频率、多态性等数据可为该地区的法医学研究应用提供理论依据。同时,对赣南族人群与其他26个群体的遗传结构分析,也进一步为各民族的起源、迁移、融合等遗传关系研究提供了基础数据支持。