张秀秀,喻艳琴,田薇,张婷,王婵娟,单可人,何燕
(1.地方病与少数民族性疾病教育部重点实验室/贵州医科大学,贵州 贵阳 550004;2.贵州省医学分子生物学重点实验室,贵州 贵阳 550004)
Y染色体的非重组区域单核苷多态性(Y-SNP)已被广泛用于研究人类种群的起源[1]和迁徙[2-4]。 Y-SNP单倍群的分布频率有地区特异性[5],且和语言分类高度相关[6],研究人员可以通过单倍群频率来推断群体可能的地理起源[7]和种族起源[8]。壮侗语族是一个历史非常悠久的民族群体,与古代南方百越族群有渊源关系,在距今4 000年前的新石器时代文化遗址中存在他们曾经生活过的迹象,百越民族在千百年的分化融合过程中逐渐发展成黎族、侗族、水族、仫佬族、仡佬族、壮族等[9]。本文利用 Y-SNP遗传多态性分析贵州壮侗语族 7个民族(水族、布依族、侗族、仡佬族、壮族、毛南族、仫佬族)男性群体的遗传结构,探讨与其他民族以及其他语族的遗传关系。
从课题组根据知情同意原则建立的贵州世居少数民族 DNA 样本库中,采用整群随机抽样方法,从本民族聚集地采集样本,3代内无族外通婚史,个体间无亲缘关系,筛选出语言学分类隶属壮侗语族的贵州7个世居少数民族(水族、布依族、侗族、仡佬族、壮族、毛南族和仫佬族)男性DNA样本,样本例数及采样地点等信息见表1。
表1 贵州省壮侗语族7个少数民族种类、样本例数和采样地点一览表Table 1 List of the 7 ethnic minorities,sampled ethnic groups and sample numbers of Zhuang-Dong Language in Guizhou Province
每份DNA样本用Thermo ScientificTMNanoDrop Lite分光光度计定量后,取少量标化为20 ng/μL作为实验的模板,-40 ℃保存备用。
1.2.1 21个 Y-SNP多重PCR 扩增及纯化 多重PCR扩增:在Y染色体进化树选取东亚主要的单倍群[10]上的 M145、RPS4Y711、M89、M9、M214、M175、M119、P31、M95、SRY465、47Z、M122、M324、P201、M159、M7、M134、M133、M217、M48、M407 21 个 Y-SNP 为研究靶点,依据文献[11]分成4组(Ⅰ、Ⅱ、Ⅲ、Ⅳ组)进行 PCR 扩增(引物序列及分组情况见表 2)。体系包括:20 ng/μL 的模板 DNA 1.5 μL、引物 MIX 15 μL、10 nmol/L dNTP 3.0 μL、10×Buffer 2.5 μL、TaqDNA聚合酶0.5 μL、1 mmol/L甜菜碱 1.0 μL(其作用在于:① 富含GC模板的PCR扩增;② 提高TaqDNA 聚合酶的稳定性)、5 mmol/L MgCl21.0 μL、500 μg/mL 牛血清蛋白(BSA)0.5 μL。循环条件:95 ℃ 10 min; 95 ℃ 30 s,58 ℃ 30 s,72 ℃ 30 s,循环35次;72 ℃ 7 min,产物置 4 ℃ 保存。
纯化:第Ⅰ、Ⅱ组PCR产物各取1 μL 混合,加入1 U/μL 虾碱酶(shrimp alkaline phosphatase,SAP)1 μL和1 U/μL大肠杆菌核酸外切酶Ⅰ(exonuclease,ExoⅠ)1 μL,37 ℃保温 70 min 后 75 ℃ 15 min 灭活酶,即得纯化后的多重 PCR 产物,4 ℃ 保存,充当单碱基扩增时A 组的模板。第 Ⅲ、Ⅳ 组扩增产物也如法纯化,充当单碱基扩增时B组的模板。
1.2.2 SNapShot 单碱基扩增及纯化 分A、B两组进行单碱基扩增(分组情况及引物信息见表2)。体系包括:模板0.75 μL、SNapShot Mix 1.25 μL、单碱基扩增引物 MIX 0.5 μL。循环条件:96 ℃ 10 s,50 ℃ 5 s,60 ℃ 30 s,循环28 次,产物4 ℃保存。
纯化:单碱基扩增产物加入1 U/μL的SAP0.5 μL,混匀,瞬时离心,37 ℃保温70 min后75 ℃ 15 min灭活酶,即得纯化后的 SNapShot单碱基延伸产物,4 ℃ 保存。
1.2.3 ABI 3130毛细管电泳检测 纯化的单碱基延伸产物0.5 μL、GeneScan-120LIZ Size Standard 0.05 μL和Hi-DiTM甲酰胺9.45 μL,混匀,离心并用ABI 3130遗传分析仪(Applied Biosystems)进行毛细管电泳分析,ABI 3130 Genetic Analyzer Data Collection Software v3.0进行数据收集。
用直接计数法计算21个Y-SNP等位基因频率、单倍型频率与单倍群频率。单倍型多样性(HD)和基因多样性(genetic diversity,GD)根据公式HD或GD=n(1-ΣP2i)/(n-1)(Pi为单倍型频率或等位基因频率,n为样本数)计算。运用SPSS 24软件进行主成分分析( principle component analysis, PCA )。
本文采用 SNapShot 法对贵州省壮侗语族7个世居少数民族445例男性样本的21个Y-SNP位点进行基因分型,等位基因频率见图1,基因多态性见图2。21个Y-SNP位点中7个世居少数民族男性样本的 M407、47Z 的突变频率均为0,水族群体的M175、M214、M9、M89 的突变频率均为1,上述位点均没有多态性(GD=0.000 0);M324、M122、M119、M95、P31 在7个世居少数民族男性样本中均具有多态性,M48位点仅侗族有多态性(GD=0.030 8),SRY465和M159仅仡佬族有多态性,GD值均为0.029 8。
表2 21个Y-SNP位点的多重PCR引物和SNapShot单碱基扩增引物及分组情况Table 2 The sequences of Multiplex PCR primers and SNapShot microsequencing primers and grouping for 21 SNPs on Y-chromosome
经单倍型多态性公式计算水族、布依族、侗族、仡佬族、壮族、毛南族、仫佬族单倍型多态性分别为0.597 7、0.945 6、0.885 6、0.886 9、0.768 6、0.358 7、0.707 8;依照国际系谱遗传(International Society of Genealogy, ISOGG)网站 https://isogg.org/tree/index. html 上发布的Y单倍群系统进化树进行单倍群的划分,通过直接计数法获得单倍群频率(见表3);通过Excel绘制贵州省7个世居少数民族Y染色体单倍群频率热图,该热图对不同单倍群在7个世居少数民族的分布情况进行直观观测,绿色→蓝色→红色单倍群频率逐渐增加,显而易见,在7个世居少数民族中主要单倍群为O1b1a1a-M95,该单倍群在毛南族、仫佬族、水族人群中呈高频分布(0.816 7 、0.569 2 、0.500 0),在侗族人群中分布频率较低(0.092 3)。
通过 Excel 绘制贵州省壮侗语族的7个世居少数民族和其他9个少数民族 Y 染色体单倍群频率热图,见表4,该热图对不同单倍群在 16个民族的分布情况进行直观观测,绿色→蓝色→红色单倍群频率逐渐增加,可以看到单倍群O1b1、O2a2在壮侗语族和苗瑶语族的分布频率较高;O1a仅在壮侗语族存在高频分布;单倍群C在北方民族群体中的分布频率明显高于南方民族群体。运用SPSS 24软件对表 4 进行主成分分析(见图3)。如图3所示,北方民族与南方民族各自聚在一起,其中归属壮侗语族的毛南族、壮族、水族、仫佬族紧密相聚后再与仡佬族相聚,而同属壮侗语族的侗族和布依族则与苗瑶语族的苗族、瑶族、畲族较近,提示上述民族之间可能发生了基因交融。
为了验证贵州省壮侗语族和其他语族之间的关系,通过直接计数法获得贵州省壮侗语族的单倍群频率,通过文献报道的民族单倍群频率计算语族的单倍群频率,通过Excel绘制贵州省壮侗语族和其他语族 Y 染色体单倍群频率热图,见表5,该热图对不同单倍群在7个语族间的分布情况进行直观观测,绿色→蓝色→红色单倍群频率逐渐增加,很明显单倍群 C 在北方民族群体分布频率较高;O2a2在南方群体分布频率较高,O1b1在壮侗语族群体存在较高频率分布,该单倍群可能与壮侗语族群体相关;O2在汉语族群体中分布频率较高。根据表5的单倍群频率采用SPSS 24软件进行主成分分析(见图 4)。图4中,前三个主成分解释了84.79%的总方差,图中归属汉藏语系的壮侗语族、苗瑶语族、汉语族聚在一起,归属阿尔泰语系的突厥语族、蒙古语族相聚后再与满通古斯语族聚在一起,藏缅语族位于两组之间。
图1 贵州壮侗语族7个民族人群 21 个 Y-SNP的基因频率Fig.1 Frequency of 21 Y-SNPs loci 7 ethnic groups in Guizhou Zhuang-Dong Language
图2 贵州壮侗语族人群7个民族 21个 Y-SNP 的基因多态性Fig.2 GD value of 21 Y-SNPs loci 7 ethnic groups in Guizhou Zhuang-Dong Language
民族例数C-RPS4Y711C2-M217D-M145F-M89K-M9NO1-M214O-M175O1a-M119O1b-P31水族640.000 00.000 00.000 00.000 00.000 00.000 00.000 00.390 6 0.000 0布依族580.000 00.000 00.103 4 0.000 00.000 00.000 00.017 2 0.051 7 0.017 2 侗族650.000 00.046 20.000 00.000 00.030 8 0.030 8 0.000 00.184 60.000 0仡佬族670.000 00.044 8 0.194 00.014 90.000 00.014 90.000 00.209 00.000 0壮族660.045 5 0.015 2 0.000 00.000 00.000 00.015 2 0.000 00.227 30.000 0毛南族600.016 70.000 00.066 70.000 00.000 00.016 70.000 00.033 3 0.016 7 仫佬族650.000 00.015 4 0.000 00.000 00.000 00.000 00.000 00.184 60.000 0民族例数O1b1a1a-M95O1b2-SRY465O2-M122O2a-M324O2a2-P201水族640.500 00.000 00.015 60.000 00.000 0布依族580.172 40.000 00.034 5 0.017 20.000 0侗族650.092 30.000 00.276 90.046 20.000 0仡佬族670.223 90.014 90.000 00.029 90.000 0壮族660.363 6 0.000 00.000 00.030 30.015 2 毛南族600.816 70.000 00.016 70.016 7 0.000 0仫佬族650.569 2 0.000 00.000 00.076 90.030 8 民族例数O2a2a1a1a-M159O2a2a1a2-M7O2a2b1-M134O2a2b1a1a-M133Other水族640.000 00.093 80.000 00.000 00.000 0布依族580.000 00.206 90.017 2 0.362 1 0.000 0侗族650.000 00.107 7 0.015 4 0.169 2 0.000 0仡佬族670.014 90.134 3 0.074 6 0.029 9 0.000 0壮族660.000 00.000 00.000 00.000 00.287 9 毛南族600.000 00.000 00.000 00.000 00.000 0仫佬族650.000 00.076 90.000 00.046 20.000 0
1)表中数字(≤1)代表单倍群在该民族中所占比例,绿色:0.000 0~0.010 0(不含);蓝色:0.010 0~0.180 0(不含);蓝色加粗:0.180 0~0.300 0(不含); 红色:0.300 0~0.600 0(不含);红色加粗:≥0.600 0
表 4 贵州省壮侗语族的 7 个世居少数民族和其他 9 个少数民族 Y 染色体单倍群频率1)Table 4 Y-SNP haplotype frequency of Y chromosomeof Guizhou seven ethnic groups and 9 ethnic minority population
1)表中数字(≤1)代表单倍群在该民族中所占比例,绿色:0.000 0~0.010 0(不含);蓝色:0.010 0~0.180 0(不含);蓝色加粗:0.180 0~0.300 0(不含); 红色:0.300 0~0.600 0(不含);红色加粗:≥0.600 0
表 5 贵州省壮侗语族和其他语族 Y 染色体单倍群频率1)Table 5 Y-SNP haplotype frequency of Y chromosome of Guizhou Zhuang-Dong Language and other language population
1)表中数字(≤1)代表单倍群在该民族中所占比例,绿色:0.000 0~0.010 0(不含);蓝色:0.010 0~0.180 0(不含);蓝色加粗:0.180 0~0.300 0(不含); 红色:0.300 0~0.600 0(不含);红色加粗:≥0.600 0
图3 贵州 7个世居少数民族和9个少数民族人群Y 染色体主成分分析三维图Fig.3 The principal component analysis of Y chromosomeof Guizhou seven ethnic groups and 9 ethnic minority population
图4 壮侗语族和其他语族人群Y染色体主成分分析三维图Fig.4 The principal component analysis of Y chromosome of Guizhou Zhuang-Dong Language and other language population
Y-SNP 多态性分布具有明显的民族特异性[16],各个民族之间具有其独特的遗传结构[17-18]。本研究对贵州省壮侗语族7个世居少数民族445例无关男性个体进行基因分型,并对结果进行相关统计分析。首先对表 2 进行单倍群相关性分析,O1b1a1-M95与O2-M122的皮尔逊相关性R=-0.526 0,呈负相关,但显著性(双尾)P=0.225 0,说明负相关未达到显著水平;O1a-M119 与 O1b-P31为显著负相关(R=-0.804 0,P=0.029 0)。通过热图绘制对不同单倍群在 7个民族分布情况进行直观观测(见表3),单倍群 D、F、O1b2、O2a 的频率在各个语族的分布频率均很低;O2-M122在各语族之间无显著差异;O1a 在壮侗语族中分布频率较高;O1b1、O2a2 在壮侗语族和苗瑶语族中分布频率均较高。水族人群中,主要单倍群为 O1b1(0.500 0)和 O1a(0.390 6);O2a2(0.586 2)和 O1b1(0.172 4)在布依族人群中具有代表性;O1a(0.184 6)、O2(0.276 9)、O2a2(0.292 3)在侗族人群中具有代表性;仡佬族的主要单倍群有 D(0.194 0)、O1a(0.209 0)、O1b1(0.223 9)、O2a2(0.253 7);壮族除了主要单倍群O1a(0.227 3)、O1b1(0.363 6)之外,存在完全野生型 SNP 的频率达0.287 9,可能提示部分壮族人群携带的是最古老的遗传标记,也可能是本研究选择的Y-SNP位点有限,未包含突变的基因座;毛南族的单倍群O1b1高达0.816 7;仫佬族的主要单倍群有O1a(0.184 6)、O1b1(0.596 1)、O2a2(0.153 9)。通过以上数据分析很明显可以看出,除了毛南族,本研究的其他 6 个民族均具有复杂的父系遗传结构,提示毛南族的父系遗传结构比较单一,与毛南族土著说[19]相符。单倍群O*是东亚现今人群中分布最广泛的特异单倍群,综合频率约占 50%以上[20]。在本研究中,水族、布依族、侗族、仡佬族、壮族、毛南族、仫佬族单倍群O*的分布频率分别为1.000 0、0.896 4、0.892 3、0.731 4、0.636 4、0.900 1、0.984 6,平均频率高达86.30%,与上述文献相符。O1 单倍群占大多数壮侗语族的 60.00% 以上[6],经直接计数法计算这7个民族水族(0.890 6)、布依族(0.241 3)、侗族(0.276 9)、仡佬族(0.447 8)、壮族(0.590 9)、毛南族(0.866 7)、仫佬族(0.753 8)中约一半的人群在O1单倍群所占比重与之相符。O1b1a1a-M95 是高度分化的支系,在七个壮侗语民族群体中是最常见的单倍群,在东南亚频率较高,其次是中国南部[6],本研究中,在水族(0.500 0)、毛南族(0.816 7)、仫佬族(0.569 2)呈高频分布(均大于50%),提示水族、毛南族、仫佬族遗传背景较为单一,与土著说的观点相符,尤其是毛南族高达81.67%,提示毛南族经历了非常强烈的瓶颈效应。O2a2a1a2-M7 与苗瑶语族、孟-高棉语族的人群分布有关[21],贵州省壮侗语族长期与苗瑶语族混居,故O2a2a1a2-M7 在壮侗语族也占有一定比例,但是壮族与毛南族人群的分布频率却为 0,壮族有就近嫁娶,民族内婚的习俗[22],但是毛南族婚姻比较复杂[23],为何O2a2a1a2-M7 为0,还不得而知。壮侗语族在我国历史上起源于百越族群,前期有学者研究发现 O1a-M119是百越群体的特征性单倍群[24],我们的研究展示了这个结果——壮侗语族7个民族群体均含有单倍群O1a-M119的频率分布与上述观点吻合,进一步印证了壮侗语族与百越族群的关系:在民族学中,壮侗语族族群来源于百越民族。
壮侗语族7个民族的单倍群频率与已有文献报道的9个少数民族人群的单倍群频率(见表4)运用SPSS 24软件进行主成分分析。结果如图3所示,归属汉藏语系的壮侗语族(水族、布依族、侗族、仡佬族、壮族、毛南族、仫佬族)与苗瑶语族(苗族、瑶族、畲族)聚在一起;提示壮侗语族与苗瑶语族之间的遗传关系较近,这与梁祚仁[25]在广西10个少数民族 Y 染色体17个STR基因座的遗传多态性研究中根据14个民族人群之间的遗传距离绘制的N-J系统进化树中壮侗语族民族群体与苗瑶语族民族群体聚为一类的研究结果相一致,也与何燕等[26]的研究结果吻合。
为了验证贵州省壮侗语族和其他语族之间的关系,将贵州省壮侗语族7个民族的数据通过直接计数法获得贵州省壮侗语族的单倍群频率,通过文献报道的民族单倍群频率计算语族的单倍群频率(见表5),然后进行主成分分析,得到图4,结果显示汉藏语系(壮侗语族、苗瑶语族、汉语族)聚在一起,归属阿尔泰语系的突厥语族、蒙古语族聚在一起后再与满通古斯语族相聚,而归属汉藏语系的藏缅语族位于上述两聚群之间,这与各语族民族的地理分布、历史源流等相对应。其中归属汉藏语系的壮侗语族与苗瑶语族发生了部分重叠,进一步提示了两语族民族由于长期毗邻而居,可能发生了基因交融,显示出较近的亲缘关系。