黄永震, 徐天扬,李丽娟,郑 立,王俊永,陈 宏,雷初朝*
(1.西北农林科技大学动物科技学院, 陕西杨凌, 712100;2.贵州工程应用技术学院毕节试验区研究院, 贵州毕节, 55170;3.河南牧业经济学院动物科技学院, 河南郑州, 45004)
随着分子生物学研究的深入,DNA测序技术取得了长足的进步,人们的对于遗传变异的研究逐渐向分子水平发展,拷贝数变异便是其中的一种。拷贝数变异(copy number variation)是由基因组发生重排而导致的异常,异常片段从50bp 到1mb不等,主要表现为基因组的缺失,插入,重组以及多位点的复杂变异等。拷贝数在种内和种间的分布是通过基因的变异,突变,自然选择,种群数量的演变历史来构建的。在一些对于家养动物,如牛,羊,猪,鸡,狗等的研究中发现,拷贝数变异与一些性状的表达息息相关。拷贝数变异相对于单核苷酸多态性(SNP)来说,其变异的位点更少,序列更长,更容易检测以及研究,因此在动物的遗传育种中,有着广阔的前景。然而,不同于单核苷酸多态性和微卫星,拷贝数变异的群体遗传还存在着诸多的未解之谜。
拷贝数变异的检测方法可以粗略的分为两种,一种是芯片技术,另一种是测序技术。其中芯片技术主要有微阵列比较基因杂交芯片(array-based comparative genomic hybridization)和单核苷酸多态性芯片(SNP Array)。aCGH是在全基因组范围内扫描拷贝数变异区的高分辨率分子核型技术。SNP Array 是利用芯片探针的平均信号强度和最小等位基因频率,并结合统计模型进行拷贝数的推断。然而利用SNP芯片推断拷贝数变异的准确性并不比aCGH芯片高,而且不同算法检测的结果差异较大。
随着测序技术的不断发展,直接通过重测序检测基因组结构变异成为了目前最为有效的检测方法。二代测序便是近年来在拷贝数变异检测中最为常用的方法。二代测序技术(Next-generation sequencing)又称高通量测序技术(High-throughput sequencing), 或深度测序(deep sequencing)。作为新一代的测序技术,二代测序技术为更精确的评估拷贝数变异提供了强大的技术支持。相较于aCGH芯片和SNP芯片,二代测序技术可用于确定拷贝数变异的边界并且能有效地检测小片段的拷贝数变异,同时,它在基因组断点的检测上也有很大的优势。可以预见的是,测序技术仍然有非常大的进步空间,随着测序精度的不断增加以及测序成本的不断降低,科学家们可以以相对更低的成本对基因组进行更深入的研究。
当前主要通过一些以分子杂交和PCR为基础的技术对基因组已知拷贝数变异进行验证。这些技术包括荧光原位杂交(FISH)、高通量基因拷贝数检测技术(CNVPLEX)、微滴数字PCR(ddPCR)和实时定量PCR(qPCR)。荧光原位杂交技术(FISH)是通过非放射性的方法,通过荧光检测体系对所要研究的DNA分子进行定性以及定量的分析。高通量基因拷贝数检测技术(CNVPLEX)是在多重连接探针扩增技术(MLPA)的基础上改进的一个新技术,它的优势在于探针分布广,结果更精准,操作更简便,快捷,且通量高。[1]微滴数字PCR(droplet digital PCR,ddPCR)是一种基于泊松分布原理的核酸分子绝对定量技术, 在核酸分子的绝对计数和定量领域具有极大的应用潜力。[2]实时定量PCR(Quantitative Real Time PCR, qPCR)是一种在DNA扩增反应过程中,以荧光化学物质检测每次聚合酶链式反应(PCR)循环后产物总量的方法,它可以在一天内对成百上千的拷贝数变异进行检测。由于其种种优势,qPCR是当前实验室中普遍采用的验证方法。
近些年来,随着人们对于拷贝数变异研究的不断深入,其在牛羊等家畜的基因组中所产生的影响逐渐被科学家们所重视。一些研究表明,拷贝数变异可以作为一种分子遗传标记应用于家畜的某些重要性状的研究,从而为家畜的育种和疾病预防提供帮助。
2010年Bea等[3]利用 牛SNP50 芯片对265头奶牛进行了分析,检测到了855个拷贝数变异。在考虑到一些重叠的区域后,他们确定了368个独特的拷贝数变异区,涉及538个基因,并最终绘制出了牛CNVs图谱。
2012年,Jiang等[4]通过牛SNP50芯片检测了2047头荷斯坦奶牛的基因组序列。最终检测到了牛基因组上的99个拷贝数变异区,总长为23.24Mb,其中51个CNV在138头牛的基因组中完全或者部分重叠,它们对于一些生物学功能如信号通路的传导,感觉知觉的反应和细胞进程有着重要的影响。Bickhart等[5]通过aCGH,qPCR和FISH等方法对5头黄牛和1头瘤牛进行了全基因组检测,他们一共检测了1265个拷贝数变异区,发现一些与病菌和抗病菌相关的基因在Nelore牛中大量的复制,与脂肪运输和新陈代谢相关的基因在肉牛中大量的复制。在这些CNVR中还发现了一些可能与繁殖、适应性和生产性状相关联的基因如BPAFA2A和WC1等。
2013年,Choi等[6]在对黑安格斯牛,韩牛,荷斯坦牛的研究中发现与CNVS相关的某些影响刺激应答,细胞分化和免疫系统进程的基因发生了重叠。2014年,他们[7]运用illumina Hiseq 2000测序平台对三种韩国本地牛,即韩牛,Heugu牛,和韩国荷斯坦牛进行了全基因组分析,检测出1040万个SNPs位点 ,其中54.12%是首次发现。他们还检测了1 063 267个基因组间的插入与缺失。在韩牛,济州岛Heugu牛,韩国荷斯坦牛和先前检测的chikso牛中分别得到了53,65,82和45个可能的纯合区。
PLA2G2D是先天的免疫基因,并且会对促性腺激素释放激素和MARK信号起作用。有研究证实PLA2G2D基因的拷贝数变异与荷斯坦牛的总优劣指数相关[8]。2014年,Zhang等[9]在24头中国黄牛中检测到486个拷贝数变异区(占基因组2.45%);在2头牦牛中检测到161个拷贝数变异区,在3头水牛基因组中检测到163个拷贝数变异区。通过qPCR,发现 CNVR22对于PLA2G2D基因的表达有着显著的负调控作用,并且CNVR22和CNVR310与中国地方黄牛的身体尺寸显著相关,这一结果表明拷贝数变异对基因表达具有一定的调控作用。
Shin等[10]运用二代测序技术对10头荷斯坦奶牛和22头韩牛进行了分析。32头牛的测序深度为13~20乘。通过检测所分析个体中的6811个缺失的CNVs(平均长度为2 732 bp,占了牛基因组的0.74%),发现了10个和神经传递有关的基因(NCAM2, PIK3C2G, EFNA5, RASGRF2, UNC13C, GUCY1A2, ACCN1, GRM7, DCDC2和PCDH15),其中有5个基因在之前的研究中被发现与神经信号传递有关,有6个基因与神经元运动有关。另外,他们还发现了8个与神经形成有关的基因(NCAM2, EFNA5, MDGA2, KLHL1, SLIT3, PRKG1, PCDH15和FAT3)。
2014年,Xu 等[11]通过牛SNP50芯片对26362头荷斯坦牛的产奶性状进行了拷贝数变异分析,结果表明,在22条常染色体上发现了34个拷贝数变异,且这些变异至少与一个影响产奶量的基因密切相关。随后,他们又进一步的调查了CNV与邻近的SNP的关系,发现17个CNVs与tag SNPs重叠,40个CNVs与tag SNP临近,从而得出了由CNV和SNP共同影响的与产奶量相关的基因比单独由SNP或CNV所影响的基因变异频率高这一结论。他们还利用SNP芯片检测了8种牛的拷贝数变异,通过对种内与种间地理特征的差异分析[12],揭示了种群结构与地理位置的强相关性。通过对欧洲黄牛,非洲黄牛和瘤牛这三个品种进行两两比较,他们得到了78个高度区分的独特拷贝数变异区,其中有一些变异是由自然选择造成的。同时,他们检测到了10个存在拷贝数变异区重叠的基因(CDH18, GDAP1l1, HIATL1, IGLL1, ITGB8, KCNIP3, LCT, NETO1和SHISA9)。前期的研究表明,这些基因与抗寄生虫,免疫应答,体型,受精和产奶等生产性能相关。
2015 Gurgul等[13]通过牛SNP50芯片对859头荷斯坦牛和301头波兰红牛(Polish Red)的CNV进行了检测。在荷斯坦牛中,共发现了648个拷贝数变异,长度为168.6Mb,这些拷贝数变异可以产生91个不重复的变异区。在波兰红牛中,共检测到62个CNV,长度为22.3Mb,占牛常染色体基因组0.89%,在这些变异区中,共涉及1192个基因。Ben等[14]通过牛SNP芯片研究了与荷斯坦奶牛的拷贝数变异区相关的7个重要的经济性状:乳脂肪,乳蛋白,体细胞数,空怀期天数,体型,蹄角度和乳房深度。一些拷贝数变异区被证实存在于荷斯坦奶牛的种群中,通过对其中的部分拷贝数变异区进行独立验证,发现一些相对有利的等位基因的频率在增加。Mekki Boussaha等[15]对牛基因的结构变异做了大规模的调查,共检测到547个缺失和410个串联重复片段,这些区域都有可能产生拷贝数变异。通过一种新型的高通量基因分型技术,他们检测到了331个结构变异,其中255个(77%)产生了有利的基因型,191个(75%)被证实。
2016年,Zhou等[14]比较了1 682头内洛尔牛(Nellore)中的拷贝数变异。该研究比较了拷贝数区段在不同性别、种群中出现的频率,发现了9个由于基因组组装错误引起的长度为0.8Mbp拷贝数区段。在内洛尔牛的基因组中检测到了大量存在于chr5基因上长度为54kb的缺失。在这些CNVs相关基因中,大多数与嗅觉和嗅觉受体活性,ATP结合盒和主要的组织相容性复合物相关。他们的研究表明,由于错误判断和血缘差异等因素的影响,可能存在拷贝数变异区的误判,这对于提高未来对瘤牛和黄牛拷贝数研究的精确性有着很大的帮助。他们还利用牛基因组的70000个SNP探针去检测2230头洛内尔牛(Nellore)的基因组中共有的拷贝数变异区[15],并且将检测的拷贝数变异区间于9个生长性状进行GWAS分析,发现在17个拷贝数变异区中,有3个对于所有的生长性状都非常重要,其中,KCNJ12基因对牛的肌肉发育起重要作用。
Bickhart等[16]对54头黄牛和21头瘤牛的的基因组进行了测序,共发现1 853个CNVR变异区,共87.5Mb,占牛基因组总长度的3.1%,其中121个CNV基因区既存在品种的特异性也存在种间的微小差异,例如奶牛品种中的RICTOR基因(与老年性骨质疏松疾病有关)和肉牛品种中的PNPLA3基因(与肝硬化疾病有关)。相反的是PRP(prolactin-related protein)和PAG(pregnancy-associated glycoprotein)在所有被测序的黄牛和瘤牛中都发生了复制,以上结果证明了拷贝数变异的亚功能化,新功能化和超显性等在一些与生殖相关的基因中起到了多元化的功能和作用。
2017年,Yang等[17]通过对6个种群的牛的拷贝数检测,研究了CYP4A11基因对于增长和基因表达的生物学效应的影响。经过关联分析,发现CYP4A11 CNV对于增长性状具有正向的影响,并且CYP4A11基因在体外的的过表达对于脂质沉积有影响。此外,Sun[18]等通过全基因组重测序技术对8头荷斯坦奶牛进行了研究,其中有4头来自全同胞家系,另外4头来自半同胞家系。家系中乳蛋白和乳脂肪的估计育种值都极高或者极低,测序深度为8.2到11.9乘。他们共检测到了14,821个CNVs,包括5025个重复和9796个缺失。在拷贝数变异区中,他们共发现了235个功能基因。这些基因大多数与蛋白质,脂质的代谢,胰岛素的合成,催乳素信号通路,胰岛素信号通路和AMPK信号通路有关。2017年,keel等[19]对154头纯种的公牛的拷贝数变异进行了研究,这些公牛来源于美国最常见的7个肉牛品种:海福特牛,夏洛莱牛,安格斯牛,红安格斯牛,西门塔尔牛,盖普威牛和利木赞牛。他们测定了1 341个拷贝数变异区,占牛基因组的6.7%,共包含2 465个编码蛋白的基因。Letaief等[20]利用全基因组测序对8个法国肉牛和奶牛品种的200头牛进行了研究,发现了4 178个可能的变异,其中,有1100个缺失和重复包含了1 803个对于分子功能有显著影响的基因。GBP2基因具有调控细胞增殖的作用。2018年,Zhang等[21]对于牛基因组中的GBP2基因的拷贝数变异做了进一步的研究,他们发现GBP2基因的拷贝数变异与生长性状关系显著。
2013年,Liu等[22]通过绵羊SNP50芯片分析了三个不同品种绵羊的基因组,检测到了238个拷贝数变异区(长度为60.35 Mb),其中有219个缺失,13个插入,6个既有缺失又有插入。有75个拷贝数变异区出现的频率大于3%。通过功能性研究发现,在拷贝数变异区内的基因大多数都与环境应答有关。2016年,Jenkins等[23]首次利用三种方法(SNP,aCGH,全基因组测序)对绵羊基因组的拷贝数变异进行了综合性的检测,他们检测到了3488个拷贝数变异区,约占绵羊基因组常染色体的2.7%。
中国绵羊根据尾巴的形态可分为三种类型,肥尾羊,肥臀羊和瘦尾羊。2016年,Zhu等[24]通过绵羊的高密度600kSNP微阵列检测了三种中国本地羊(肥尾寒羊,阿尔泰羊和藏羊)的全基因组拷贝数变异,检测到了490个拷贝数变异区,其中10个拷贝数变异区被随机的选择出来,8个被证明有效。7个与脂肪沉积相关的基因(PPRAR, RXRA, KLF11, ADD1, PDGFA, FASN, PPP1CA和PEX6)在肥尾寒羊的拷贝数变异区中被发现。5个与脂肪沉积有关的基因(PEX6,RXRA,FASN,PPP1CA和PDGFA)在阿尔泰羊的拷贝数变异区中被发现。在藏羊中,RXRA基因被发现与脂肪沉积有关,ALKBH5和NARFL基因被发现与适应高海拔地区的环境相关。被检测的拷贝数变异区中有3160个基因,通过多水平生物信息学分析,发现它们可能参与了脂肪的沉积,GTP酶的调节以及多肽受体的合成。这是第一张对于这三种类型的中国本地羊的高分辨率CNV图谱,为研究隐藏在羊基因组结构变化中的经济效益提供了有价值的信息。
2017年,Yang等[25]人以分散在中国各地的绵羊作为主体,通过SNP微阵列检测到了619个CNVR,约占绵羊基因组的6.9%。通过进一步的研究,他们在一些重叠的拷贝数变异区发现了一些影响胎儿肌肉生长,前列腺素形成以及骨色的基因。Ma等[26]利用SNP微阵列对48头中国滩羊进行了研究,测定出1 296个拷贝数变异区,占绵羊基因组的4.7%。这些拷贝数变异区中包含了大量与脂肪代谢和GTP酶活性相关的基因。
2010年,为了研究NR3C2基因的拷贝对于具体的适应恶劣干燥的环境的性状的影响,Fontanesi等[27]检测了161个拷贝数变异,其中多数来自萨能奶山羊,少数来自三个当地的山羊品种。该研究发现了127个拷贝数变异区,其中包括86个缺失和41个插入,大小从24kb到1.07Mb不等,且这些变异区也存在于牛基因组中。这表明,有一些常染色体区有可能包含着在不同物种间重复出现的拷贝数变异区。同时他们发现山羊的拷贝数变异区可以导致特殊的环境适应性功能,这对于理解变异和选择进程有着重要的作用。2011年,他们[28]通过aCGH芯片研究了意大利山羊的拷贝数变异。检测了到127个拷贝数变异区,大小为11.47 Mb。通过对羊和牛基因组拷贝数变异区的比较分析,发现有些染色体区域包含一些种间特异的拷贝数变异区,同时在山羊中过表达的一些与环境适应相关的基因在其他的哺乳动物中也被发现。
Dong等[29]通过对比野山羊(Capra aegagrus)和家山羊的基因组,在家养山羊中检测到13个与皮毛颜色有关的发生了拷贝数变异的基因,其中AISP基因的拷贝数重复是导致了家养山羊的被毛颜色变浅的主要原因。盐皮质激素受体可以参与水盐平衡的调节,这对于血压和钾稳态有着重要的作用。研究发现NR3C2基因可以编码盐皮质激素受体。在人类中,这个基因的突变会导致常染色体显性假性甲状旁腺功能衰退症。该基因还与早期的高血压有关,但其过表达可以减少前脑的焦虑行为。
南非的波尔山羊有白色斑点的表形,其色素仅仅聚集头上。2016年,为了探究波尔山羊种内的毛色表型的变异,Fiona等[30]通过全基因组关联分析,在17号常染色体上找到了导致白色斑点表形的位点,并通过全基因组测序检测出长度为1Mb的拷贝数变异区域,该区域含有内皮素1受体(Endothelin A receptor, EDNRA)等5个基因。通过对358头波尔山羊的序列进行分析,发现EDNRA基因的c.385位置发生了一个A 到 G的错义突变,而且,这个突变所在的区域伴随着1~3个拷贝数重复的变化。这项研究证明山羊的白色斑点与该区域的SNP和CNV重复次数有着一定的关系(棕色是野生型,没有发生CNV和SNP的变化)。他们提出了一个假设:EDNRA的一个突变引起的异位超表达,清除了EDN3对 EDNRB信号和正常的黑素细胞的发展的需要,引起波尔山羊由于身体的皮肤缺乏素黑素细胞,导致白色波尔山羊表型的出现。
随着现代分子生物学技术的不断发展,分子育种近年来成为了研究者们研究的热点。要寻找全基因组范围内的遗传变异,分子遗传标记便显得格外的重要。近些年来,SNP已成为了最被人们所重视的分子遗传标记。科学家们对于家畜基因组的SNP位点进行了大量的研究,并发现了许多的位点,这些位点中有一些已经被用于家畜育种的研究中。但是,SNP其本身的局限性限制了其作为分子遗传标记的进一步发展。由于SNP是单一位点的变异,对于基因表达调控的影响并不是十分的显著,科学家们所检测到的数量众多的SNPs中,也只有很少的一些属于关键的基因变异,这便成为了 SNP作为分子遗传标记的瓶颈。
在这期间,主要表现为基因组大片段的缺失,插入,重组以及多位点的复杂变异的拷贝数变异逐渐走入了研究者们的视野。因其相对于SNP变异片段长度更长 (50bp 到数Mb不等),对于基因的调控和表达所造成的影响更为显著,故可以作为新一代的分子遗传标记应用于家养动物的育种工作中。许多科学家的研究都表明了拷贝数变异可以引起家养动物性状的改变以及疾病的调控,对拷贝数变异的研究可以为深入研究基因变异与表型性状的关系打下基础,并揭示数量性状如产奶量,乳脂肪,乳蛋白等与基因和分子机制的关系。利用与重要经济性状相关的功能基因的拷贝数变异,通过构建统计模型,把拷贝数变异整合到基因组的选择中,可估计遗传进展,同时可以得到基因组结构变异所隐藏的经济性状的改变,从而为畜禽的育种提供有用的基因标记资源。虽然目前对于拷贝数变异的检测与研究仍处于起步阶段,但随着测序技术的不断进步,以及拷贝数自身所具有的优势,CNV可以作为一种新的分子遗传标记应用于家畜的重要经济性状,动物的遗传育种以及疾病致病机理的研究。我们有理由相信,在未来拷贝数变异可以被更广泛的应用于畜禽遗传育种工作中。