彭佩雅,陈钰焓,杨 龙,王 铭,赵芮葶,何 俊,印遇龙,2*,刘 梅*
(1.湖南农业大学动物科学技术学院,长沙 410128;2.中国科学院亚热带农业生态研究所,长沙 410125)
牛、羊、猪可以为市场带来大量的肉、奶以及皮毛等重要产品,是社会发展中重要的经济动物。近年来,家畜重要性状如肉质、生长、繁殖、抗病能力等备受研究者关注。基因组遗传变异,是引起个体性状差异的重要遗传基础。基因组变异按大小可分为单核苷酸多态性(single nucleotide polymorphism,SNP。即单碱基变化)、插入缺失(insertion and deletion,Indel 。即大小在2~50 bp之间的小结构变异)和结构变异(structural variation ,SV。即大于50 bp的大结构变异)。CNV指大小从50 bp至5 Mb的DNA片段发生拷贝数目变化的结构变异,包括缺失、插入、重复、重排、倒位等[1]。其中最为常见的形式是单个DNA片段的重复增加,比如SD序列(segmental duplication,SD)[2]。相比于SNP等其他变异,CNV具有涉及碱基更多、覆盖范围更广以及检测更容易的特点,虽然CNV发生的频率较低,但是累积发生的片段长度明显超过了其他序列变异[3]。因此,CNV对家畜重要经济性状可能造成很大影响,其在动物分子育种应用中具有广阔前景。随着分子生物学和基因组学研究技术的发展,CNV的检测方法也不断革新。本文系统综述了在牛、羊、猪和马等家畜中基于全基因组CNV的主要检测方法发掘的功能CNV及相关分析进展,以期为家畜CNV研究提供参考。
对于基因组中未知序列的CNV,比较基因组杂交技术(comparative genome hybridization,CGH)、SNP芯片技术和基于新一代基因测序技术(next generation sequencing,NGS)的全基因组重测序(whole genome sequencing,WGS)被认为是目前全基因组范围内寻找CNV的主要有效手段[4-5]。其中,WGS技术包括基于二代测序(next generation sequencing,NGS)和三代测序(third generation sequencing,TGS)技术。
CGH技术是将在一张芯片上的试验样本与对照样本分别标记上不同的荧光素,然后再进行杂交,根据特定分析软件中各位点的荧光信号强度和比值等,确定是否存在CNV及其在基因组中的位置等信息[6]。随着技术的发展,CGH芯片技术(comparative genome hybridization,CGH)被开发并且用于CNV的检测。CGH芯片技术具有灵敏度高、分辨率准确以及探针全基因组覆盖的优点,其探针密度与试验结果的准确性显著相关。
SNP芯片技术用于拷贝数鉴定和基因型分型,具有快速、方便的特点,检测时只需对待测样本进行酶切和荧光标记,然后与SNP芯片杂交,根据所得图像中荧光信号的强弱,比较待测样本与其他个体的相对强度,以此来确定每个位点的相对拷贝数[7]。但是,SNP芯片也存在一定的局限性。例如,SNP芯片的探针在基因组上经常出现分布不均匀的情况[8];并且在重复序列区域(如SD序列较多的拷贝数多态性区域)难以进行探针设计[7];此外,SNP芯片检测平台对较小的CNVs检出率较低。
基于二代测序技术的WGS技术检测CNV时是将待测样本的DNA序列随机打断并加上接头,经过PCR扩增后,将这些reads与参考基因组的序列进行对比分析,然后通过隐马尔科夫模型(hidden markov model,HMM)以映射结果来判断CNV[9]。与其他的检测方法相比,NGS测序技术具有高通量、高分辨率、高重复性和速度快等显著优点,还能获得更多且更为精细的变异结构[10]。但是二代测序读长太短,基因组组装高度片段化,导致CNV检测结果的准确性受到限制。在进行NGS测序时需要提高对样品的测序深度要求,并且在结果分析前需对测序结果进行适当校正[11]。
基于第三代测序技术的WGS技术主要包括了单分子荧光测序(single molecule real time sequencing,SMRT)和纳米孔测序[12]。PacBio SMRT技术以SMRT芯片为核心,可以实现边合成边测序。纳米孔测序的基本原理是每个接头序列(adaptor)通过纳米孔时都会产生一个阻断电流,根据产生的阻断电流的变化识别各种碱基[13]。第三代测序技术可以减少PCR过程中碱基替换以及交叉污染等其他干扰因素,有效地减少测序结果的假阳性[14]。另外,长读长的特点还有助于提高SV检测效率[15]。近年来,新兴的第三代测序技术发展迅速,凭借长读长优势,三代测序在基因组从头测序和重测序方向具有广阔的发展前景,尤其是对二代测序难以发现的SV和较复杂的CNV,可利用三代测序进行鉴定。由此可见,第三代测序技术在CNV研究方面具有广泛的应用前景。
为综合分析CNV检测技术的应用现状,以“copy number variation;livestock”作为关键词,根据 web of science 2005年至2022年发表文章数量进行统计分析(图1)。CGH技术自2011年以后整体就呈现下降趋势,近年来已少有相关研究应用。而SNP芯片技术与WGS技术成为近年来用于检测家畜全基因组CNV的主要手段。但是,2014年以后,SNP技术的应用频率在逐年下降,推测应与第二代测序技术逐渐推广应用有关。第二代测序技术具有高通量、高准确度的优点,弥补了SNP技术难以检测较小CNV的不足。22年开始第二代测序技术使用频率有所下降,第三代测序技术逐渐兴起,其快速、读长更长、检测更准确的特点使得其被广泛应用于复杂CNV以及SV的检测。
图1 家畜基因组拷贝数变异检测技术使用热度分析Fig.1 Analysis of the detection technology for genome copy number variation in livestock
基因组 CNV 可通过改变基因剂量、调控基因表达和暴露隐性等位基因等几种方式影响生物表型。家畜的生长发育受到多基因、多通路以及环境等多方面的综合调控,CNV 可通过改变剂量敏感基因拷贝数影响该基因的表达量及相关表型。为此,研究者在家畜中开展了对于CNV的大量鉴定及其对表型性状影响的研究。下面将分别在牛、羊、猪和马4种家畜上综述基于CGH芯片、SNP芯片和NGS测序技术检测CNV并分析其功能的研究进展。
对牛基因组CNV的部分研究汇总如表1所示。
表1 基于CGH、SNP和NGS技术对牛基因组CNV的检测及分析Table 1 Detection and analysis of bovine genome CNV based on CGH, SNP and NGS techniques
基于aCGH芯片技术:2010年,Liu等[16]首次使用了aCGH技术对5个品种的牛进行全基因组水平分析,结果表明存在着200多个特异性的拷贝数变异区域(copy number variation regions,CNVRs),其中约有67%的CNVRs完全或部分跨越了牛基因组,61%的CNVRs直接与片段重叠,并且与牛的免疫、繁殖、哺乳等性状显著相关。Zhang等[17]利用aCGH技术对3个品种的牛进行基因组CNV的检测,据此构建了黄牛基因组CNV草图。陈宏课题组[17-18]利用CGH芯片技术对荷斯坦奶牛、黄牛、水牛和牦牛进行了基因组CNV的检测,发现相关功能基因,如PLA2G2D(phospholipase a2 group IID)、CYP4A11(cytochrome p450 family 4 subfamily a member 11)、CTR9 (CTR9 homolog, paf1/RNA polymerase II complex component) 等在牛的表型性状中发挥着重要的作用。
基于SNP芯片:在牛上,Illumina BovineSNP50芯片和BovineHD SNP芯片的开发对大群体进行CNV检测具有重要的意义。利用Illumina BovineSNP 50 K BeadChip,Bae等[19]对17个品种的248头牛进行全基因组CNV检测,由此绘制出牛CNVs图谱。Kumar等[20]在塔尔帕克牛中发现了447个CNVR,约占牛基因组的2.17%,许多与QTL(quantitative trait locus,QTL)重叠的CNVRs与奶牛乳腺炎和乳成分、蛋白质含量等产奶性状相关。利用BovineHD SNP芯片,Zhou等[21]在荷斯坦奶牛中将CNV与生产性状进行全基因组关联分析(genome-wide association studies,GWAS)分析,结果显示CNVs与采食量、乳品质、母牛繁殖力等生产性状显著相关;另外检测到与饲料转化效率和采食量相关的CNV与嗅觉受体基因OR2A2(olfactory receptor family 2 subfamily a member 2)重叠。Ahmad等[22]对96头Vrindavani牛进行CNV检测,结果发现存在71个CNVRs,其中有5个CNVRs与10个重要的生产与繁殖性状显著相关,包括峰值产奶量、泌乳天数、产犊间隔期等,并且与影响产奶量和乳成分以及繁殖和免疫功能性状的重要QTLs和WASHC4(WASH complex subunit 4)、HS6ST3(heparan sulfate 6-o-sulfotransferase 3)、MBNL2(muscleblind like splicing regulator 2)等基因重叠。
基于NGS技术:Gao等[23]在荷斯坦牛中检测到14 821个CNV,487个CNVR,CNVR区域内的的功能基因与牛的脂肪性状显著相关。Xu等[24]和Liu等[25-26]在南阳牛和秦川牛鉴定出2 907个CNV,利用qPCR技术发现LEPR(leptin receptor)、SHH(sonic hedgehog signaling molecule)、MAPK10(mitogen-activated protein kinase 10)基因的CNV在牛的肌肉脂肪沉积中发挥着重要的作用。Liu 等[27]在水牛全基因组中检测到1 344 个CNVR,与CNVRs重叠的1 245个基因与水牛的免疫反应、信号转导以及氧气转运等功能显著相关。Singh等[28]研究了多个瘤牛和普通牛品种的CNVRs模式,发现瘤牛品种在常染色体上共发现2 590个CNVs和335个CNVRs, CNVRs横跨嗅觉受体和免疫系统基因区域。
由于山羊和绵羊的全基因组测序完成较晚,因此关于羊基因组CNV的研究较牛更晚。山羊和绵羊CNV研究进展较为有限,且人们在日常生活中常将绵羊和山羊都统称为羊,所以下面将绵羊与山羊基因组CNV研究进行整合综述如表2所示。
表2 基于CGH、SNP和NGS技术对羊基因组CNV的检测及分析Table 2 Detection and analysis of sheep genome CNV based on CGH, SNP and NGS techniques
基于aCGH技术:2010年,Fontanesi等[29]就利用了aCGH方法对4个欧洲山羊品种进行CNV检测,检测到161个CNVRs;除此之外,在绵羊基因组中发现了186个CNVRs,由此首次构建了绵山羊比较基因组图谱。Jenkins等[30]利用Roche-NimbleGen 2.1 M CGH对36头绵羊进行全基因组测定,确定了3488个CNVRs,总长度为67.6 Mb,相当于绵羊染色体的2.7%。但是由于绵羊的基因组序列不同于牛的基因组序列,所以跨物种杂交构建的图谱具有较大的误差,从而导致检测CNV结果不准确。
基于SNP芯片:随着绵羊和山羊基因组测序的完成,基于羊参考基因组的SNP芯片得以生产和应用。低密度芯片(5K和12K)、50K中密度SNP芯片(OvineSNP50 BeadChip array)和600K高密度SNP芯片(Ovine HD SNP BeadChip)在羊上发挥着重要的作用。Salehian-Dehkordi等[31]用绵羊Infinium HD(600K)SNP基因芯片对67个群体的绵羊进行CNV检测,在1 217个CNVRs中检测到7 547个独特的CNV,覆盖245 Mb,占整个绵羊基因组的10%。利用绵羊50K中密度SNP芯片,Yang等[32]利用50K中密度SNP芯片对全世界范围内的绵羊进行CNV检测,结果表明不同地理位置的绵羊品种之间的CNVRs存在种群差异。Kang等[33]对五个奶山羊品种进行CNV检测,鉴定出42个CNV,并且CNV5和CNV25与奶山羊的产奶性状显著相关。Moradi等[34]利用llumina Ovine SNP 50K BeadChip对45只阿富汗绵羊进行全基因组CNV检测,共鉴定出376个CNVRs,并首次绘制了阿富汗绵羊品种基因组CNV图谱;生物信息学分析表明这些CNVRs与许多与免疫系统发育、生长、繁殖和环境适应等各种途径相关的基因或QTL重叠;与伊朗绵羊中的CNVRs相比,有20个CNVRs为二者共有,且大多与影响生产、繁殖和免疫系统的基因重叠。在山羊ADAPTmap国际合作项目中,Liu等[35]研究了来源于世界不同地理位置的共50个山羊品种1 023头山羊的CNVs,检测出978个CNVRs,约占山羊基因组的8.96%,同时还检测出EDNRA(endothelin receptor type A)、ADAMTS20(ADAM metallopeptidase with thrombospondin type 1 motif 20)、ASIP(agouti signaling protein)、KDM5B(lysine demethylase 5B)、ADAM8(ADAM metallopeptidase domain 8)、DGAT1(diacylglycerol o-acyltransferase 1)等影响毛色、肌肉生长、脂肪生成和泌乳性能的基因也存在CNV。然后,Liu等[36]利用qPCR技术在中国的7个山羊品种中进行DGAT1 CNV验证,发现DGAT1 CNV与山羊的产奶性状显著相关。由于在山羊上基于CNV探寻与表型关联的功能基因还很匮乏,Liu等[37]选择Cameroon、West African Dwarf、Small East African和Landim四个非洲肉用山羊品种,进行了CNV与生长性状的GWAS,发现CNV4和CNV27与胸宽和髋骨宽两个体尺性状显著相关。
基于NGS技术:Nandolo等[38]基于NGS数据在182只非洲山羊中鉴定出6 231个CNVRs,占山羊基因组的59.2 Mb(2.4%),首次绘制出非洲山羊的精细CNV图谱。Zhang等[39]对崂山奶山羊产仔数不同的高低组分别进行CNV检测,发现PRP1和PRP6等与乳腺生长发育和泌乳性能相关的功能基因存在CNV。Yuan等[40]在3个细毛绵羊品种中确定了总长度56.06 Mb的7 228个CNVR,与CNVR相关的基因参与绵羊的生长发育和养分代谢的过程。通过比较家养山羊和野山羊的基因组,Dong等[41]发现了造成家山羊皮毛颜色变浅的主要原因是刺蛋白基因(ASIP)有关的拷贝数重复增加,也有研究证明ASIP基因重复拷贝导致绵羊白色表型[42]。Chebii等[43]在努比亚山羊中发现191个CNV,这些CNV与编码蛋白质的基因重叠,参与山羊的免疫反应、外源性代谢以及能量代谢。Hu等[44]利用24个重测序数据集,对青藏高原3个生态群体的藏羊CNVs进行特征分析,共鉴定出2 777个CNVRs,其中1 098个共享CNVRs在与ABC转运蛋白、嗅觉转导和氧气转运有关的通路中显著富集,188个CNVRs与生长和胴体QTL,免疫球蛋白QTL,产奶量QTL等97个数量性状位点重叠。
在以往的研究中,由于成本和技术的限制,猪CNVs图谱的分辨率还很低。现随着测序技术的不断发展和成本的不断降低,研究者获得更高分辨率的CNVs图谱。表3汇总了目前对猪基因组CNVs的部分研究报道。
表3 基于CGH、SNP和NGS技术对猪基因组CNV的检测及分析Table 3 Detection and analysis of pig genome CNV based on CGH, SNP and NGS techniques
基于aCGH技术:2008年,Fadista等[45]首次利用定制的385K aCGH芯片在杜洛克猪上进行CNV检测,一共鉴定出37个CNVRs。Wang等[46]利用定制的1 M aCGH芯片对9个猪种共12头进行CNV检测,鉴定出758个CNVRs,覆盖了猪基因组序列的47.43 Mb。马海明团队的刘晓琴等[47]以产肉量性状差异显著的大白猪和湖南地方品种沙子岭猪为研究对象,采用比较基因组杂交技术筛选猪CNVs,鉴定出与CNVs紧密连锁的Wnt蛋白。
基于SNP芯片:邱恒清等[48]利用件1.4 M高密度SNP芯片对319头巴马香猪进行CNV检测,采用PennCNV和R-Gada两种软件分析,结果显示PennCNV检测到6 327个CNVs,R-Gada软件检测到3 489个CNVs,结果表明,随着SNP芯片密度的增加,CNV的检测结果越加准确。黄路生课题组[49]利用SNP60 BeadChip和PennCNV对1693头猪检测发现565个CNVRs,相当于猪基因组的5.84%,还筛选出ANP32B(acidic nuclear phosphoprotein 32 family member B)、GDF3(growth differentiation factor 3)、GYS1(glycogen synthase 1)等基因上存在CNV,可作为胴体长度、背脂厚度、肩胛骨长度等性状的候选基因。Wang等[50]使用80K SNP BeadChip检测857头大白猪的全基因组CNV,一共检测到312个CNVs,覆盖了57.76 Mb的猪基因组。Xu等[51]基于Porcine 80K SNP BeadChip数据安徽地方猪(AHIP)和西方商品猪(WECP)进行了全基因组CNVs分析比较,基因功能富集分析发现在AHIP群体中与免疫(FOXJ1(forkhead box J1)、FOXK2(forkhead box K2)、MBL2(mannose binding lectin 2)、TNFRSF4(TNF receptor superfamily member 4)、SIRT1(sirtuin 1)、NCF1(neutrophil cytosolic factor 1)和肉质(DGAT1(diacylglycerol o-acyltransferase 1)、NT5E(5′-Nucleotidase ecto))相关的基因与CNVRs重叠;而这些基因在WECP群体中为缺失型。
基于NGS技术:Jiang等[52]利用NGS对10个猪种进行全基因组分析,构建了当时分辨率最高的猪CNV和SD图谱。此外,Zheng等[53]对梅山猪和杜洛克猪进行NGS测序,鉴定出梅山猪中的6 387个CNVRs与编码芳香烃受体(aryl hydrocarbon receptor,AHR)基因的繁殖相关基因存在重叠。Ran等[54]发现MTHFSD(methenyltetrahydrofolate synthetase domain containing)基因CNVs影响湘猪的产子数性状。Qiu等[55]对美国和加拿大的杜洛克猪进行全基因组分析,发现有10个CNVRs与美国杜洛克猪的平均日增重等性状有关,而9个CNVRs与加拿大杜洛克猪的平均日增重和背臀部厚度有关。另外,Ding等[56]对杜洛克猪进行全基因组重测序分析,发现23 856个CNVRs,相关性分析结果表明9个CNVRs与杜洛克猪腰肌面积、腰肌深度和瘦肉率相关,鉴定了DOK7(docking protein 7)、ARAP1(ArfGAP with RhoGAP domain, ankyrin repeat and PH domain 1)、ELMO2(engulfment and cell motility 2)和SLC13A3(solute carrier family 13 member 3)相关的候选功能基因。Wei等[57]在大白猪与民猪2代群体中共鉴定出1 185个CNV区域(CNVRs),将CNVs与IMF进行GWAS分析发现,19个CNVRs与IMF显著相关,CNVR可能通过调节PELP1基因的选择性剪接来影响IMF的含量,并最终影响PELP1蛋白的结构。Fan等[58]对安庆六白猪与亚洲野猪进行CNV检测,共鉴定出10 429个CNVRs,在96个CNVRs区域中鉴定出65个与生长、繁殖、代谢等性状相关的功能基因,如CD36(CD36 molecule)、CIT(citron rho-interacting serine/threonine kinase)、RLN(relaxin)、CYP3A29(cytochrome P450 family 3 subfamily a member 29)、ELOVL6(ELOVL fatty acid elongase 6)等,QTL重叠区域与肉质性状、生长和免疫相关,这与CNV分析一致。Zhang等[59]对皖南黑猪与亚洲野猪CNVs进行比较,对所选的288个CNVs中基因进行功能富集分析,鉴定出NDN(necdin, MAGE family member)、TMOD4(tropomodulin 4)、GJA1(gap junction protein alpha 1)、MAP3K5(mitogen-activated protein kinase kinase kinase 5)等基因,与肌肉生长、繁殖、剩余采食量、耳朵大小等性状相关。Long等[60]在杜洛克猪、长白猪和约克夏猪中发现罕见的CNV可能与猪脐疝疾病有着重要的联系。
由于国内现代马业起步晚,近年来人们才逐渐重视起国内马业的现代化进程,国内马CNVs相关研究还亟待探索。
基于CGH技术:王伟[61]在6匹不同品种的马(蒙古马,阿巴嘎马,河曲马,哈萨克马,德保矮马和纯血马)的常染色体中共鉴别了700个CNVs,大小从6.1 kb到0.57 Mb。基于SNP芯片技术,2022年Wang 等[62]在晋江马等10个中国本土马种共301个个体中鉴别了577个CNVs。
基于WGS技术:2021年Durward-Akhurst等[63]对534匹马进行了变异检测,并针对10个目标品种确定了单品种特有的变体。Al Abri等[64]针对来自6个不同品种的共6匹马(美国迷你马、佩尔什马、阿拉伯马、曼加拉加马查多尔马、蒙古马和田纳西走马)鉴定并功能注释了17 514 723个SNPs,1 923 693个Indels,以及平均每匹马1 540个CNVs和3 321个SVs 。Gu 等[65]首次在染色体水平上从头组装出10个全球代表马种的三维基因组,并对马基因组上的大片段SVs进行了全面解析,通过拓扑相关结构域(topologically associating domains,TAD)研究了SVs对染色质空间结构的潜在影响,还发现品种特异性SVs显著富集了品种特异性TADs。Tang等[66]对来自全世界的16个马品种共97匹马进行了全基因组重测序,各品种鉴定到5 023~44 681个CNVRs,CNVRs长度范围为1.9~8 kb,并鉴定到品种间特异性的CNVRs覆盖的基因(CTSL(cathepsin L)、RAB11FIP3(RAB11 family interacting protein 3) 和CTIF(cap binding complex dependent translation initiation factor))。
以“Pacbio;SMRT; ONT;cattle; sheep; goat;pig”等作为关键词,根据 web of science 2011年至 2022年发表文章数量进行统计分析,如图2所示,第三代测序技术主要应用在基因组结构变异鉴定、基因组组装和甲基化检测这3个方面上;受限于成本以及准确率,第三代测序技术在家畜全基因组测序方面尚未广泛应用,目前在牛和猪上的应用较多,在羊上相对较少。以下对目前第三代测序用于牛、羊、猪等家畜全基因组组装和结构变异的检测现状进行综述。
图2 第三代测序技术在家畜中研究应用领域及热度分析Fig.2 Research applications and popularity analysis of third generation Sequencing technology in livestock
在牛上,Gao等[67]对野牦牛和家牦牛进行了染色体水平全基因组组装,并通过牦牛和黄牛的长度数据筛选了SV,在携带高Fst SV的启动子区域基因富集筛选出对缺氧反应起重要作用的调控基因(ARNT(aryl hydrocarbon receptor nuclear translocator)、GATA1(GATA binding protein 1)、EPOR(erythropoietin receptor)、MAFG(MAF BZIP transcription factor G)、KLF5(KLF transcription factor 5))。罗西尔[68]利用第三代测序技术对水牛进行denovo基因组组装,并结合二代 Illumina测序数据、Hi-C数据等进行数据的纠错与聚类,最后得到染色体水平的水牛参考基因组,沼泽型水牛和河流型水牛的N50分别为117 Mb和116 Mb。Liu课题组的Gao等[69]使用10x Genomics、PacBio continuous long read(CLR)和Circular consensus sequencing (CCS)以及ONT PromethION技术对牛进行了测序。结果表明,在SV检测方面,长读取覆盖了大多基因组,检测出更多SV,且鉴定出的SV显示出高度均匀性,明显优于短读测序。2020年,Lamb等[70]首次在肉牛中进行第三代测序,重点检测两种已知的与无角症有关的SVs,在澳大利亚婆罗门牛中证明了一个有关的SV。Low等[71]对安格斯牛和婆罗门牛单个杂交个体进行第三代测序,发现存在于婆罗门牛中的特异性SV在磷脂易位(GO:0045332)、脂质易位(GO:0034204)、脂质转运(GO:0006869)和脂质定位(GO:0010876)中具有3至5.7倍的富集,这表明脂质分布受SV的影响最大。Leonard等[72]对三个不同杂合度的牛进行测序分析,检测到9万个SVs,并且位于13号染色体上ASIP(agouti signaling protein)基因的SV与牛的色素沉淀显著相关。Zhou等[73]利用牛全基因组图谱数据进行分析,发现83 Mb的牛参考基因组中未发现的序列,在各个亚种和品种中发现数百个缺失变异,其中APPL2 SV与牛的品种地理分布有关。
在猪上,2012年,Du等[74]对杜洛克猪的长读长数据与短读数据利用不同的程序进行性能比较评估,构建出杜洛克猪基因组草图。同年,通过三代测序技术,五指山猪全基因组组装也完成。之后,研究者们进一步对陆川猪、梅山猪、宁乡猪、五指山猪、藏猪、民猪、巴马香猪等中国地方猪种也通过三代测序等技术陆陆续续完成了基因组组装(表4)。这些研究为全面解析全基因组遗传信息及种质资源的开发利用提供了参考依据。
表4 中国地方猪种三代测序技术研究进展Table 4 Research progress of 3rd-generation sequencing technology for Chinese local pig breeds
Ma等[80]利用三代测序技术、Hi-C和Bionano等新技术,首次绘制了高精度宁乡猪基因组图谱,揭示了宁乡猪基因组内丰富的遗传变异,并整合多组学数据鉴定了多个与外国瘦肉型猪杜洛克猪差异较大的基因组SV,并且这些SVs与376个基因关联,利用qPCR验证发现MYL4基因的SV可能是影响宁乡猪皮下脂肪沉积的关键候选基因,同时KEGG富集分析显示差异SVs相关基因与免疫系统、神经系统和脂质代谢等相关。Jiang等[81]整合11个长读长测序数据,构建了猪全基因组图谱,发现了183 352个非冗余SVs(63%为新发现SV),占参考基因组的12.12%。在梅山猪中,研究者检测出TEX11 SV与IL18RAP SV,推测其可能通过调控靶基因成为梅山猪高繁殖性能和抗病的重要候选变异。在藏猪中,研究者发现了7 568个特有SVs,这些SV显著富集在与脂肪和血液代谢相关的性状,如肌酐水平、接触球蛋白浓度、肌酸激酶水平和高密度脂蛋白胆固醇等。其中,SOD1(superoxide dismutase 1)、SEMA5A(semaphorin 5A)、REV1(REV1 DNA directed polymerase)、SGCD(sarcoglycan delta)、ADAMTS12(ADAM metallopeptidase with thrombospondin type 1 motif 12)、ATP6V0A1(ATPase H+ transporting v0 subunit a1)、EPHA2(EPH receptor A2)、HIPK2(homeodomain interacting protein kinase 2)等基因区域的SV在藏猪和低海拔猪之间表现出显著的群体差异,提示这些SV可能是影响藏猪对高海拔的适应性的关键功能变异。
在羊上,Bickhart等[82]对多品种山羊进行SMRT测序,结合SNP基因型数据以及Hi-C数据等,提出了一个近完整的家山羊(C.hircus)参考基因组,解决了超过1 kb的重复结构。2021年,姜雨团队的Li等[83-85]成功组装出湖羊参考基因组;接着构建了绵羊泛基因组,鉴定出HOXB13 SV导致绵羊的长尾性状。Li等[86]对萨能奶山羊进行第三代测序,一共确定了总长度11.7 Mb的16 714个SVs,并且,其中6 190个SVs与编码区和非编码区的功能基因有关。Kent等[87]对挪威Spael羊进行三代测序,发现可能在绵羊黄色脂肪产生过程发挥着重要作用的功能SV。
CNV在牛、羊和猪上已取得较好的研究进展,随着越来越多的CNV被研究者发现,极大的丰富了DNA变异的多样性,并发掘了大量可影响表型的候选功能CNV。但是,也存在着相对的问题,例如:①大多集中在CNV的鉴定及与表型的关联分析方面,对CNV如何影响到表型的功能机制的研究还有所欠缺。②CNV的检测与分析方法还有待完善,由于技术和分析方法等方面的限制,导致之前许多鉴定的CNV结果不准确且难以重复和验证。基于三代测序技术,并改进和利用相关分析方法,将有望解决CNV检测准确性等问题,但目前三代测序技术的成本仍较高,使其难以广泛应用。③CNV在动物育种的应用还十分有限,当前全基因组选择育种主要是依靠SNP芯片技术来实现。
CNV相比于传统的分子遗传标记具有更鲜明的特点,在未来家畜育种中具有作为重要分子标记的潜力。随着测序技术的发展、分析方法的改善、以及高密度SNP芯片的开发,可将CNV与SNP进行联合利用,以此来提高育种过程中的可靠性和选种效率。并且,我们相信,伴随着检测CNV技术的发展,也将推动基于CNV的全基因组选择在家畜育种上的应用,加速家畜的育种进程。