猪的全基因组测序研究进展

2019-01-12 16:18马海明
中国畜牧杂志 2019年5期
关键词:猪种表型基因组

肖 瑜,马海明

(湖南农业大学动物科学技术学院,湖南长沙 410128)

众所周知,猪是世界上第一批被驯化的动物,早期至少存在2 个驯化中心[1-2]。经过长期的自然选择和强烈的人工选择,猪形成了较为丰富的遗传多样性。猪作为重要的经济动物之一,为人类生活需求提供大量的肉产品;同时,它作为一种模式动物,普遍用于各种人类疾病研究中[3-4]。

全基因组测序技术的出现极大地推动了生物学发展,为更深入地进行生命科学研究和理解提供了一个广阔的平台。20 世纪70 年代,Sanger 法的提出为生物学研究开辟了一条新的研究路径,标志着基因组学研究的开始[5]。随着基因组学的快速发展,Sanger 法在基因组研究中数据量的测定和分析受到限制,这推动了第2 代测序技术(454 技术、Solexa 技术、SoLiD 技术)和第3 代测序技术的发展,对动物基因组学尤其是重测序的发展起到了重要作用[6]。

猪参考基因组的组装成功为全面探索猪品种的遗传变异与表型多样性之间的关系提供了较为详细的参考信息。目前,多数猪品种已完成全基因组序列测定,并以此为基础,利用重测序技术对猪的遗传进化、品种遗传多样性及表型形成遗传机制等重要遗传学问题进行了解析[7]。本文将介绍猪全基因组测序的研究内容,讨论猪全基因组测序研究工作中存在的问题,旨在为家猪种质资源的改良和遗传育种以及一些数量较少的特色猪品种的保种提供一定参考。

1 全基因组测序在猪基因组学研究中的应用

1.1 全基因组de novo 测序在猪中的应用 全基因组de novo 测序是指不存在参考序列或不以该物种已获得基因组信息为参考的情况下,对某物种进行全基因组测序,利用生物信息学手段进行拼接和组装,获得该物种的全基因组序列。一个物种全基因组测序的完成标志着可以从基因组水平对该物种的生长发育和进化起源等问题进行研究,从而推动对基础生物学、分子育种、遗传基因改良等方面的研究[8]。

全基因组de novo 测序在猪分子遗传育种中的应用为在全基因组水平研究猪的生物学特性提供有利平台,并为完成猪的全基因组参考序列的构建提供了方法和条件。2012 年国际猪基因组测序联盟[3]、华大基因与中国农业科学院[9]相继公布了猪的全基因组序列。前者采用1 头雌性杜洛克个体作为样本,通过构建BAC 和fosmid DNA 文库,应用全基因组鸟枪法进行测序,结合与之相对应的拼接和组装软件,获得杜洛克猪[3]Contig N50、Scaffold N50 分别为80 720、637 332 bp,最终组装后的基因组全长为2.60 Gb,内含编码基因21 640 个。后者以中国本地品种猪五指山猪为测序样本,获得的Contig N50 为23.5 kb[9],Scaffold 的组装质量显著高于杜洛克猪,组装后二者的基因组全长一致,注释得到基因和编码序列各20 326 个和11 843 个。结合杜洛克猪的参考基因组,国际猪基因组测序联盟与来自欧洲和亚洲的野生及家猪的基因组进行比较[3],揭示了100 万年前的欧洲和亚洲野猪间的深度系统发育分化;进一步选择性扫描分析发现,除了快速进化外的、与免疫反应和嗅觉相关的基因表达,还鉴定了许多假定的致病变种,不仅扩展了猪作为生物医学模型的潜力,也为进一步改进重要家畜品种资源奠定研究基础。此外,遗传分化使得不同个体、不同群体以及种属间存在基因组序列长度差异,即单一个体或单一品种基因组作为参考基因组序列对后续群体选择进化研究具有局限性,因此,需进行多个体、多品种全基因组测序取其特有和共有的序列,获得物种完整的基因组遗传信息,提高未来基因组学研究结果的准确性和参考基因组的可靠性。Li 等[10]选取中欧10 个代表性猪种,采用全基因组de novo 测序方法对基因组序列进行测序,分析确定了欧洲猪和亚洲猪的分化时间,解释了欧亚猪遗传差异形成的原因,又结合藏猪的测序结果,与中国家猪群体比较,发现进化选择的基因多参与缺氧、嗅觉、能量代谢以及药物反应等调控过程,并揭示了驯化过程中影响家猪唾液分泌加强的遗传机制。如今,全基因组de novo 测序在生命科学研究领域应用的频率越来越高,为后续基因组学研究奠定了基础,促使从各角度解析动物生长发育、繁殖、进化等遗传规律,对珍稀动物的保护和优异种质资源动物品种的利用具有重要意义。

1.2 全基因组重测序在猪中的应用 基因组重测序是以已知其物种参考基因组,对不同个体或物种内品种进行全基因组测序,结合现有的参考基因组对个体或群体进行生物信息学分析,通过差异性比对获得许多的单核苷酸多态性位点(SNP)、插入和缺失位点(InDel)及结构变异位点(SV)等,进一步预测动植物物种的重要经济性状候选基因,同时利用群体SNPs 可探索不同物种的遗传多样性、进化关系、群体结构和起源与驯化历史等生物学方面的问题,为从分子水平进行育种提供重要的数据基础,进一步缩短了分子育种工作的周期[11-12]。自2013 年以来,已经对数百头猪的基因组进行了重新测序,以研究猪的基因组变异、进化和选择[13],目前大约有350 个完整的基因组可公开获取。

1.2.1 揭示遗传进化机制 猪全基因组参考序列图谱的构建完成促进了猪全基因组重测序研究的飞速发展,在猪的基因组遗传研究方面获得了大量成果。在世界范围内一些猪品种中应用全基因组重测序技术,挖掘出数量庞大的SNP 位点及结构变异和拷贝数变异位点,对猪的遗传选择进化机制进行了深入研究。大量研究表明,中国家猪对欧洲猪种产生过巨大影响,二者之间存在广泛的基因交流,并对世界当代商业猪种育种做出重要贡献,加速了重要性状的进化。Ai 等[14]对来自中国的69头猪(不同地理分布)的基因组进行重测序分析,结合欧洲和亚洲猪种(包括中国猪种)个体基因组测序信息,比较得到4 000 多万个基因组SNPs,基于群体遗传分析显示中欧猪种间基因组具有相似性,进一步证明了中国和欧洲猪种间存在基因渐渗。同时,Fu 等[15]和Molnar 等[16]在恩施黑猪和匈牙利曼加利察猪的重测序分析结果中也证实了这一点,且发现渗入基因AHR 具有典型的亚洲种质特性,这与Boss 等[17]和Frantz 等[18]发现的猪种渗入基因与猪的繁殖性能显著相关的结果一致,除此之外这些渗入基因还与代谢性疾病(包括高血脂症、高血压和动脉粥样硬化)有关。此外,龙科任[19]研究发现,相较于杜洛克猪、皮特兰猪、大白猪、汉普夏猪及长白猪,巴克夏猪和中国家猪的基因组具有较高的相似性,这可能是300 年前英国巴克夏郡本地晚熟品种与中国的华南猪杂交形成的,进一步说明了中国家猪对欧洲猪种存在种源贡献。因此,早期的中国家猪和欧洲猪种间的品种杂交可能是中欧猪种间存在的遗传物质交流的重要原因。

由于世界猪品种丰富,地理位置分布广泛,猪的适应性和生长发育受环境因素影响存在一定差异,不同品种间样本重测序从基因组层面解释了受环境影响适应性的遗传机制,比较基因组分析进一步揭示了品种间的进化时间和方向,证明了不同地理位置猪种间的遗传差异。Choi 等[20]对代表韩国本土猪、野猪和3 个欧洲血统品种的5 个品种猪进行全基因组重测序分析,检测到了20 123 573 个SNPs,对检测到的SNPs 进行猪品种的基因组特征进行分析,揭示了品种间遗传分化的明显信号。Li 等[21]利用具代表性的藏猪群体和中国不同地理分布的猪种的重测序信息,比较发现藏猪基因组中存在低氧适应性基因和能量代谢等高原环境下的快速进化基因,基因组间差异表明600 万年前家猪和藏猪就开始分化。同时,有研究发现,欧洲和亚洲的野猪种群分歧大约1 May,导致了在数百万个基因组位置和超过一百万个固定用于替代等位基因的位置上存在显著差异的次等位基因频率[3,22]。Wang 等[23]分析了全球范围内的家猪和野猪的全基因组,确定了从4500—7000 年开始的野猪和家猪有效群体规模的明显趋势,研究结果与欧洲和中国的初级驯化结论一致,说明在驯化期间猪的驯化没有明显瓶颈,这可能是家猪和野猪之间长期的基因交流造成的。此外,对中国家猪和野猪进行全基因组重测序,鉴定了一系列与猪的生长发育和环境适应性相关的受选择基因,以及处于强选择下与重要性状相关的基因,这些发现促进了人们对中国家猪进化历史的理解,并且对深入了解鉴定重要功能基因的突变、对猪的表型多样性的研究提供了重要参考[24-25]。

1.2.2 解析品种遗传多样性形成机制 由于地理隔离、气候变化、动物迁徙、人为的驯化选择,不同猪种间基因组发生遗传变异反应,不同品种间呈现出不同的表型性状及生物学特性,增加了品种的遗传多样性。Wang等[25]利用全基因组SNP 数据对6 个品种(眉山、二花脸、米猪、枫泾、沙乌头猪和嘉兴黑猪)进行遗传多样性研究,发现太湖地区的中国本土猪表现出高比例的多态性标记;同时中国本土猪都存在持续高水平的遗传变异,这可能是因为与西方相比,中国猪野生祖先选择强度较低、遗传多样性较高。这些结果与之前研究者的报道一致[26-28]。Herrero-Medrano 等[29]通过对欧洲商业品种猪进行重测序,指出在一些遗传多样性较低的地方品种(曼加利察猪、锡耶纳琴塔猪、意大利品种Casertana)中,其基因组测序显示纯合子区域的比例超过50%,且含有大量潜在的破坏性突变,进一步研究发现AZGP1 和TAS2R40 基因潜在的差异选择,这可能成为适应环境差异性的候选突变,同时还观察到在高产品种中与免疫应答相关基因IL12RB2 和STAB1 的缺失,这可能是在猪生产过程中强烈的人为因素造成的。

大量研究表明,遗传变异是物种遗传多样性形成的重要原因。Zhao 等[30]利用高通量测序对来自中国和欧洲的不同起源品种的13 头猪进行了全基因组SV 检测,发现X 染色体上存在1 个跨越35 Mb 区域的SV热点,该热点区域存在35 个对生殖能力具有重要意义的SV 相关基因。同时,Moon 等[31]通过对大白猪、大约克猪和亚洲野猪共40 头猪的重测序数据进行分析,确定了由于人工选择使得在猪的驯化过程中发生强烈的遗传变异的相关基因(GRM7、GRM8、GHRL、ZNF638、PPARG),说明中国和欧洲猪起源品种之间的进化速度存在显著差异,并为评估分子进化与系统发育信号提供了新的证据,也为更好地揭示中国和欧洲猪品种相应表型和特征的遗传差异提供了可能。此外,Zhao 等[30]研究还发现了涉及卵巢早衰和发育相关基因,如POF1B、DIAPH 159、RPS4 以及与智力相关的ANF711、ATRX、SRPX2、MAGT1 等4 种基因,这在人类生物学研究中已经有了广泛的报道[32-34]。Xiao 等[35]结合江苏省5 个中国本土猪群体的测序信息进行遗传变异和遗传结构分析显示,中国本土猪与国外商品猪存在巨大差异,表明了中国本土猪的独特性,该研究提供了5 个中国本土猪群的遗传变异和种群结构的第1 个基因组概况。这些研究有助于在未来对这些猪在基因组水平上的遗传多样性、种群结构、阳性选择信号和分子进化史进行深入研究,并作为改善这些猪繁殖和培养的重要参考。

1.2.3 揭示表型形成遗传机制 自公元一万年以来,持续的人类选择导致了家猪强烈的遗传和表型变化。目前已经发现,基因关键区域的插入或缺失确实改变了基因结构和表达,并且部分突变一定程度上对猪的表型存在显著影响。Rubin 等[36]通过全基因组重测序鉴定了欧洲家猪表型进化的一些基因座,发现3 个具有强烈选择特征的基因座与其背部伸长以及椎骨数增加有关,进一步进行基因组结构变异分析,证实了欧洲猪毛色由KI 位点多拷贝和第17 内含子剪切位点突变调控,这与Raspa[37]的研究结果一致。在亚洲地区,地理位置不同导致多数野猪种群间存在显著差异,通过对中国南北方地区及西藏、日本的野猪和家养品种群体间的扫描性分析表明,毛发生长(DCAF17)和血液循环(VPS13A)一直处于不同的选择,有助于在环境温度变化过程中维持恒温状态,也进一步解释了西藏野猪适应高海拔的原因[14,21,37]。Wang 等[38]利用257 个个体的全基因组重测序数据分析了全球范围内的家养猪和野猪,经群体选择模式调查和比较,确定了与代谢性疾病有关以及分别参与神经系统发育、肌肉发育及能量代谢和生长相关的31 个基因,其中Dact2 基因对牙齿的生长状况和被毛形态具有重要的调控作用[39-40]。

猪的毛色变化对品种的选育和保护具有重要意义。猪在进化过程中不同的品种进化形成独特的毛色表型,通常可用视觉特征来区分品种[41]。Lü 等[42]对中国的31 个滇南小耳猪的全基因组进行重测序,发现其6 个白点毛色可能受多基因位点调控,而与MCR1基因无关,研究表明滇南小耳猪约20% 的总颜色变异是由关联性较强的、具有不同表型贡献的3 个基因(EDNRB、CNTLN 和PINK1)决定,且发现了一种与位于EDNRB 基因上游的保守非编码序列中的6 个白点和黑色滇南小耳猪之间高度区分的突变,这一研究结果再一次加深了对滇南小耳猪进化过程中毛色变化的理解。Wang 等[43]研究发现,MITF 和EDNRB 基因是通城猪两端黑色毛色表型形成的重要原因,也是造成多数中国家猪品种毛色变异的重要原因。Fu 等[15]进一步解释了驯化过程影响中国黑猪遗传变异的机理,即中国黑色品种猪是由于体型、免疫力、脂类代谢和发育过程等一些选择目标形成。总之,这些研究表明,以上已被发现的基因及候选区域在猪驯化过程中形成表型时发挥了重要作用。

2 猪全基因组测序研究面临的问题和展望

近十几年来,下一代高通量测序技术发展迅速,技术不断更新,在测序通量和读长都得到明显改善的情况下,极大程度地降低了检测成本。虽然高通量测序存在明显优势,但其局限性也不容忽视。目前,重测序技术通过短片段与参考基因组比对获得变异数据,在测序深度和覆盖度较大的条件下,可以获得高准确度的变异数据,如SNP、短序列的插入缺失以及拷贝数变异,但对于大段序列的基因组结构变异的检出有一定难度。因此,以单分子测序为特点的第3 代测序技术开始发展起来,其超长读长和高通量、无DNA 模板扩增的优势使其具有非常高的测序准确率,同时由于其测序成本低,故在全基因组测序和重测序方面得到很好应用。从Sanger法到第2 代测序技术以及第3 代测序技术的全基因组测序技术的不断革新,为广泛而深入地开展猪全基因组研究提供了有利平台,促进了动物基因组学的发展。

动物遗传学研究的最终目标是探索动物遗传变异的原理,从而应用于品种改良和优异的种质资源保护来保持品种多样性。目前,中国猪饲养量占世界的50%,品种资源丰富且全国范围内分布较广,不同品种间、不同地理位置的猪种在基因组上差异显著。目前,全基因组测序在猪上已广泛应用并取得了大量的研究成果,从最早获得的杜洛克猪和五指山猪的全基因组序列为开端,通过de novo 测序,陆陆续续已有很多品种的全基因组序列被破译,这对全面探究猪的物种起源和群体进化起到重要作用。如今全基因组重测序在猪基因组学研究中大量开展,从群体水平研究猪的驯化起源、进化机制、遗传多样性和环境适应性等,在不同群体中发现大量的SNPs、InDel、SV 和CNVs 等遗传变异,并完成了遗传图谱的构建,但对很多猪品种核心种质的全基因组重测序还未开展。世界上分布于不同地理区域的许多地方猪品种存在着大量重要的遗传多样性,核心种质全基因组重测序的开展对猪遗传资源和特殊种质资源的利用和保护具有重要的科学意义。同时,猪的重要性状遗传基础是猪遗传育种工作的核心科学问题,基因组测序与全基因组关联分析(Genome—Wide Association Study,GWAS)相结合,可以鉴定一些与猪的重要性状相关的基因和位点,因此,将全基因组测序技术和GWAS 结合可获得更为精确的基因定位信息,并加速人们对复杂性状形成机理的解读。

猜你喜欢
猪种表型基因组
可视化中国地方猪种地理分布图
“植物界大熊猫”完整基因组图谱首次发布
《中国地方猪种资源场种质资源图谱》手册2022 征集
承德所选实生核桃资源果实表型性状评价初报
牛参考基因组中发现被忽视基因
河南精旺猪种改良有限公司
国外猪种大量引进导致本土猪种濒临灭绝的原因分析及应对建议(以玉山黑猪为例)
体型表型与亚临床动脉粥样硬化有关
科学家找到母爱改变基因组的证据
慢性阻塞性肺疾病急性加重期临床表型及特征分析