全基因组测序在重要家畜上的研究进展

2018-04-01 00:29李晓凯王贵乔贤范一星张磊马宇浩聂瑞雪王瑞军何利兵苏蕊
生物技术通报 2018年6期
关键词:山羊基因组遗传

李晓凯 王贵 乔贤 范一星 张磊 马宇浩 聂瑞雪 王瑞军,何利兵 苏蕊,2,3,

(1. 内蒙古农业大学动物科学学院,呼和浩特 010018;2. 农业部肉羊遗传育种重点实验室,呼和浩特 010018;3. 内蒙古自治区山羊遗传育种工程技术研究中心,呼和浩特 010018;4. 河套学院农学系 内蒙古巴彦淖尔市临河区大学路,巴彦淖尔 015000;5. 内蒙古金莱牧业科技有限责任公司,呼和浩特 010018)

经过长期的自然选择和人工定向选择之后,驯化的家畜在表型特征、重要经济性状和环境适应性等方面逐渐形成了明显的遗传差异,极大地丰富了现有的生物遗传资源多样性[1-2]。随着测序技术的发展、测序成本的降低以及组装方法的不断完善,越来越多物种的精细基因组序列图谱得到公布,使得全基因组测序成为进行不同物种个体或群体重要性状相关遗传基础研究的重要方法。全基因组重测序,是对已知基因组序列的不同个体或群体进行全基因组重测序和序列比对分析研究,一般是建立一个测序文库进行单个个体或不同个体混合池测序[3]。此外,为获得更为全面的遗传变异信息,对不同品种中具有代表性的个体也进行大量的从头组装测序(de novo),并在不同物种中的遗传变异信息挖掘和参考基因组空白序列(Gap)的修补方面起到了越来越大的作用。相对于传统候选基因等研究方法的效率低、周期长、准确性差等而言,全基因组测序可以从全基因组水平全面、精准、高效地对重要性状的候选功能基因进行定位和分析研究[4]。猪、马、牛和羊在人们日常生活中占有重要的角色,为人们提供肉、奶、皮和绒毛等生活用品。通过对这些重要家畜及近缘物种的不同群体的比较基因组学研究有助于揭示其适应性遗传机理和表型性状差异的遗传基础,开发相关的遗传标记,加快分子育种。基于全基因组的遗传信息对物种起源驯化、遗传多样性和群体历史动态的研究也有助于物种的遗传资源保护和今后进化方向的预测。本文主要对近几年全基因组测序在常见家畜(猪、马、牛、羊等及其近缘物种)的取得的重要研究成果进行综述,并讨论全基因组测序的优势、缺点及在生产中意义。此外,对全基因组重测序研究的未来发展进行了归纳和展望,以期为今后动物重要经济性状的功能基因定位和物种起源、驯化等研究提供思路和参考。

1 全基因组测序的优势

目前,随着高通量测序技术快速发展、测序成本的进一步降低以及组装方法的不断完善,全基因组测序研究主要包括3个方面。第一种为不参考任何现有序列从头组装测序,是对未知基因组序列的物种进行基因组测序,并综合利用不同测序技术和生物信息学工具对研究物种进行序列拼接和修正,进而获得该物种的基因组序列图谱。第二种为常见的全基因组重测序,是对已知基因组序列的物种进行个体或群体的测序研究,建立一个测序文库进行单个个体或不同个体混合池测序,发现遗传变异标记,进行后续的研究[3]。第三种是在已有参考基因组序列图谱的基础上,对不同品种的具有代表性个体建立多个文库进行全基因组从头组装测序,此方法能够进一步的进行参考基因组的修补和发现短序列比对难以发现的遗传变异[5]。全基因组重测序因为包含某一物种个体或群体的核DNA的全部遗传信息,与参考基因组比对可以获得非常全面的遗传标记信息,如SNP、Indel和CNV等分子标记。核DNA所包含的父母双亲的遗传信息可以突破线粒体DNA母系遗传和Y染色体父系遗传在物种进化、群体历史动态研究中的限制。在全基因组水平上的高密度的SNP等分子遗传标记也能够较全面的从整体角度对物种受到的自然选择和人工选择导致的遗传变化进行解析。此外,近来商业化育种的实施导致某一功能突变基因的正选择或净化选择作用的遗传基础也能通过全基因组重测序方法进行深入的分析研究。此外,全基因组重测序还可以突破目前基因分型芯片中品种的偏向性和标记不足的问题,获得的新的遗传变异信息也为进一步制作高密度芯片提供研究材料。

自人类基因组计划完成以来,获得高质量的参考基因组序列图谱成为了不同物种进行功能基因研究的基础[6-7]。随之发展起来的Illumina/Solexa、Roche/454和ABI/SOLiD等几种第二代高通量测序平台更是对现代生物学研究的各个领域中起到了积极的推动作用[4,8-9]。目前,测序技术已经由最初的基于双脱氧末端终止法的Sanger测序技术发展到以单分子实时测序(Pacific bio)、离子半导体(Ion torrent)、纳米孔(Oxford nanopore)等为特点的第三代测序技术,实现了从低读长到超高读长、从光学检测到电子传导检测的双重跨越测序技术[10]。而Illumina/Solexa系统的聚合酶合成法因为具有低成本、单次数据量大、时间短,后续数据分析工作成熟等优势,作为第二代中具有代表性的测序技术广泛应用于动植物的基因组、转录组等方面的测序研究[11]。此外,以Pacific Biosciences 公司的 SMRT 技术、Oxford Nanoprop的MinION测序系列和Helicos公司的Heliscope单分子测序仪为代表的第三代单测序技术在序列读长、测序速度、组装效果方面较第二代测序技术有显著的优势,在参考基因组组装中取得了极大的成功,但因较高的测序错误率和测序成本等问题,目前尚未在重测序领域广泛应用[10,12-13]。随着三代测序数据分析算法的、测序准确性的不断提高优化,三代测序技术目前在基因组从头组装和全长转录组分析方面举得了大量的研究成果[14-16]。在全基因组重测序的研究方面,尚未有相关报道,但不久的将来,随着测序费用的降低及准确率的提高,其在重测序一定会具有广阔的发展前景。

2 全基因组测序在常见家畜上的研究

目前,结合不同测序技术和组装方法,已经完成了猪、牛、山羊、绵羊、马等物种的参考基因组的从头组装,尤其是近来结合不同组装技术获得的高质量山羊参考基因组图谱(ARS1)为其他物种高质量参考基因组的获取提供了参考。高质量的参考基因组序列图谱也为进一步在不同物种中获得更为全面的遗传信息提供了基础,而比较不同物种的基因组特点也能够加深对物种间差异和进化的认识。全基因组测序根据研究目的、测序群体大小、物种地理分布情况、测序深度等不同,在家畜的重要经济性状相关的功能基因挖掘、起源驯化机制及遗传资源多样性等方面的研究侧重点也有所不同。因此,对目前家畜基因组组装方法、发展历史和全基因组重测序研究方法的差异的理解也有助于今后快速有效的进行预期目标研究工作的开展。

2.1 猪的全基因组测序研究

2012年,Groenen等[17]采用细菌人工染色体克隆测序和Illumina全基因组鸟枪法测序相结合的方法对一头杜洛克母猪进行测序组装,并获得了高质量的参考基因组。结合48头野猪和家畜的全基因组序列进行系统发育分析发现,欧、亚野猪估计在100万年前开始分化,其中野猪首先出现在东南亚,然后分布到欧亚大陆。群体瓶颈进化和遗传多样性分析,发现亚洲野猪的遗传多样性比欧洲野猪高,可能是两万多年前的“末次冰盛期”事件对欧洲野猪的影响大于亚洲野猪,导致欧洲野猪的有效群体大小和遗传多样性迅速降低。在进一步的选择性清除分析中发现,受选择区域候选基因主要参与RNA剪切和RNA加工过程,可能与品种的快速分化有关。基因组的进化分析中发现与免疫、嗅觉相关基因在驯化过程中发生了基因复制与基因家族扩张事件。Li等[18]利用Illumina测序平台对一头母野藏猪进行了从头组装测序,并对6个藏猪群体(西藏日喀则和林芝、四川阿坝和甘孜、甘肃甘南和云南迪庆)及4个四川盆地特有家猪品种(盆周山地猪、乌金猪、雅南猪和内江猪)进行全基因组重测序。通过比较同源基因构建系统进化树发现,藏猪与家猪的祖先可能分歧于690万年前。与家猪的基因组比较分析发现,藏猪进化出了3 000多个特有的基因,主要涉及心肺血液循环系统的发育、抗病性和高辐射适应等方面,加深了我们对藏猪高原适应性的遗传机制的理解。Ai等[19]通过对中国15个不同地理环境下的具有代表性69头猪进行深度测序分析,在X性染色体上发现了一个可能与寒热环境适应性有关的14 Mb的低重组区域,为猪的适应性机理研究提供了基因组水平的证据。而基因渗入的研究为进行品种杂交提高适应性等奠定了理论基础。

在实际育种生产中,为提高供猪的生产性能,利用杂种优势大量地进行了国际间的猪种杂交和商业化育种工作,这些过程在基因组中留下相应的印记,受到了科学家的广泛关注。Li等[20]对三头巴克夏猪进行全基因组测序,并结合其他已有品种的41个个体的全基因组序列数据进行深入挖掘分析。从基因组水平发现巴克夏猪具有更高比例的中国猪的遗传物质,证实了中国猪对巴克夏品种的形成具有的重要作用,为家畜的育种历史追溯提供了基因组水平上的证据和方法。Ramírez等[21]利用古DNA的基因组测序研究揭示亚洲猪对伊比利亚猪和国际化猪种对地方猪种的基因渗入的现象,为基于基因组序列分析进行不同品种间的基因渗入的研究提供了方法。利用全基因组重测序技术对猪的遗传多样性和重要经济性状遗传机理的研究将促进对猪的遗传资源的保护和利用。

为理解不同品种特有性状的遗传基础,Rubin等[22]利用SOLiD 和Illumina两个不同测序平台产生的全基因组序列数据进行选择性清除分析,发现NR6A1,PLAG1和LCORL等三个基因的功能变异可能与猪背最长肌、脊椎数相关;在结构变异分析中发现在KIT位点的四个复制只表达在白色或白点猪上,可能与结构变异导致表型快速进化和定向选择引起突变的累积效应有关。Choi等[23]采用Illumina测序技术对韩国本地和欧洲5个品种55 头猪进行平均深度为11.7 x的重测序,与参考基因组比对后共发现 20 123 573 个SNPs,其中新发现的SNP占25.5%,极大补充了亚洲猪种的遗传资源多样性的研究;在进一步的遗传变异注释分析中发现35 458个非同义突变发生在在9 904个基因上,为变异导致重要性状差异的研究提供了分子标记。选择性清除发现,CLDN1和TWIST1等两个基因可能与猪的胚胎附着和肥胖等重要经济性状有关。Wang等[24]利用公共数据库猪的全基因组数据,并结合混合池测序和个体测序的方法,在选择性清除分析发现ESR1基因的同义替换(c.669T>C)与猪的窝产仔数相关;PRM1,PRM2,TNP2,GPR149 和 JMJD1C等基因与中国猪的高繁性状相关;MITF、EDNRB等两个基因与通城猪的两头乌性状相关。

为全面研究由于长期遗传分化导致不同群体、种属间的基因组水平上的遗传差异,以及利用从头测序提升参考基因组序列图谱的完整性。Li等[5]通过对10头不同品种的猪进行个体基因组组装,并将组装序列与参考基因组进行比对,挖掘了大量的SNP、InDel、SV和CNV等遗传变异,基因组序列分析揭示了欧亚猪中具有明显的遗传差异,且中国猪种的遗传多样性明显高于欧洲猪种,再次证明了猪起源的东南亚的假说。此外,研究中还检测到了包含了1 737个蛋白编码基因的137.02 Mb的新片段,为完善猪的参考基因组序列图谱提供了大量的数据基础。对品种个体基因组的选择消除分析发现了分散在基因组不同区域的308个基因,发现猪的选育策略差异与社会需求显著相关。

猪作为研究人类疾病的模型,通过对参考基因组的深入分析,发现了112个猪和人类相同的氨基酸。其中发现突变会导致与肥胖(ADRB3、SDC3)、糖尿病(PPP1RA,SLC30A8,ZNF615)、帕金森氏综合症(LRRK2,SNCA)和阿尔茨海默氏症(TUBD1,BLMH,CEP192,PLAU)等有关疾病的功能基因的遗传突变,为猪作为非模式生物研究人类相关疾病研究提供了科学基础[25]。中国科学家基于Illumina短序列独立组装的五指山迷你猪参考基因组解析工作的完成,为构建各种人类疾病模型提供基因组信息[26]。这些工作的完成为今后人体异源器官移植工作提供了基因组水平的基础。

2.2 马的基因组测序研究

2007年国际马基因组计划工作小组完成了一匹名为 “黎明” 的纯血母马血样测序工作,并将马基因组序列草图数据全部存入公共数据库,供世界各地的科学人员免费使用。不久,第二版的马基因组组装草图也宣布完成,其基因组大小约为2.68 Gb,Contig N50 达到 112 kb,Scaffold N50 达到 46 Mb,包含21 375个基因。Wade等[27]对马基因组序列进行深入解析发现11号染色体中可能存在一个马属特有的正在进化的新着丝粒,该着丝点具有功能而且稳定,为着丝粒的功能研究提供了很好的模型。在马疾病相关的研究中,还发现与人类有90多种相似的遗传疾病,确定马身上造成这些疾病的基因根源,将有助于加深对人类相关疾病的理解。

现代马大约在5 500年前的西亚草原地区被人类驯服,随后迅速扩散到欧亚大陆,其中普氏野马(Przewalski′s horse,66个染色体)是现存最古老的野马,但与家马(64个染色体)可以杂交产生可育的后代[28]。对马的起源驯化研究中推测马最初的时候是从一个母马数量相对较大的但公马非常少的马群中被驯化[27]。2013年,通过第二代、三代测序平台结合的方法,丹麦科学家Orlando等[29]对在加拿大育空谷永久冻土挖掘的马骨骼化石碎片中获得DNA进行测序。结合“晚更新世”马的基因组序列草图以及五匹现代驯化马、普氏野马和驴的基因组序列草图进行了对比,揭示了所有现代马、斑马和驴子系统分化时间约于400万-450万年前,且基因组数据表明Przewalski马是目前唯一幸存下来的野生马种群。研究还揭示了马群体大小在过去的两百万年间发生了多次浮动,且估计普氏野马与现代马大约在3.8万-7.2万年前就已开始分化;同时研究也揭示了现代马的基因组变异的原因可能是因为与已经灭绝的野马物种后代进行的杂种交配所致。研究也说明了对古代马基因组的研究有助于更好的研究现代马的起源驯化过程。Huang等[30]分别对雄性蒙古马和普氏野马个体进行全基因组重测序研究,在对蒙古马5号染色体与普氏野马23、24号染色体间的序列相似性分析中,发现了蒙古马和普氏野马间的一次染色体罗伯逊易位事件。并且发现罗伯逊易位并没有导致染色体更多的局部重排,揭示罗伯逊易位和染色体局部重排可能是由不同的机制引起的;研究还发现两种重复序列对基因组的不稳定性有着强烈的影响。另外,该研究还分别拼接组装成了2 Mb和3 Mb大小的Y染色体序列,获得了最完整的马的Y染色体的序列图谱,对种公马繁殖力和对现代马业育种工作都具有重要的科研和实用价值。

Doan等[31]首次利用下一代测序平台Illumina GA II对夸特马进行测序深度达24.7x的重测序研究,遗传变异检测分析中发现2 814 367个新的SNPs和193 271个插入缺失(Indels)和282个拷贝数变异(CNVs),极大的丰富了马的遗传资源多样性研究内容。功能富集分析发现遗传变异主要富集在感官知觉、信号转导、免疫和防御等通路上,其中感官知觉通路上含有的遗传突变最多(SNPs占27%,CNVs占60%),对夸特的表型差异或疾病相关遗传变异的研究提供了重要的遗传资源。Jun等[32]利用Illumina HiSeq 2 000测序平台第一次对测序深度达30x亚洲品种马瓦里马的重测序结果进行分析,发现了5 923 566个SNPs(其中1 577 725新发现的SNPs)、578 055个插入缺失(Indels)和2 579个拷贝数变异(CNVs)。对新发现的SNPs进行注释后发现主要富集在嗅觉功能方面;群体进化与结构分析发现马瓦里马与阿拉伯马之间的遗传关系最近,蒙古马和阿拉伯马对马瓦里马的血统构成比例分别为65.8%和34.2%,为亚洲马匹的研究打开了科学之门。研究还发现TSHZ1基因可能与马瓦里马独特的耳朵尖部向内翻卷的表型性状相关,基因SCL26A2的g.27991841A>G突变与马的隐性软骨发育不全相关。在纯血马的研究中发现,与纯血马赛马耐力(COX4I1,ACN9),马体型大小(HMGA2,LASP1)和运动模式(DMRT3)等相关的基因受到人工选择作用,进一步加深了对马的不同差异性状遗传机理的理解。

为研究矮种马的特殊表型和适应性遗传机理。Metzger等[33]对矮种马的测序研究,结合26个品种的马属动物,发现基因ACAN的外显子7的突变的g.94370258G>C与矮化表型相关。Yakutian是北亚极寒地区的品种,对寒冷环境具有独特的适应机制,利用比较基因组的方法,Librado等[34]发现BARX2、PHIP、PRKG1等受选择作用的基因可能与适应亚北极区寒冷环境机制有关。

鉴于马在娱乐、疾病研究等方面的重要作用,在基因组的水平上更大规模群体和品种的研究以及古DNA的研究有助于更好的理解马的进化、群体遗传结构和选择作用导致的表型差异,对马的定向选育和研究是一件迫切需要的科研工作,也定会一定程度上对揭示人类疾病遗传机理提供重要的参考。

2.3 牛的全基因组测序研究

作为第一个被研究的反刍动物,2003年,由多个国家联合启动了“牛基因组测序计划”。结合BCA克隆与全基因组鸟枪测序方法,到2009年正式公布了第一头牛(海福特牛)的全基因组序列,功能注释发现了牛基因组中包含22 000多个编码蛋白基因,对基因组的深入分析也揭示了反刍动物特有的多个生物学特性,如5个与人类脂肪酸、甲戊二羟酸、解毒、嘧啶代谢途径相关的基因在牛基因组中缺失或者变异[35]。同年,由美国马里兰大学牵头的牛基因组研究团队通过改进组装方法获得2.67 Gb大小的牛基因组,完成了Y染色体序列较为完整的组装在共线性研究中发现了268个与人的同源线性区域,基因组序列测定的完成对加快牛类疾病遗传基础的认识,减少养牛业对抗生素的依赖的遗传研究,并为生产出更好质量的牛肉和牛奶等产品提供了可靠的依据,也为加速遗传改良提供了更精确的分子辅助育种基础[35]。随后,瘤牛(Bos indicus)和牦牛(Bos grunniens)的基因组序列均被组装成功,并揭示了大量种群特异基因,为品种鉴定和物种遗传多样性提供了基因组水平的依据[36-37]。

为研究牛的进化历史。Bovine等[38]通过对19个不同品种的497头牛的重测序数据与参考基因组之间的比对分析产生的34 470 SNP,推测牛可能因驯化瓶颈、选择作用及育种等原因导致牛的有效群体大小迅速降低,但非洲的达摩牛没有受到强烈的驯化瓶颈。日本科研人员Kawahara-Miki等[39]对地方品种口子岛牛进行深度达15.8 x的深度测序,共获得550个新发现的SNP和约65万个Indels。检测分析发现了分布在4 643个基因中的 11 713个非同义突变,其中大约有100个基因与蛋白结合、活性催化及代谢通路等有关,为亚洲牛重要经济性状表型变异的关联分析及分子水平上的遗传改良提供了可能。此外,研究中还结合已有的基因组序列进行系统发育研究,发现在遗传上口子岛牛与欧洲家养牛表现出极大的不同,可能具有独特的进化地位。

牦牛是西藏高原及其毗邻地区特有的物种之一,在缺氧、高辐射等恶劣环境下的适应性引起科学家们的关注。邱强等[37]通过Illumina HiSeq 测序平台采用鸟枪测序法一头家牦牛进行从头组装共获得了65x深度的数据,对获得的测序数据进行分析,在与家牛的同源基因分析中发现了牦牛特有的100个基因。在正选择分析中,牦牛受到正选择的基因主要富集在缺氧性应激和能量代谢,如ADAM17、ARG2和MMP3基因等。在基因家族分析中发现大量扩张基因主要富集在嗅觉受体活性、味觉感知、能量代谢和ATP合成等方面。对一些与高海拔低氧环境相适、嗅觉、防御和免疫等相关基因的重要选择性变异的研究,将有利于揭示高海拔地区动物高原适应性生理性状背后的遗传基础。Wang等[40]在野生与家养牦牛研究中,采用Illumina HiSeq 2000测序平台分别对采自不同地区的3头野牦牛和3头家牦牛进行测序分析,共检测到700多万个新的SNPs突变,丰富了牦牛现有的遗传资源库。群体连锁不平衡分析显示,家牦牛的LD消减速率较慢,可能与牦牛驯化过程中的进化瓶颈有关。在发现的1 000多个驯化过程中的受选择区域进行注释和功能聚类分析发现,主要富集在炎症应急、抗体转运和防御应答等方面;与体型相关的基因PLAG1和奶品质特征相关的基因DGAT1和ABCG2是重要的驯化相关基因。因此,加强牦牛遗传资源的研究有助于分子标记辅助选择和其他牛科动物的遗传多样性研究。

Choi等[41]采用Illumina测序仪分别对10个韩牛和10个延边牛进行平均深达10.71 x和10.53 x测序工作,比对到参考基因组后共检测到一千七百多万个SNP突变,其中有22.3%为新发现的SNP;选择性清除分析确定了几个可能与重要经济性状相关的位点,例如PPP1R12A基因可能与肌内脂肪沉积相关。这些研究为进行亚洲牛的遗传特征和起源驯化研究提供了资源,为种质资源的保护提供了科学的借鉴资料。

为研究不同品种牛间的基因组遗传差异。Stothard等[42]分别对一头黑安格斯牛公牛和一头美国荷斯坦公牛的进行遗传变异检测和比较分析。比对参考基因组后,共发现7百多万个遗传变异,其中仅24%是共有的,在一定程度上说明了不同选择作用会导致了不同品种间遗传差异。研究中还发现,PLA2G2D基因的拷贝数变异与安格斯牛的体重和屠宰性状等相关。

世界范围内共有800多个牛品种,其中中国就有52个之多,品种之间的遗传多样性研究为现代化专业化商业品系的培育提供了广泛的遗传资源,进一步挖掘、利用牛的遗传资源,有利于生产产奶量高、质量更好、肉品质优良的品种。传统数量遗传学育种方法在牛的重要经济性状方面取得了巨大的成就,我们相信,利用现代的高科技技术可以在更短的时间内培育出更多的理想品种(品系),因此加强对牛的基因组学的研究是非常有必要的。

2.4 在绵羊、山羊上的基因组测序研究

绵羊(Ovis aries)和山羊(Caprine hircus),是最早被驯化饲养的反刍动物,分别属于牛科的山羊属和绵羊属,为人类提供肉、毛、奶、皮革等产品,是世界农业经济的重要组成部分。据考古等方法研究表明,它们可能于10 000年前就在西亚的肥沃新月形地带经历了最初的驯化过程[43-44]。

2.4.1 绵羊基因组测序研究 Jiang等[45]在2014年完成并在线发表了绵羊高质量参考基因组解析工作,结合40个不同组织的转录组测序数据,发现绵羊染色体上约有1 000万个单核苷酸多态性变异、141个大结构改变和近10 000个拷贝数变异。此外,分析鉴定出一系列反刍动物特有的基因家族扩张事件、基因结构变异和基因表达的组织特异性变化,其中最重要的是发现了反刍动物独特的消化系统和脂类代谢进化相关联的特异基因,并在绵羊皮肤中找到了控制脂类合成的关键基因MOGAT2和MOGAT3,绵羊参考基因组的发布和分析,使我们对反刍动物生物学有了崭新的认识”,并了解了“反刍动物成为最繁盛的陆地食草动物的原因”。Miller等[46]采用ABI SOLiD测序平台对一只大角羊公羊进行了12x深度的基因组测序,检测到1 400万个SNPs和一百多万个插入缺失变异,在同义与非同义突变基因本体论(GO)分析中有 40个差异表达的分类,其中导致氨基酸变化主要参与精子发生和乳腺上皮细胞增殖的负调控的两个分类,揭示了驯化过程中选择作用导致对繁殖性状、肌肉特性等其他性状上的差异。Kardos等[47]采用Illumina HiScan测序平台对58个采自3个不同地方的大角羊群体进行混合池测序,对测序结果分析检测到280多万个SNP用于后续的分析。在群体遗传差异分析中发现来自大提顿山脉的两个群体间遗传差异较大,推测是较低的基因流动和群体内严格的遗传漂变造成的。在选择信号分析发现可能与大角羊的环境适应、身体生长相关的14号染色体上HIF3A和IGFL1基因、16号染色体上GHR基因和8号染色体上的IGF2R基因。Yang等[48]对77只绵羊和3只野羊进行重测序,比较极端环境下和对照环境下(如高原和平原、干旱沙漠和湿润地区)样本的基因组发现了一系列与绵羊极端环境适应性相关的候选基因,并进行生物学功能和信号通路分析发现高原环境下受选择的基因和通路与低氧耐受相关,沙漠环境下受选择的基因与水分子的重吸收有关,从基因组水平上阐明了极端环境下绵羊的适应性遗传机理。这些研究为探索羊属动物遗传适应性和选择进化提供了良好的开端。

Liu等[49]对多浪羊、小尾寒羊和蒙古羊的混合池测序发现1 700多万个SNP和290多万个Indels。此外,对全基因组选择信号分析发现143基因组区域受到选择作用,其中RPS6KA3、MAD2L1、CCNB2、GNAI2、ADCY5、PIK3R5和 CDC25B等 基因与短尾羊繁殖性状相关;与角的有无相关的基因(RXFP2),与耳朵发育相关的基因(OTX1、SOD1 LHFPL5、HOXA2和GJB6)与繁殖性状相关的基因(TSHR和PRL)等也受到不同的选择作用。全基因组水平遗传变异的研究会进一步加深我们对不同用途绵羊品种遗传机理的理解,为培育肉羊新品种和满足不断增长的肉品需求提供了科学依据。

2.4.2 山羊基因组测序研究 山羊是适应性较强的驯化家畜,广泛分布于世界范围内的山地、荒漠等环境恶劣的地区,为人类提供肉、毛、皮等生活用品,尤其在偏远地区的经济发展中发挥着重要作用。

2012年,利用Illumina/Solexa短读长测序和全基因组酶切图谱等技术,Dong等[50]从头组装了首个山羊基因组序列精细图谱,并完成了基因组的结构和功能注释工作,其中Contig N50 为18 720 bp,Scaffoled N50为16.3 Mb。利用山羊与牛的保守共线性关系,将超长Scaffold序列定位到染色体上,最后获得了2.66 Gb大小的高质量基因组序列,共包括22 175个基因。转座子分析中发现山羊基因组中的转座子与牛的类似,包含大量的反刍动物特异性重复序列,而在山羊中短散在核元件(SINE-tRNA)转座子较多。通过比较基因组分析发现山羊与牛的亲缘关系较近,大约在2 300万年前分化。此外,山羊基因组中约有44个基因受到正选择,其中7个与免疫相关,而与产奶量、胚胎发育以及羊毛形态等相关的垂体功能相关的基因发生了快速进化。在基因家族分析中发现3个与味觉受体相关的基因亚家族扩张和1个亚家族收缩现象,推测这可能与山羊的觅食能力相关(如FTH1基因家族的扩张)。研究中还对我国内蒙古绒山羊的初级毛囊和次级毛囊进行转录组的比较分析发现,KAP、FGF、Wntβcatenin等基因家族的51个差异表达基因。这些差异表达的基因在绒毛形态、毛囊周期变化、绒毛细度等性状方面有重要作用,为在基因组水平上进行绒山羊羊绒质量的改良和分子标记辅助山羊育种奠定了基础。Du等[51]利用高密度放射自显杂交(RH)技术对一代山羊参考基因组进行了补充,极大的提高了基因组的可靠性和准确性,为山羊重测序研究奠定了坚实的基础。2017年,结合二代Illumina、三代Pacbio单分子测序、光学图谱BioNano和Hi-C等技术,Bickhart等[16]对圣克利门蒂山羊进行基因组从头测序组装,获得了仅含有663个空白序列的高质量山羊基因组精细图谱(ARS1)。相较于之前的组装版本 CHIR_2.0和CHIR_1.0,ARS1版本填补了CHIR_2.0版本中的3,495个内含子或外显子有空白序列的基因。研究中还把具有高度多态性和重复性免疫基因区的 LRC和NKC基因定位在一个独立的常染色体scaffold上。而其他重复复杂序列区域,端粒序列、着丝粒区等都有较好的组装结果,如在19号和23号染色体等组装出高度重复的着丝粒和端粒区域,贯通了有结构性异染色质区的染色体。此次组装的基因组为山羊基因组的研究将提供了更为全面的基因组信息,为山羊功能基因组的研究奠定了坚实的基础。

山羊的驯化过程导致家山羊与野山羊在体型、行为、角型和被毛颜色等方面发生显著的变化。Dong等[52]对野山羊(Capra aegagrus)进行了de novo从头组装测序,与参考基因组比较分析发现13拷贝数变异基因(ASIP、ATRN、Fig. 4、GNAQ、HELLS、MUTED、OSTM1、TRPM7、VPS33A、Adamts、MITF、OCA2和SLC7A11)与被毛颜色有关,如ASIP基因重复与白色的表型相关。此外,与野山羊的较强的警觉行为(CACNA1C)、与家山羊的温顺行为(HTR3A)、免疫(CFH,TRIM5)、生产性状(MYADM,BTN1A1,PRAME)等有关的基因也发生拷贝数变异和快速的进化现象。这些基因组水平发生显著差异变化的基因为未来山羊功能基因的研究提供候选基因和,也为理解动物驯化的遗传机制提供了有用的信息。

山羊自驯化之后,随着人类活动快速地扩散到世界不同的生态环境当中,在长期的自然选择和人工选择作用下,适应了不同的自然环境和生产方向。Benjelloun等[53]对摩洛哥不同地区山羊基因组重测序研究发现,与哺乳动物毛发调控和色素沉着的基因ASIP受到选择作用,而TRAP1基因也受到选择作用,可能与恶劣环境适应相关,为干旱条件下山羊的适应性遗传机理研究奠定了基础。为研究不同生产用途和自然环境的山羊基因组特征,Wang等[54]对中国八个山羊品种的进行深度为9-13X混合测序,发现了1 000多万个SNP突变,通过选择性清除分析发现了与毛色相关(ASIP、KITLG、HTT、GNA11和 OSTM1)、体格大小(TBX15、DGCR8、CDC25A和RDH16)、绒毛性状(LHX2、FGF9和WNT2)和缺氧适应性(CDK2、SOCS2、NOXA1和 ENPEP)等相关的候选基因在不同群体中受到选择作用,加深了我们对中国山羊遗传多样性遗传机制的理解。Guan等[55]对大足黑山羊和内蒙古绒山羊阿拉善型进行基因组测序发现,5.03百万个SNP和334,151个InDels突变,选择信号扫描分析发现了与大足黑山羊繁殖性状相关的候选基因(PAIP2B、CCDC64、EPB41L5,BIRC6),与生产性状相关的基因(如PAIP2B、CCDC64,EPB41L5等)、与脂肪沉积相关的基因(IKBKG,LOC102190823)、肌肉质量性状相关基因(PLD2)和产奶性状相关基因(IDH1)等也受到了不同的选择作用。这些加深了我们对绒毛性状、繁殖性状相关基因的理解,将进一步促进在基因组水平上进行新品种的选育和基因改良。

为研究培育品种云南黑山羊的基因组分子特征(由云岭黑山羊和努比羊杂交培育而成),兰蓉等[56]利用混合池测序的方法对具有代表性的3个杂交母羊进行全基因组重测序,检测到了7 615 774 个SNP、877 232 个 INDEL 和40 005 个 SV 等遗传变异,并对这些变异进行注释,阐明了云南黑山羊的分子特征,为后续功能基因的研究提供了强大的数据支撑,并为功能基因的定位提供新的思路和线索。此研究表明,全基因组重测序可以全面、快速、准确地解析不同品种的分子遗传特征,为品种的不断选育提高及开发利用奠定坚实的基础。

为研究韩国本地山羊对指状鬃丝虫引起的的山羊腰麻痹病较强抵抗力的遗传基础。Lee等[57]对15韩国地方品种(韩国小黑山羊)个体和11杂交山羊个体(韩国小黑山羊与萨能奶山羊、波尔山羊的杂交)进行全基因组重测序研究,其中遗传多样性分析发现本地山羊遗传多样性小于杂交山羊,可能与地方品种的近交繁殖以及杂交群体中不断导入的外来血的遗传信息相关。选择性清除分析发现基因(CCR3、CLNK、HM13、IGSF10、ROBO1和 NTM)可能与韩国地方山羊对由指状鬃丝虫引起的的山羊腰麻痹病具有较强的抵抗力相关;而基因(CYM和COL11A2)可能与地方山羊品种中羔羊的生长发育相关,进而影响地方山羊的体格大小等表型性状。抗病性差异的研究为今后利用基因组重测序数据来揭示地方品种适应性的潜在遗传机制和进行疾病抗性山羊新品种的选育工作奠定了科学基础。

3 展望

随着测序技术和分子生物学的进一步发展,在越来越多的物种中开展了基因组序列组装及重测序研究,产生了海量的测序数据上传到公共数据库并仍在继续增加。面对如此巨大的数据量,对当前的数据存储、数据分析挖掘等技术提出了严峻的考验,主要面临以下问题:(1)全基因组测序的成本依旧较高,在经济价值相对较低的物种中,很难开展大规模的研究工作。虽然,基因分型芯片技术在一定程度上能够补充以上缺点,但其限于常见变异的研究,不能对稀有变异进行分析研究。(2)尽管基因组序列组装不断的接近完成图,但依然存在较多的空白,而且基因组中的高重复、复杂区域依旧是基因组组装面临的重要问题,为深入研究基因组特征带来一些困难。(3)第二代测序技术产生的序列读长较短,难以跨越高重复序列区域以及具有碱基偏好性,对复杂区域的研究一直是其短板。与参考基因组比对时,短读长序列可能会在基因组中比对到多个位置。(4)第三代测序技术在读长方面较第二代测序技术具有明显的优势,但因其错误率高的特点需要进行大量测序数据进行纠正,以及本身的测序费用较高等原因,目前的重测序领域尚未进行大规模应用。(5)在测序数据快速增加的背景下,如何有效地深度挖掘其潜藏的遗传信息,成为目前面临的主要的问题。因此,需要不断的进行算法和计算性能的优化。(6)基因组数据研究是其他功能研究的基础,但表型性状的遗传机理十分复杂,如何有效的开展多组学研究也是今后面临的主要问题。

面对以上问题,科学家们也一直在不断的进行理论研究和技术应用探索。在数据分析方面,各种分析网站和数据库越来越智能化和简约化,实现了对算法不断优化、数据冗余的降低以及数据解码效率的提高,虽然目前对数据存取的效率始终面临的主要问题,但不久的将来一定会取得突破性进展[58]。今后,对长度长测序技术的不断改进和对相应算法的开发研究将是一个研究重点。对于测序成本问题,需要不断的优化现有的测序技术,进一步降低研究成本。为充分利用财力、物力、人力资源和潜在的测序数据价值,各国科学家们也在不断的加强国家间的合作研究,国际性的合作不仅加快了研究进展,更是增加了学术间的交流,进而促进科学的快速发展。此外,古DNA保存技术和提取技术的不断进步,也为精确地进行不同物种的群体历史动态研究提供了良好的研究材料。基因组学研究是从正向遗传学的角度来进行基因功能的研究,而生物体的基因与基因、基因与环境的复杂互作关系,容易导致假阳性结果。因此,为解决基因组测序研究出现的假阳性问题,对物种进行转录组学、代谢组学和蛋白质组学比较,进行反向遗传学的功能验证手段,将是全基因组测序今后研究工作的重点和方向。在家畜上的基因组水平的深入研究也将不断增加我们对重要经济性状的遗传机制的理解,在育种实践上减少疾病或遗传缺陷的发生,为提高产品质量、生产效率及精确快速育种作出重要贡献。此外,基因组测序的深入研究也有助于稀有变异的发掘,培育出更优良的专门化畜禽新品种,发挥特色物种的各种遗传潜力,具有重要的不可估量科研价值。

[1]Andersson L. Genetic dissection of phenotypic diversity in farm animals[J]. Nat Rev Genet, 2001, 2(2):130-138.

[2]Diamond J. Evolution, consequences and future of plant and animal domestication[J]. Nature, 2002, 418(6898):700-707.

[3]Bentley DR. Whole-genome re-sequencing[J]. Curr Opin Genet Dev, 2006, 16(6):545-552.

[4]Fuentes-Pardo AP, Ruzzante DE. Whole-genome sequencing approaches for conservation biology:Advantages, limitations and practical recommendations[J]. Mol Ecol, 2017, 26(20):5369-5406.

[5]Li M, Chen L, Tian S, et al. Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple De novo assemblies[J]. Genome Res, 2017, 27(5):865-874.

[6]Venter JC, Adams MD, Myers EW, et al. The sequence of the human genome[J]. Science, 2001, 291(5507):1304-1351.

[7]Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822):860-921.

[8]Koboldt DC, Steinberg KM, Larson DE, et al. The next-generation sequencing revolution and its impact on genomics[J]. Cell, 2013,155(1):27-38.

[9]Wang GD, Xie HB, Peng MS, et al. Domestication genomics:evidence from animals[J]. Annu Rev Anim Biosci, 2014, 2:65-84.

[10]Goodwin S, McPherson JD, McCombie WR. Coming of age:ten years of next-generation sequencing technologies[J]. Nat Rev Genet, 2016, 17(6):333-351.

[11]Mardis ER. Next-generation DNA sequencing methods[J]. Annu Rev Genomics Hum Genet, 2008, 9:387-402.

[12]Munroe DJ, Harris TJ. Third-generation sequencing fireworks at Marco Island[J]. Nat Biotechnol, 2010, 28(5):426-428.

[13]Ono Y, Asai K, Hamada M. PBSIM:PacBio reads simulator--toward accurate genome assembly[J]. Bioinformatics, 2013, 29(1):119-121.

[14]Mascher M, Gundlach H, Himmelbach A, et al. A chromosome conformation capture ordered sequence of the barley genome[J].Nature, 2017, 544(7651):427-433.

[15]Clavijo BJ, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome Res, 2017,27(5):885-896.

[16]Bickhart DM, Rosen BD, Koren S, et al. Single-molecule sequencing and chromatin conformation capture enable De novo reference assembly of the domestic goat genome[J]. Nat Genet,2017, 49(4):643-650.

[17]Groenen MA, Archibald AL, Uenishi H, et al. Analyses of pig genomes provide insight into porcine demography and evolution[J]. Nature, 2012, 491(7424):393-398.

[18]Li M, Tian S, Jin L, et al. Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J]. Nat Genet, 2013, 45(12):1431-1438.

[19]Ai H, Fang X, Yang B, et al. Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing[J]. Nat Genet, 2015, 47(3):217-225.

[20]Li M, Tian S, Yeung CK, et al. Whole-genome sequencing of Berkshire(European native pig)provides insights into its origin and domestication[J]. Sci Rep, 2013, 4:4678.

[21]Ramírez O, Burgos-Paz W, Casas E, et al. Genome data from a sixteenth century pig illuminate modern breed relationships[J].Heredity(Edinb), 2015, 114(2):175-184.

[22]Rubin CJ, Megens HJ, Martinez Barrio A, et al. Strong signatures of selection in the domestic pig genome[J]. Proc Natl Acad Sci USA, 2012, 109(48):19529-19536.

[23]Choi JW, Chung WH, Lee KT, et al. Whole-genome resequencing analyses of five pig breeds, including Korean wild and native, and three European origin breeds[J]. DNA Res, 2015, 22(4):259-267.

[24]Wang C, Wang H, Zhang Y, et al. Genome-wide analysis reveals artificial selection on coat colour and reproductive traits in Chinese domestic pigs[J]. Mol Ecol Resour, 2015, 15(2):414-424.

[25]Groenen MA. A decade of pig genome sequencing:a window on pig domestication and evolution[J]. Genet Sel Evol, 2016, 48 :23.

[26]Fang X, Mou Y, Huang Z, et al. The sequence and analysis of a Chinese pig genome[J]. Gigascience, 2012, 1(1):16.

[27]Wade CM, Giulotto E, Sigurdsson S, et al. Genome sequence,comparative analysis, and population genetics of the domestic horse[J]. Science, 2009, 326(5954):865-867.

[28]Myka JL, Lear TL, Houck ML, et al. FISH analysis comparing genome organization in the domestic horse(Equus caballus)to that of the Mongolian wild horse(E. przewalskii)[J]. Cytogenet Genome Res, 2003, 102(1-4):222-225.

[29]Orlando L, Ginolhac A, Zhang G, et al. Recalibrating Equus evolution using the genome sequence of an early Middle Pleistocene horse[J]. Nature, 2013, 499(7456):74-78.

[30]Huang J, Zhao Y, Shiraigol W, et al. Analysis of horse genomes provides insight into the diversification and adaptive evolution of karyotype[J]. Sci Rep, 2014, 4:4958.

[31]Doan R, Cohen ND, Sawyer J, et al. Whole-Genome sequencing and genetic variant analysis of a quarter Horse mare[J]. BMC Genomics, 2012, 13:78.

[32]Jun J, Cho YS, Hu H, et al. Whole genome sequence and analysis of the Marwari horse breed and its genetic origin[J]. BMC Genomics, 2014, 15(Suppl 9):S4.

[33]Metzger J, Gast AC, Schrimpf R, et al. Whole-genome sequencing reveals a potential causal mutation for dwarfism in the Miniature Shetland pony[J]. Mamm Genome, 2017, 28(3-4):143-151.

[34]Librado P, Der Sarkissian C, Ermini L, et al. Tracking the origins of Yakutian horses and the genetic basis for their fast adaptation to subarctic environments[J]. Proc Natl Acad Sci USA, 2015, 112(50):E6889-E6897.

[35]Bovine Genome Sequencing and Analysis Consortium, Elsik CG,Tellam RL, et al. The genome sequence of taurine cattle:a window to ruminant biology and evolution[J]. Science, 2009, 324(5926):522-528.

[36]Canavez FC, Luche DD, Stothard P, et al. Genome sequence and assembly of Bos indicus[J]. J Hered, 2012, 103(3):342-348.

[37]Qiu Q, Zhang G, Ma T, et al. The yak genome and adaptation to life at high altitude[J]. Nat Genet, 2012, 44(8):946-949.

[38]Bovine HapMap Consortium, Gibbs RA, Taylor JF, et al. Genomewide survey of SNP variation uncovers the genetic structure of cattle breeds[J]. Science, 2009, 324(5926):528-532.

[39]Kawahara-Miki R, Tsuda K, Shiwa Y, et al. Whole-genome resequencing shows numerous genes with nonsynonymous SNPs in the Japanese native cattle Kuchinoshima-Ushi[J]. BMC Genomics, 2011, 12:103.

[40]Wang K, Hu Q, Ma H, et al. Genome-wide variation within and between wild and domestic yak[J]. Mol Ecol Resour, 2014, 14(4):794-801.

[41]Choi JW, Choi BH, Lee SH, et al. Whole-Genome Resequencing Analysis of Hanwoo and Yanbian Cattle to Identify Genome-Wide SNPs and Signatures of Selection[J]. Mol Cells, 2015, 38(5):466-473.

[42]Stothard P, Choi JW, Basu U, et al. Whole genome resequencing of black Angus and Holstein cattle for SNP and CNV discovery[J].BMC Genomics, 2011, 12:559.

[43]Luikart G, Gielly L, Excoffier L, et al. Multiple maternal origins and weak phylogeographic structure in domestic goats[J]. Proc Natl Acad Sci USA, 2001, 98(10):5927-5932.

[44]Chessa B, Pereira F, Arnaud F, et al. Revealing the history of sheep domestication using retrovirus integrations[J]. Science, 2009,324(5926):532-536.

[45]Jiang Y, Xie M, Chen W, et al. The sheep genome illuminates biology of the rumen and lipid metabolism[J]. Science, 2014,344(6188):1168-1173.

[46]Miller JM, Moore SS, Stothard P, et al. Harnessing cross-species alignment to discover SNPs and generate a draft genome sequence of a bighorn sheep(Ovis canadensis)[J]. BMC Genomics, 2015,16:397.

[47]Kardos M, Luikart G, Bunch R, et al. Whole genome resequencing uncovers molecular signatures of natural and sexual selection in wild bighorn sheep[J]. Mol Ecol, 2015, 24(22):5616-5632.

[48]Yang J, Li WR, Lv FH, et al. Whole-genome sequencing of native sheep provides insights into rapid adaptations to extreme environments[J]. Mol Biol Evol, 2016, 33(10):2576-2592.

[49]Liu Z, Ji Z, Wang G, et al. Genome-wide analysis reveals signatures of selection for important traits in domestic sheep from different ecoregions[J]. BMC Genomics, 2016, 17(1):863.

[50]Dong Y, Xie M, Jiang Y, et al. Sequencing and automated wholegenome optical mapping of the genome of a domestic goat(Capra hircus)[J]. Nat Biotechnol, 2013, 31(2):135-141.

[51]Du X, Servin B, Womack JE, et al. An update of the goat genome assembly using dense radiation hybrid maps allows detailed analysis of evolutionary rearrangements in Bovidae[J]. BMC Genomics, 2014, 15:625.

[52]Dong Y, Zhang X, Xie M, et al. Reference genome of wild goat(Capra aegagrus)and sequencing of goat breeds provide insight into genic basis of goat domestication[J]. BMC Genomics, 2015,16:431.

[53]Benjelloun B, Alberto FJ, Streeter I, et al. Characterizing neutral genomic diversity and selection signatures in indigenous populations of Moroccan goats(Capra hircus)using WGS data[J]. Front Genet, 2015, 6:107.

[54]Wang X, Liu J, Zhou G, et al. Whole-genome sequencing of eight goat populations for the detection of selection signatures underlying production and adaptive traits[J]. Sci Rep, 2016, 6 :38932.

[55]Guan D, Luo N, Tan X, et al. Scanning of selection signature provides a glimpse into important economic traits in goats(Capra hircus)[J]. Sci Rep, 2016, 6 :36372.

[56]兰蓉, 朱兰, 邵庆勇, 等. 云南黑山羊全基因组重测序[J].草食家畜, 2016, (5):11-17.

[57]Lee W, Ahn S, Taye M, et al. Detecting Positive Selection of Korean Native Goat Populations Using Next-Generation Sequencing[J].Mol Cells, 2016, 39(12):862-868.

[58]Erlich Y, Zielinski D. DNA Fountain enables a robust and efficient storage architecture[J]. Science, 2017, 355(6328):950-954.

猜你喜欢
山羊基因组遗传
非遗传承
夏季如何让山羊增膘
牛参考基因组中发现被忽视基因
血清HBV前基因组RNA的研究进展
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
紫花白及基因组DNA提取方法的比较
山羊受骗
聪明的山羊