郭其新,胡亦舟,白 皓,常国斌
(扬州大学动物科学与技术学院,江苏扬州 225009)
在过去的几十年里,动物基因组学领域已经从一门寻求首次了解生命之树基因组序列的学科转变为一个致力解释组装全球所有生物的基因组序列,同时从一个只要求全力解决动物线性基因组的方法发展为从多维度解决基因组序列间的空间关系。第一个动物基因组序列于25 年前发表[1]。97Mb 的秀丽隐杆线虫基因组组装开创了动物基因组生物学的新时代,可以在基因组规模上研究遗传模式和过程,并于2004 年完成人类第一个基因组组装。随着越来越多样化的物种基因组组装不断积累,我们对基因组如何变化和塑造地球生物多样性的了解也越来越丰富[2]。基因组质量的重大转变是由两个关键事件推动的。首先,高通量(一次对几十万到几百万条核酸分子进行序列测定)、短读长(每条read 的长度在35~700bp)测序的发明提供了一种经济手段,为任何可以获得足够DNA 的物种生成数百万个读长,这些约100bp 的短读段可以组装成有用的(尽管是碎片化的)基因组组件[3]。其次,长读长测序的兴起使得在同样花费的基础上增加读长成为可能,这些读长通常比短读长长几个数量级,从而产生更加连续的基因组组装。截至2021 年6月,已对3278 种动物的核基因组进行了测序,并在美国国家生物技术信息中心(NCBI)Gen-Bank 数据库中公开了组装结果[4,5]。家禽作为全球重要的肉类和蛋类来源,对家禽基因组进行测序可能有益于家禽生产实践、家禽健康和福利,也有利于我们了解动物不同表型的遗传基础,同时进一步加速了家禽育种目标的实现。除了这些更具应用性的研究领域之外,基因组测序还让我们了解了这些物种和相关物种的进化途径。近年来,随着高分辨率基因组的组装,从多维度解析家禽表型的遗传基础成为可能,但同样对家禽的现代育种技术提出了新的挑战。
DNA 测序是一个快速发展的领域,技术和平台正在以惊人的速度更新。Sanger 和哈佛大学科学家Allan Maxam 和Walter Gilbert 独立推出了自己的DNA 测序方法,彻底改变并促进了基因组学发展[6]。其主要采用DNA 复制原理。Sanger 测序反应体系中包括目标DNA 片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA 聚合酶等。测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP 连接形成磷酸二酯键的能力,这些ddNTP 可用来中止DNA 链的延伸。此外,这些ddNTP 上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。此后,该测序手段用于人类的第一个基因组序列以及人类健康关键模型(如大鼠和小鼠)的高质量基因组草图[7,8],同时也完成小鼠基因组计划近交实验室C57BL/J6 品系测序。然而,该测序方法仍然是一个昂贵的工作(每兆碱基序列约1000 美元)。新的短读长测序技术(SRS)和平台不断发展,包括ABI SOLiD[9]、Roche 454[10]和Illumina[11]。这些技术在成本、样本输入、读取长度和错误率方面都有其优缺点。随后,Illumina 利用双端测序方法完成了狗[12]、马[13]、牛[14]、猕猴[15]、负鼠[16]和鸡[17]等物种基因组序列组装。虽然这些基因组极大促进了这些物种的发展,但这些物种的基因组中存在大量的空白序列无法组装,这主要是由于测序读长较短和连续性较低导致。认识到长读长和连续性对基因组草图的重要性。基因组组装的新技术[18](如Dovetail 的邻近连接)和长读长测序技术(long-read sequencing,LRS),如PacBio 的单分子实时(single molecule real time sequencing,SMRT)[19]、Chromium 10x[20]、Oxford Nanopore技术[21]和Bionano 基因组作图技术[22]的发展。为了进一步获得高质量的基因组,通过分别组合SRS 和LRS 以及组装工具生成不同的组装策略对当时黄金标准基因组的改进,如人类构建的GRCh38 使用Bionano 等光学绘图仪来确认组装和细化单倍型[23];此外,高覆盖度虎皮鹦鹉(Melopsittacus undulatus)基因组是使用多种测序技术生成的[24],包括SRS(Roche 454 和Illumina)和LRS(PacBio)及类似的de novo 山羊(Capra hircus)参考基因组是结合PacBio、Illumina 和Bionano 方法生成了迄今为止最连续的哺乳动物基因组之一,但依然缺乏类似于着丝粒等复杂区域的序列信息。为了填补基因组中缺乏的着丝粒等位置的序列,科学家们设计了一种基于转座酶结合BAC 文库的方案,使用纳米孔测序(MinION 测序技术)产生BAC 文库DNA 的高读数覆盖。如在转座酶中用单个切割位点线性化圆形BAC 并添加测序接头,从而实现整个插入片段的完整、端到端序列覆盖,这使得完整测序着丝粒序列成为可能。在此基础上,科学家们近年来完成了人[25-27]、鸡[28]以及鱼[29]等动植物的完整端粒到端粒的完整基因组(T2T)。
随着大规模基因组研究的发展,人们发现单一参考基因组模式无法代表物种水平的遗传多样性。畜禽往往具有复杂的起源和迁徙路线,这表明当前参考基因组中可能遗漏了一些种群特异性序列。相反,泛基因组是一个物种所有DNA 序列的集合,包含所有个体共享的序列(核心基因组),并且还能显示每个个体独有的序列信息(可变基因组)。人类、植物和家畜泛基因组研究进展表明,通过泛基因组研究可以探索缺失的遗传成分和大结构变异(SV)的识别。许多个体特异性序列已被证明与生物适应性、表型和重要的经济性状相关。泛基因组可以在分析单个参考基因组的基础上补充缺失的遗传信息,挖掘隐藏的遗传变异,展示物种水平上真正的遗传多样性[30-32]。此外,许多研究表明,以泛基因组为参考,可以显著提高读段映射率、转录组比对效率以及一些罕见和大变异的检出率[32-34]。此外,泛基因组研究的一个重要组成部分是检查新发现的基因的生物学功能。泛基因组可以识别通常属于非核心基因组的非参考序列,并且可能对生物体的适应性产生重要影响[35]。因此,分析它们在个体中的分布以及所包含基因的功能可以更好地了解物种对极端环境的适应。构建真核生物的全基因组必须考虑基因组内的所有DNA 序列,才能真正发挥全基因组的参考对象作用。由于测序技术、成本和基因组复杂性等限制,真核全基因组研究起步晚于原核全基因组。直到2009 年,基于人类基因组计划[36]和多个参考基因组组装完成[37-39],泛基因组才被应用于人类基因组学研究。动植物泛基因组研究从2013 年才逐步开展。最近有两个关于鸡泛基因组的研究,第一个是使用迭代作图和组装方法构建的,使用了664 个个体的WGS 数据和参考基因组构建的泛基因组,基于该泛基因组鉴定了参考基因组(GRCg6a)中不存在的约66.5Mb 编码4063 个高可信度基因序列,通过鉴定了大量的存在/ 不存在变异(PAV)变异,基于PAV 的全基因组关联研究发现了许多与生长、胴体成分、肉质或生理性状相关的候选突变。其中,IGF2BP1 启动子区域的缺失影响鸡体大小[40];另外一个是通过组装世界范围内20 个代表物种的基因组构建的一个鸡的泛基因组,该泛基因组主要利用20 个高测序深度从头组装的基因组构建了来自世界范围内的鸡泛基因组,并鉴定了GRCg6a 中未发现的1,335 个蛋白质编码基因和3011 个长非编码RNA[41]。这些研究挖掘了一些新的遗传变异,为解析表型提供了新的思路,在一定程度上为家禽育种提供了一些新的见解。
3D 基因组是指基因组在空间和时间上的折叠方式,这是一个在生物学领域备受关注的问题。通过开发一系列前所未有的高分辨率方法,如染色质构象捕获、高分辨率光学和电子显微镜等技术,我们对基因组架构和功能有了全新的认识。众所周知,人类DNA 长2m,这种DNA 如何经历巨大的压缩以适应细胞核的微小空间(直径约20μm)一直是细胞生物学的主要谜团之一。核小体的重复单元(146bp 的DNA 包裹在组蛋白核心八聚体周围)组织成10nm 的 “串珠”[42]。然而,需要进一步压缩以使DNA 适合细胞核。长期存在的模型假设染色质以分层方式折叠成更高阶的结构,其中包括通过连接组蛋白H1 将10nm 纤维折叠成30nm 纤维,然后折叠成更大的结构[43,44]。组蛋白除了压缩DNA 之外,还可以通过对其尾部进行翻译后修饰来主动控制基因表达,从而共同生成表观遗传 “组蛋白密码”[45]。特定的组蛋白 “标记” 与基因组的活跃区域和沉默区域相关,因此被认为会产生不同水平的染色质压缩和高阶结构。也就是说,基因组的一部分似乎包含未修饰的组蛋白[46,47],并且抑制性组蛋白标记有时也可以在活性启动子中找到[48],强调需要更好的工具来可视化和绘制组蛋白标记、基因组之间的精确关系、结构和功能。常染色质、异染色质和细胞核中个体染色体区域的假说的重提[49,50]以及荧光原位杂交(FISH)的新型成像技术的发展使得染色体区域假说最终得到验证。随着新的成像和基因组技术的出现,推动了核结构研究[51-53]。同时,FISH 方法证明了染色体区域和区域边缘染色体混合的存在,也表明富含活性基因的染色体区域主要位于核内部,而富含非活性基因的染色体区域主要位于核外围[54-63]。在此基础上,综合全基因组测序(Whole Genome Sequencing,WGS)、RNA-seq、Hi-C 等技术,解析北京鸭的三维基因组空间构象[64]以及利用Hi-C 技术对水稻染色质的三维结构进行了全基因组解析[65,66]。3D基因组揭示了基因组在超分辨率和活细胞成像下的组织结构,为我们提供了基因组功能的新视角,发现一些以前没有发现的基因组空间结构层次的变异。同时,这种高分辨率成像也挑战了我们对基因组的传统理解,推动了科学界对基因组认识的深化,也为育种技术提出了新的挑战。
育种是指人类驱动的培育和增强动物物种的过程,其中涉及干预其生物进化。在过去的一个世纪里,育种方法不断从传统方法向现代方法发展以满足人类的需求。动物驯化始于大约几千年前,标志着动物育种的开始。在这个阶段,人们通过目视评估野生动物的表型性状,并根据需要对其进行驯化。1865 年,孟德尔遗传定律的发现标志着动物育种传统时代的开始,当时主要的育种技术是杂交育种等。这一时期的动物育种研究主要集中在杂交和统计分析上,且耗时较长。传统育种技术无法精确操纵和选择特定基因从而导致选育效果较差。分子生物学的快速进步促进了分子标记辅助育种的发展,它利用分子标记来反映个体或群体之间的变异或多态性。利用这些标记来识别杂交后代中的目标基因,可以最大限度地减少育种过程中的人类和环境干扰,并加速整个育种进程。标记辅助育种可以同时检测多个或连锁基因。但这项技术需要大量的高质量DNA,且价格昂贵。2001 年,Meuwissen 等[67]引入了基因组选择(GS)。使用训练群体的基因型和表型数据构建基因组预测模型,然后利用已知的基因型和表型数据预测候选个体的基因组估计育种值(GEBV)。GS 技术同时评估多个全基因组标记在由基因分型和表型个体组成的训练群体中的作用,从而显著提高选择效率。因此,基于GS 的育种仍然是一项具有很大发展潜力的开创性技术。近年来,在牛等动物中开展了一系列开展基因组选择的报道,如肉牛[68]、奶牛[69]、猪[70]和鸡等[71]。对于肉鸡,同样也使用不同模型(如PBLUP、GBLUP 和ssGBLUP)的预测准确性和遗传参数进行了估计[72-75]。
过去几十年内,随着基因组编辑技术的发展,使其能对基因组进行精确编辑。基因组编辑技术在家禽业及整个畜牧生产中的应用在过去十年中得到了改善[76]。3 种常用的基因组编辑技术用于家禽生产,如锌指核酸酶(ZFN)、转录激活因子样效应核酸酶(TALEN)以及成簇规则间隔短回文重复序列(CRISPR)相关蛋白 9(CRISPR/Cas9)是最常见且最先进的基因组编辑技术,其中,CRISPR/Cas9 技术在鸡和鹌鹑中的应用取得了实质性进展,例如,最近的一个研究通过对鸡的ANP32 蛋白家族的ANP32A 基因中的N129I 和D130N 氨基酸基因编辑,消除了甲型流感病毒(IAV)的感染和传播[77];此外,通过对鸡DF-1 细胞的NHE1 基因的关键氨基酸残基进行编辑,使得该细胞获得对ALV-J 感染的获得性抗性[78];与此同时,日本鹌鹑MSTN 中的非移码突变导致体重和肌肉质量显着增加。使用CRISPR/Cas9 通过基因突变破坏或去除MSTN 会抑制其抗生肌功能,从而导致MSTN 敲除鸡的肌肉质量增加[79]。CRISPR 技术并非旨在取代传统育种系统,而是为育种者提供更多可供选择的遗传变异,因为使用传统育种获得遗传增益在向特定种群内引入遗传变异方面存在局限性,使用CRISPR/Cas9 系统引入遗传变异可用于改善家禽的性能,在一定程度上加速了育种的进程,实现更高的遗传进展。
基因组测序计划完成开启了遗传育种研究的新纪元,但占基因组98%的非编码区域功能研究很少,调控元件注释也尚不清晰,这严重制约了经济性状分子机理解析及基因组育种技术创新。随着高分辨率基因组组装以及泛基因组组装,可以很大程度上促进从多水平(基因组、表观修饰、转录、翻译和蛋白等)解析性状发生的分子调控机制和致因基因/ 变异。最近有研究发现,通过结合数量表观遗传学和群体表观遗传学等表观信息开展基因组选择发现表观遗传变异能够解释65%的表型变异。此外,基于鉴定SNPs 是否位于表观功能基因组区域进行分类,将表观基因组信息引入GFBLUP(genomic feature best linear unbiased prediction)模型,其预测准确性相比传统GBLUP 有所提高。此外,随着新的成像和基因组测序以及组装技术的出现,基因组正以前所未有的细节水平可视化,同时结合基因组选择,可以最大程度提高育种值估计准确性。此外通过结合高分辨率基因组和泛基因组,可以为精确的设计育种提供更精确的位点调控信息,为基于基因组编辑技术构建的设计育种提供帮助。
随着越来越多物种的高分辨率基因组的组装,在一定程度上为现代育种提供了一定的帮助。但是也为现代育种技术提出了新的挑战,主要分为以下几个方面:①多组学水平复杂性状的解析。虽然目前的高分辨率基因组已经可以解释大多数性状的调控发生机制以及致因突变,但是目前用于基因组选择的组学数据均是在组织水平进行。随着单细胞和空间表观组测序发展,从单细胞时空水平解析表型的发生调控机制和致因突变成为新的方法,但是这也导致从多尺度解析表型发生机制更为复杂,如何在多组学水平解析表型发生的致因突变是目前现代育种中面临的新一轮挑战;②新算法的开发。在现代高分辨率基因组下,多个尺度(基因组、表观调控水平、转录水平、翻译水平和蛋白水平)调控表型形成的变异信息被鉴定,导致需要更强大的算力要求,因此需要开发一些在不损害准确性的情况下的压缩算法,减少算力的消耗,降低计算的时间。此外,随着越来越多变异信息的加入,目前的算法可能不太适用于多尺度的计算,为了引入更多的基因组信息,为每个水平变异设置权重(基于其对表型发生的贡献率)可以更高水平的提高现代育种的准确率。
综上所述,高分辨率基因组在家禽育种中的研究和应用尚处于起步和发展阶段,还有许多挑战和领域中有待探索和解决的问题,但是已有的研究方法和初步成果为现代家禽育种提出了广阔的发展前景。同时随着家禽高分辨率基因组的不断完善,家禽重要经济性状的基因组候选区域和致因变异为开展家禽现代设计育种提供了重要的支持。