石少磊,武丽娜,冯羿方,苏 惠,王艳艳,郝晓东
(北京康普森农业科技有限公司,北京 102200)
鸡肉在我国全民肉类消费结构中占有重要地位,已经成为第二大肉类产品。而鸡肉主要来源于白羽肉鸡和黄羽肉鸡,其中,白羽肉鸡提供了大约70%的鸡肉类产品。此外,我国具有丰富的地方鸡品种遗传资源,具有很好的生物多样性,这为肉鸡育种提供了充足的遗传素材。
测序成本的降低以及基因组选择等分子育种技术的广泛应用,对加快我国肉鸡育种进程提供了极大的技术便利条件。准确、高效的单核苷酸多态性(Single-nucleotide polymorphisms,SNP)标记分型技术是畜禽基因组范围的遗传机制挖掘以及育种实践的重要保障。我国畜禽遗传资源丰富,且不同区域的畜禽品种具有丰富的遗传多样性。为了充分利用我国优秀的种质遗传资源,国内各顶尖的研究团队和高校院所利用高通量测序技术以及遗传分析方法,对携带优良遗传基因的地方畜禽品种的遗传机制进行深入挖掘,最终转化为具有核心知识产权的畜禽育种芯片。这些基因芯片的问世,对于最大限度发挥我国优良种质资源、加快畜禽群体遗传改良具有重大的推动作用。
目前,SNP 标记分型技术以基因芯片和二代测序技术为主。本文从SNP 标记分型技术以及其在肉鸡遗传资源挖掘利用、遗传育种中的应用进行概述,旨在为肉鸡遗传育种实践提供一定的参考和借鉴。
DNA 微阵列又名基因芯片,也称为分子探针,即将已知序列的DNA 片段按一定的规律有序的固定于基片表面,从而构成DNA 探针阵列。其基本原理是利用核酸杂交检测变异。不同类型的芯片因其用途不同,基片上的探针存在一定差异:如SNP 基因芯片根据已知的SNP 信息,设计SNP 探针;表达谱基因芯片以cDNA 或寡核苷酸序列片段作探针,通过mRNA 与探针的杂交,检测目标基因的表达水平;DNA 甲基化芯片[1]通过检测对应位点的甲基化信号,判断碱基是否被甲基化修饰。通常在育种应用中以中高密度(5万以上的标记数,如50K、100K、150K 等)的SNP 基因芯片为主。基因芯片检测平台主要有2个[2,3]:因美纳(Illumina)公司的Infinium、赛默飞世尔科技(Thermo Fisher Scientific)的Axiom。就遗传标记分型而言,这2 个公司的平台都是通过荧光标记及探针杂交实现,然而在芯片的设计思路上存在一定的差异。Illumina 平台基于微珠(二氧化硅微珠)芯片技术[4],而Thermo Fisher芯片基于原位光刻合成技术[5,6];在探针长度方面,Illumina 芯片的探针长于Thermo Fisher 芯片,在芯片生产过程中所有微珠都能得到质量控制,在实际应用中灵活性较高;但Thermo Fisher 芯片生产几乎无批次效应。
利用二代测序技术可以检测到目标个体整个基因组范围的遗传变异[2,3],并且通过提高测序深度还可以发现更多的稀有变异信息(最小等位基因频率很低的遗传标记)[7]。随着测序成本的显著降低,基因组测序技术以及测序数据在畜禽分子育种领域得以广泛应用。在畜禽遗传育种、群体遗传分析、遗传机制挖掘等方面,常用到的二代测序检测技术有简化基因组测序(Reduced-representation Genome Sequencing,RRGS)[2]、全基因组重测序(Whole Genome Sequencing,WGS)、靶向捕获测序技术(Genotyping by Target Sequencing)[3]、全基因组低深度重测序(Low-coverage Whole Genome Sequencing,LcWGS)[8,9]。其中,全基因组重测序应用最为广泛。
全基因组重测序的流程包括3 步:①构建测序文库,包括基因组片段化、末端修复、连接测序接头和扩增富集等;②上机检测,即基因测序平台对目标个体的全基因组文库进行扫描测序,获得目标个体的整个基因组序列信息;③生物信息学分析,将测序数据比对到参考基因组上,进而获得整个基因组范围的遗传变异信息。如SNP、结构变异(structure variation,SV)等。
简化基因组测序与全基因组重测序原理相同,具体实施中,RRGS 首先利用限制性内切酶将整个基因组上的DNA 片段化[3,10,11],然后对特定的酶切片段进行高通量测序,进而获得目标区域的遗传标记[2,3]。从而,简化基因组测序可以达到减少测序数据量、降低测序成本的目的[12,13],并能够缩短生物信息分析的周期[3]。
全基因组低深度测序流程与全基因组重测序相同,区别在于其测序深度通常在1 倍以下。因此,与简化基因组测序一样可以达到降低成本的目的[2,3]。由于低深度测序产生的数据在基因组上的覆盖率较低,被检测个体的基因组数据存在大量未被检测到的基因型(缺失率较高)。因此,测序之后需要利用填充软件对未完全检测到的等位基因进行推断、填补,以获得个体全基因组水平的遗传标记。靶向捕获测序通过挑选特定的变异位点或区域,设计特异性的捕获探针或者引物从基因组中捕获靶向位点进行测序,从而获得目标位点或区域的变异信息。利用以上测序技术获得个体的基因组数据和生物信息学分析手段,以进一步用于挖掘与疾病、重要经济性状相关的基因的研究中。
2005 年,Muir 等[14]开发了第一款3K 的鸡基因组芯片。到2008 年,Groenen 等[15]开发了60K的芯片。2013 年Kranis 等[16]报道了第一个商用化600K 芯片(Affy 600K SNP Array)。然而这些芯片通常是基于西方品种鸡的商用品系,缺乏中国本土品种的基因组变异信息。因此,中国农业科学院畜牧兽医研究所赵桂苹团队开发出国内首款肉鸡55K 基因组育种芯片——“京芯一号” (IASCHICK 55K)[17]。“京芯一号” 的成功研发对于我国地方品种遗传资源挖掘和利用、肉鸡群体遗传改良具有重要意义。
此外,国内外研究人员利用不同的测序技术在肉鸡遗传机制挖掘和基因组育种领域进行了深入探索。不同基因组检测产品及其应用场景详见表1。
表1 主要SNP 标记分型技术以及应用场景
Illumina 60K 芯片在鸡的遗传多样性分析[18,19]、全基因组关联分析[20]和基因组预测[21]等方面均得到应用。Dementieva 等[18]利用Illumina 60K 芯片和限制性片段长度多态性(Restriction fragment length polymorphisms,RFLPs)对18 个鸡品种的遗传多样性进行分析。Restoux 等[19]利用60K 芯片对法国的22 个地方品种的遗传多样性进行分析。Yuan 等[20]对中国4 个地方鸡的生长性状进行单标记和基于单倍型的全基因组关联分析,并且发现一个胡须鸡独有的与生长性状相关的基因座。Liu 等[21]比较了基于系谱和60K 芯片的预测模型在惠阳胡须鸡饲料利用性状的预测性能,发现基于基因组预测的准确性显著高于基于系谱的模型。
Affy 600K 芯片在群体遗传结构分析[22,23]、性状遗传机制挖掘[24-27]、品种鉴定[28,29]等方面得到应用。Gao 等[22]利用600K 芯片对中国8 个地方鸡的群体分化程度进行了分析,发现茶花鸡与其他品种的遗传差异最大。Malomane 等[23]分析了全球162 鸡群体的遗传多样性,发现种群间遗传变异较小的基因都与大脑发育等主要功能有关,但是与蛋白质转运、蛋白质和脂质代谢过程相关的基因中,群体间的遗传多样性以更快的速度变化。这也反映了鸡在不同基因组区域的进化模式存在的差异。在性状遗传机制的研究中,研究人员对马立克氏病[24]、饲料利用率[26]等性状关联位点进行分析,以及影响肉鸡体重和产蛋性状的多效性基因座[27]。Cho 等[28]和Seo 等[29]分别利用机器学习的分类方法基于600K 高密度芯片对鸡群体进行品种鉴定。
目前,“京芯一号” 在鸡群体遗传分析方向得到广泛应用。2022 年,Tan 等[30]利用鸡55K 芯片(IASCHICK 55K)对4217 只白羽肉鸡(4 个世代,G4~G7)的7 个性状进行参数估计以及选择信号的分析,其发现生长性状、产肉和腹脂性状的遗传力在0.12~0.38;结合群体分化指数(High fixation index,Fst)以及核苷酸多样性(π ratio)分析,发现基因组上39 个常染色体区域在世代之间受到选择。Liu 等[31]对2 个品系的黄羽肉鸡(2 个世代,G15~G16)进行群体遗传差异分析,发现第15 世代(G15)2 个品系的黄羽肉鸡在肌内脂肪含量性状上存在显著差异,并且在G15 发现的差异表达基因在G16 也得到验证。
“京芯一号” 对我国地方品种遗传资源分析也具有重要意义。Liu 等[32]利用IASCHICK 55K芯片对7 个贵州省土鸡(共计109 只母鸡)、3 个其他省份地方品种和2 个商业品种的群体结构与遗传多样性进行分析,发现贵州地方鸡的遗传多样性高于商业品种。屠云洁等[33]利用“京芯一号”对2 个广西麻鸡(当鸡、灵山香鸡)群体进行遗传距离和亲缘关系的分析,通过主成分分析以及遗传距离分析,发现2 个群体遗传距离较远,这就为培育优质麻鸡提供了重要的遗传资源保障。武艳平等[34]利用基因组芯片对8 个地方鸡品种(5个江西省的地方鸡品种,广东省、浙江省以及江苏省各1 个地方鸡品种)进行了遗传多样性分析,该研究结果显示,8 个地方鸡品种的遗传距离较远,遗传背景差异较大,具有较丰富的遗传多样性。这些研究也充分说明我国地方品种的遗传多样性为新品种的开发和利用提供了丰富的先决条件。
此外,55K 基因芯片在性状相关位点以及遗传机制挖掘方面也发挥了巨大作用。Yang 等[35]对873 只白羽肉鸡进行产肉量相关性状的基因挖掘分析,通过将55K 芯片填充至测序水平,然后进行全基因组关联分析,并联合选择信号等分析,最终鉴定到18 个显著的标记。其中与体重相关性状的显著关联位点集中分布在24 号染色体上大约24Kb 的区域(GGA24:5.73~5.75Mb)。Li等[36]对快长型肉鸡的生长性状和饲料利用率性状进行关联分析,最终鉴定到基因组上2 个区域分别与生长和饲料利用率性状相关联。2020 年,Li等[37]利用填充到测序水平的基因型数据,对快长型白羽肉鸡的饲料利用性状和代谢效率性状的遗传机制进行研究。2022 年,Ding 等[38]利用基因芯片对11279 只肉鸡(4 个白羽肉鸡品系,3 个黄羽肉鸡品系)的产蛋性状进行遗传机制解析,最终鉴定到9 个与肉鸡产蛋性状相关的候选基因。
随着测序成本的降低,测序数据在家禽遗传育种中也得到较为广泛的使用。Tan 等[39]利用基因组重测序数据阐释白羽肉鸡高产肉量的遗传机制,利用1061 只鸡(8 个品种)的基因组、转录组数据,从群体遗传学、数量遗传学以及生物学的角度深度挖掘肉鸡产肉性状的遗传机制,绘制了肌肉发育的基因组遗传变异和转录组的图谱信息,并提出了一个新的胸肌产量和肌病调控靶点(SOX6-MYH1s 轴)。
Zou 等[40]对现代肉鸡与过去几十年的肉鸡群体的进行重测序,通过识别选择积累的遗传变化,发现与免疫反应和生长性状具有生物学相关性的基因和途径。他们的研究结果强调了2 个基因(TLR3 和PLIN3)可能以牺牲免疫功能为代价来提高生长性能。Huang 等[41]利用重测序手段,分析了来自10 个品种的100 只黄羽肉鸡的遗传结构,发现10 个品种的遗传结构的相似程度与其分布的地理位置有关,即10 个品种的黄羽肉鸡根据其遗传结构可以分为北方群体、中部群体和南方群体。
Guo 等[42]利用简化基因组测序对233 只哈巴德肉鸡的11 个性状(轻型股骨头畸形、7 个血液指标、3 个生长性状)进行全基因组关联分析。经过质控,256599 个SNP 标记用于分析,发现血清碱性磷酸酶和股骨头畸形之间可能存在某种关系。刘天飞等[12]利用简化基因组测序对黄羽肉鸡395 只个体的6 个性状进行基因组预测,并与Illumina Chicken 60K 芯片的预测效果进行比较,发现2 种基因分型策略差异并不明显。Yang 等[43]利用低深度测序获得2 个世代的6359 只黄羽鸡的基因组数据,并用于生长性状的遗传位点挖掘和基因组预测,最终鉴定到5 个显著的数量性状基因座。
基因芯片以及其他基于二代测序的基因组检测技术,为科研人员和育种企业提供了多样化的选择,这就为基因组育种提供了坚实的条件。此外,加快肉鸡遗传进展,也需要选择合适的预测模型。
目前基因组选择已经广泛应用于动植物育种,探究最合适的预测模型,对提高育种值预测准确性,加快畜禽品种的群体遗传改良具有重要意义。在肉鸡基因组选择研究中,常用的预测模型模型可以分为2 类:①基于最佳线性无偏估计的模型(Best Linear Unbiased Prediction,BLUP),常见的有GBLUP(Genomic best linear unbiased prediction)[44]、ssGBLUP(single-step GBLUP)[45];②基于贝叶斯理论的模型,如BayesLasso[46]、BayesMix4[47]等。
基于BLUP 的方法,主要差异在于亲缘关系矩阵的构建,线性模型如下:
式(1)的矩阵形式可以写为:
式(2)中K 表示亲缘关系矩阵。
在GBLUP 中,通常采用VanRaden 等[44]提出的方法:
式(3)中M 为基因型矩阵,P 中每列元素分别为对应第i 个SNP 的最小等位基因频率pi。
在ssGBLUP 中,通过整合基因组和系谱的信息,构建H 矩阵[45,48]:
基于贝叶斯框架的方法,主要差异在于对标记的先验分布假设:
以BayesMix4 为例,假设标记先验为4 个组分的混合形式:
式(5)中,π1~π4为固定值,分别为0.889、0.1、0.01、0.001。且
基因组选择通过在利用个体的基因组信息,不依赖待留种个体的表型测定记录,进而实现早期留种。然而,对于繁殖周期短的畜禽品种,基因组选择最大的优势是提高预测准确性。
Yang 等[43]在对黄羽肉鸡的研究中,通过比较基于系谱的预测方法(Pedigree-based BLUP,ABLUP)和GBLUP,发 现GBLUP 可以提 升22.0%~70.3%的预测准确性。Liu 等[49]通过对8个家系的582 只黄羽肉鸡进行基因组选择研究,发现基于基因组的预测方法其准确性远高于基于系谱的预测方法。并且基于贝叶斯的基因组预测方法其预测准确性高于GBLUP。此外,在预测过程中,参考群与验证群有较高的遗传联系时,其预测准确性高于家系间的预测准确性。
Tan 等[30]对白羽肉鸡3 个世代的遗传进展进行分析,发现表型和遗传都取得了一定的进展,尤其是体重和肉质方面,这在一定程度上也反映了基因组选择的高效性。
测序成本的降低,在一定程度上极大的促进了对畜禽遗传机制的研究,利用测序技术挖掘影响性状的功能区域和遗传变异极大地促进了畜禽育种实践。如何有效利用测序数据挖掘的变异信息也是育种实践需要进一步解决的问题。如,结构变异和拷贝数变异通常影响表型的多样性程度,而对结构变异和拷贝数变异的编码是有效利用这些信息的重要前提;另一方面,开发有效整合多组学数据的预测模型对育种应用实践具有重要意义。