庞志旭,张洪志,乔利英,王万年,潘洋洋,刘文忠
(山西农业大学动物科学学院,太谷 030801)
基因组选择(genomic selection, GS)目前已广泛应用于畜禽遗传评估。相对于基于系谱的最佳线性无偏预测(best linear unbiased prediction, BLUP),基因组选择能有效提高基于表型的预测准确性、缩短世代间隔和加快遗传进展。然而,由于基因分型成本较高,通常只测定育种群中关键个体的基因型,因此,经典基因组预测方法只能利用部分个体的基因型和表型信息。为解决这一问题,Legarra等及Christensen和Lund提出了基因组选择一步法(single-step genomic BLUP, SSGBLUP)。一步法通过有效整合群体所有个体(包括有基因型和没有基因型信息个体)的系谱、表型和基因型信息,提高了基因组估计育种值(genomic estimated breeding value, GEBV)的准确性。
基因组选择的准确性与参考群的大小密切相关,参考群规模越大,基因组选择效果越好。而我国由于很多核心育种场规模较小,基因组选择的效果不理想,对此我国制定了基因组联合育种方案。使用SSGBLUP法进行基因组联合育种,由于多个群体之间的基因型频率不同,群体间没有系谱上的关联,不同群体个体间亲缘关系为0,群体间不能进行有效的关联,基因组关系矩阵与系谱亲缘关系矩阵难以兼容,造成基因组联合育种效果不理想。
为解决矩阵与矩阵不兼容的问题,Legarra等和Christensen提出了元共祖(metafounder)的概念。元共祖是用来描述基础群内部关系的伪个体,可以理解为一个无限大小的配子池。基础群的个体就是由配子池随机抽取配对形成,各配子之间的共亲关系(coancestry relationship)为2。多个元共祖之间的亲缘关系为祖先关系矩阵(ancestral relationships),基于矩阵与矩阵构建()矩阵。含元共祖的一步法(single-step method with metafounders, MF-SSGBLUP)使用0.5为等位基因频率构建矩阵并与()矩阵联合构建()矩阵,可以自动兼容矩阵与矩阵。
将MF-SSGBLUP应用于基因组联合育种不仅可以解决矩阵和矩阵的兼容性问题,也解决了多个群体基因型频率不同的问题,并且在()矩阵构建过程中加入了祖先关系矩阵,可以在不同群体个体间建立亲缘关系,将多个群体产生关联。
为了研究MF-SSGBLUP在基因组联合育种中的有效性,本研究基于多个模拟群体进行以下研究:1)比较MF-SSGBLUP法和SSGBLUP法构建的矩阵与矩阵的兼容性;2)比较MF-SSGBLUP、SSGBLUP和BLUP的遗传参数估计结果;3)对MF-SSGBLUP在基因组联合育种中的使用效果进行评估。
本研究使用QMSim模拟2个具有不同遗传力(0.1和0.3)的限性性状,表型方差设置为1,每个性状进行10次重复。历史群体起始规模为5 000头,经过1 000个世代,群体衰减为250头,再经过100个世代,群体扩增为1 000头,通过群体规模的波动达到与真实群体相似的连锁不平衡(linkage disequilibrium,LD)程度,并且建立了突变漂变平衡。整个历史群体公、母比例保持1∶1,个体间采取随机交配。模拟3个扩增群体(Line1、Line2、Cross),世代数为10,每个世代增长率为60%,个体间采取随机交配。扩增群体模拟策略为:1)在历史群体的最后一个世代中抽取真实育种值较高的10头公畜和100头母畜构成Line1的初始群体,抽取真实育种值较低的10头公畜与100头母畜构成Line2;2)从Line1的第10世代中抽取100头公畜,从Line2的第10世代中抽取100头母畜,构成Cross1的初始群体(图1)。
Line1、Line2和Cross代表不同的扩繁群体,Pop1、Pop2和Pop3代表不同的当代群体Line1, Line2 and Cross correspond to different expansion populations, while Pop1, Pop2 and Pop3 correspond to different current populations图1 群体结构模拟策略Fig.1 Simulation strategy for population structures
分别从3个扩增群体的第10世代中抽取EBV高的20头公畜和180头母畜构成3个当代群体Pop1、Pop2和Pop3(图1),世代数均设为10代,设置3个元共祖对应3个群体。模拟中,每代公畜淘汰率为30%,增长率为10%;母畜淘汰率为20%,增长率为10%。每代公、母畜间随机交配。假定所研究畜种为单胎,每头母畜后裔数为1,后裔公、母各半,选择EBV高的个体留种。保留当代群体第1~9 世代所有母畜的表型信息,将第1~9世代作为参考群,将第10个世代作为候选群。
本试验模拟奶牛的基因组,共设置29对染色体,全长为2 333 cM,性状受到1 000个随机分布在全基因组中的数量性状基因座(quantitative trait loci, QTL)影响。QTL效应值服从形状参数为0.4的伽马分布。模拟50 000个均匀分布于全基因组上的SNP标记。设置起始历史群体SNP和QTL等位基因频率均为0.5,每个位点突变率为10,标记位点的错误率为0.5%。选取群体后5代有后裔的公畜和最后2个世代的所有个体都进行基因分型。对模拟产生的基因型数据进行质量控制,删除次要等位基因频率低于5%的基因型。经过质量控制,对于为0.3的模拟数据,保留的SNP标记数为47 313,10次重复的方差为173.5;对于为0.1的模拟数据,保留的SNP标记数为47 289,10次重复的方差为168.7。
(1)
(2)
其中,=(1-)+w,为加权因子(设为常数0.05),矩阵能避免矩阵无法求逆的问题,且通过混合矩阵解释了一些基因型标记未能解释的效应。考虑到矩阵与矩阵兼容性的问题,使用矫正后的矩阵:=β+,其中,和通过以下方程组求解得出:
(3)
1.2.2 MF-SSGBLUP MF-SSGBLUP法的MME为:
(4)
其中,()为:
(5)
祖先关系矩阵构建方法为:=8=8(),其中是一个矩阵,行数为总标记数,列数为群体数,的元素代表第个标记在第个群体中的频率;是维度等于群体数的一个方阵,其中对角线元素为该群体基因型频率的方差,非对角线元素为两个群体间基因型频率的协方差。本研究使用两种方法计算矩阵,以对两种方法的性能做比较。一种方法是只使用基因型数据来估计的原始方法(naïve,NAI):
=μ+
(6)
(7)
其中,为基因分型个体第个位点的基因型,由{0,1,2}组成;是一个将元共祖与后代个体联系起来的矩阵,每行元素之和为1;为各群体在第个位点的基因型均值向量;为误差向量。所有位点的基因型均值为=[…]。由于,=2,所以,=2()。
第二种是同时利用基因型与系谱信息计算矩阵的广义最小二乘法(generalized least squares,GLS):
=μ+u+
(8)
(9)
1.3.1 基因组关系矩阵与系谱亲缘关系矩阵的兼容性 用对角线元素与非对角线元素之间的相关系数()、回归系数()和回归截距()3个指标来评价矩阵与矩阵之间的兼容性。相关系数是矩阵与矩阵对角线元素之间和非对角元素之间的皮尔森相关系数:
(10)
其中,和分别对应对角线元素与非对角线元素,为协方差,为方差,相关系数越高表示相关性越好。
回归系数与回归截距是通过构建矩阵对角线元素(非对角线元素)对矩阵对角线元素(非对角线元素)的回归方程:
(11)
回归系数越接近于1,回归截距越接近于0,表示无偏性越好。
1.3.2 模型评价 用准确性(accuracy)和无偏性(bias)来比较不同模型的性能。准确性通过EBV与TBV之间的相关系数衡量:
无偏性用GEBV对TBV的回归系数来衡量:
回归系数越接近于1越好,用=|1-|衡量无偏性。
模拟的3个当代群体(Pop1、Pop2和Pop3),个体总数为8 430。其中,参考群和候选群个体分别为7 404和1 026个,基因分型个体为2 103个,具有表型的个体约为3 702个。
为了评估模拟产生的群体遗传结构,利用3个群体的基因组标记信息进行主成分分析(principal component analysis, PCA)。由于10次模拟的群体遗传结构相似,仅展示第1次模拟结果(图2)。为0.1时,群体前两个主成分所解释的方差占总方差的百分比分别为9.906%和6.081%;为0.3时,分别为9.049%和7.479%。表明模拟的3个群体具有明显的遗传差异。
图2 模拟的3个群体间的遗传差异Fig.2 The genetic differences among 3 simulated populations
使用GLS和NAI法对矩阵进行估计。为0.1时,10次重复的均值为:
为0.3时,10次重复的均值为:
矩阵为元共祖之间的关系矩阵,元素的值反映了元共祖之间的亲缘关系。在不同下,矩阵差异不大,说明不同下基础群个体间亲缘关系相似。矩阵对角线元素的值普遍大于非对角线元素,表明在同一个基础群体内的个体亲缘关系高于不同基础群体个体间的亲缘关系。对角线元素略小于的对角线元素,非对角元素之间没有差异。
兼容性通过亲缘关系矩阵与基因组关系矩阵的对角线(非对角线)元素的相关系数、回归系数和回归截距来说明,其中相关系数与回归系数越接近于1,回归截距越接近于0兼容性越好。通过矩阵和矩阵分别构建()和()矩阵,并计算与矩阵的兼容性,用常规SSGBLUP法构建的矩阵与进行对照,结果见表1。在不同下,()~和()~对角线(非对角线)元素相关系数0.750~0.775(0.954~0.964)、回归系数0.859~0.992(0.639~0.812)和回归截距-0.013~0.135(0.071~0.098)均显著(<0.05)优于~相关系数0.508~0.572(0.723~0.738)、回归系数0.543~0.652(0.683~0.745)和回归截距0.374~0.493(0.134~0.139),表明元共祖法构建的矩阵与矩阵间兼容性更好(表1)。
表1 3种方法构建的G和 A22矩阵的兼容性比较Table 1 Comparison of compatibility between G and A22 matrices constructed by 3 methods
表2为10次重复下MF-SSGBLUP(GLS)、MF-SSGBLUP(NAI)、SSGBLUP和传统BLUP对方差组分和估值的均值和方差与当代群体遗传参数的对比。在初值为0.1和0.3的群体中,4种方法对的估计值介于0.138~0.173和0.273~0.340,与当代群体遗传力0.107和0.296相符。此外,两种MF-SSGBLUP在不同下对方差组分的估值比SSGBLUP和BLUP法更接近于真值,表明MF-SSGBLUP法在遗传参数的估计上要优于SSGBLUP和传统BLUP法。
表2 4种方法估计的方差组分和遗传力Table 2 Estimated variance components and heritabilities by 4 methods
图3为4种方法估计育种值的准确性和无偏性。在为0.1情况下,两种MF-SSGBLUP 的准确性均为0.888,MF-SSGBLUP(GLS)的无偏性均值为0.030,MF-SSGBLUP(NAI)的无偏性均值为0.032,SSGBLUP为0.863和0.066,传统BLUP为0.854和0.078;在为0.3情况下,两种MF-SSGBLUP的准确性和无偏性均值均为0.908 和0.029,SSGBLUP为0.876和0.057,传统BLUP为0.871和0.067。不同下,两种MF-SSGBLUP的准确性与无偏性显著优于SSGBLUP与BLUP法(<0.05),而MF-SSGBLUP的两种算法(GLSNAI)间则无显著差异。以上结果表明,在基因组联合育种中,MF-SSGBLUP法有一定优势。
不同大写字母表示差异极显著(P<0.01),不同小写字母表示差异显著(P<0.05)Different capital and lowercase letters mean significant differences at P<0.01 and P<0.05, respectively图3 4种方法估计育种值的准确性与无偏性比较Fig.3 Comparison of accuracy and unbiasedness of estimating breeding values by 4 methods
用MF-SSGBLUP法进行遗传评估已有报道,并且均表现出一定的优势,但是在基因组联合育种中还未应用。本研究模拟了不同(0.1和0.3)的性状,使用传统BLUP法、SSGBLUP法和MF-SSBLUP法进行遗传评估。其中,用GLS和NAI两种算法估计祖先关系矩阵。Bradford等指出,矩阵不依赖表型信息,只与基因型信息与系谱信息相关。本研究在不同下获得的矩阵数值上差异不大,是因为不同下模拟的群体结构类似。不同情况下,GLS法和NAI法所得的矩阵非对角线元素间差异不大,而对角线元素则有明显差异,即NAI法所得的元共祖近交系数高于GLS法。Garcia-Baccino等发现NAI法对矩阵中的元素估值偏高,GLS法能有效获得矩阵的无偏估值,与本研究结果相符。本试验中基因分型个体都是经过了多个世代的选择,部分基因型频率漂变到极端值, NAI法忽略了这一部分的影响,GLS法考虑了基因型在世代间的传递,将系谱信息纳入模型之中,因而更为准确。
对比不同方法构建的矩阵与矩阵,发现()~和()~兼容性要优于~,这与Kudinov等在丹麦红牛上的研究成果相似。Christensen指出基因分型个体与所有个体间育种值平均值的差异导致了矩阵与矩阵的不兼容。一些研究通过调整矩阵使其与矩阵相兼容,但是都没有从本质上解决问题。元共祖法与之相反,通过调整矩阵,达到与基因型关系矩阵相兼容的目的。VanRaden指出,矩阵中的元素为亲缘相关的期望值,然而在基因组联合育种中由于多个群体在系谱上没有关联,不同群体个体间相关关系为0,这与基因组关系矩阵在不同群体个体间亲缘相关大于0的情况相悖。基于元共祖构建的亲缘关系矩阵,不同群体中个体间的相关关系通常不为0。()~在非对角线元素的回归系数与回归截距上要优于()~,这可能是因为GLS法获得矩阵的估计值比NAI法无偏性更好。
在Garcia-Baccino等的研究中,传统BLUP估计的更接近于真值。然而,本研究显示,两种算法下,MF-SSGBLUP法遗传参数估值的无偏性较好,可能是由于3个模拟群体没有系谱关联导致了传统BLUP对遗传参数估计的准确性下降。
Garcia-Baccino等的研究指出,在基因组选择中,MF-SSGBLUP比SSGBLUP法能获得更高的准确性与更小的偏差。Bradford等设置了3个 不同的元共祖,对于为0.3和0.1的性状,与SSGBLUP和BLUP相比,MF-SSGBLUP能获得更高的准确性。而且,Bradford等在系谱缺失情况下,发现MF-SSGBLUP法所得结果的一致性最好,能有效减少由于系谱缺失造成的偏差。Xiang等和Van Grevenhof等分别在二元杂交系统与三元杂交系统中验证了元共祖方法的优越性。本研究中,两种算法的MF-SSGBLUP法的遗传评估准确性均显著高于SSGBLUP和BLUP法,且EBV的偏差更小,与前人研究结果相似。两种MF-SSGBLUP算法的准确性与无偏性没有明显差异,说明GLS和NAI两种算法估计的矩阵对EBV的准确性没有较大影响。但是,GLS能获得更加无偏的矩阵,且通过构建的矩阵与矩阵兼容性更好,所以,建议使用MF-SSGBLUP(GLS)进行基因组联合育种。
用MF-SSGBLUP对多个模拟群体进行基因组联合育种研究,发现MF-SSGBLUP通过估计多个系谱独立群体的元共祖间亲缘关系,优化多群体联合育种的关系矩阵,可有效提高遗传力和育种值的估计准确性和无偏性。因此,MF-SSGBLUP能有效解决多群体间系谱独立和基因频率差异的问题,在基因组联合育种中具有良好应用潜力。