随机回归模型在畜禽育种中的应用

2021-12-03 08:20邢杰
中国畜禽种业 2021年8期
关键词:协方差方差性状

邢杰

(山西省右玉县畜牧兽医中心 037200)

畜牧业生产中,遗传改良是畜禽育种工作的重要环节,利用统计模型进行遗传性状评估是通过估计方差组分和遗传参数,采用合适的分析模型,在众多动物群体中借助混合线性技术,在较短时间内筛选出优良的目标性状,并加以固定。作为一种数据分析模型,随机回归模型(RRM) 有着广泛的用途,应用于社会经济诸多领域。早期RRM 主要应用于奶牛泌乳、生长等性状的预测评估,Meyer 等证明,协方差函数和RRM是等价的,并将其用于分析纵向数据或重复记录,用来解释由动态性状在不同个体间动态变化而导致的遗传差异[1]。随着此模型的普及与优化,人们逐渐将其用于肉牛、羊、猪及禽类(以鸡为主)等其他畜禽相关性状的遗传评估,从对单一或少数性状转变到多个不同性状的评估分析,这也是RRM 的不断完善与推广的漫长过程。

1 随机回归模型的理论基础

1.1 回归分析思想的建立与应用

回归分析是一种预测性的建模技术,它研究的是因变量和自变量之间的关系,通常用于预测分析时间序列模型及发现变量之间的因果关系。如通过对奶牛泌乳期各个阶段产奶量与泌乳时间、环境等相关性的分析来确定产奶性状的优劣就是回归分析方法的一种运用。回归分析是建模与分析数据的重要手段,利用它能找出自变量与因变量之间的显著关系,并显示多个自变量对一个因变量的影响强度。在7 种回归分析技术中,线性回归和多项式回归是常用于畜禽遗传评估的两种回归分析技术。线性回归的因变量是连续的,自变量可以是连续的,也可以是离散的,线性回归使用最佳拟合直线建立因变量与自变量之间的关系,一元与多元线性回归的区别在于,前者只有一个自变量,而后者有多个。多项式回归则是一种运用自变量指数大于1 的回归方程,其最佳拟合线不是直线,而是用于拟合数据点的曲线。

1.2 随机回归模型的提出

随机回归模型(RRM)分析法最早由Henderson 等(1982年)提出[2],随后Schaeffer 和Dekkers(1994 年)提议将此方法用于动物育种研究领域[3],Meyer 和Hill (1997 年) 证明,RRM 和协方差函数是等价的,并将其应用于分析纵向数据或重复记录,即用于分析动物生命过程中的一定时期收集的有关性状记录[1]。因此,Meyer 和Hill 的研究是对RRM 应用的早期完善。

1.3 随机回归模型的引入

沿轨迹进行的测定通常可建模为定义该轨迹参数的函数。重复测定经常被人们用于描述性状随时间的变化,而处理重复测定的模型常常被用于动物生产,如对奶牛多个泌乳记录的分析就是经常使用“重复模型”,从遗传学的角度看,这种模型的典型特征是重复记录被认为是对同一性状的表达,即重复泌乳记录之间的相关性被认为是统一的。这类模型能专门描述按时间回归的变化(如泌乳曲线和生长曲线),对这种变化的分析可能揭示其影响变量产生的原因,而相应参数在品种内也可能存在加性遗传变异。分析途径是估计每个动物的曲线参数和确定此类参数的变量组成,也可以使用模型来分析回归系数在动物间改变,这样的回归系数不固定,但允许按指定分布而改变,从而表现为随机回归系数[4]。

1.4 随机回归模型的分类

1.4.1 基于重复率模型的随机回归模型

这种模型有多种形式,Schaeffer 提出的RRM 是较为典型的一种,其表达式如下:

其中y 为测定日产奶性状观察值,x 为对应的协变量,HTD 为牛群的测定日固定环境效应;a,p 分别是加性遗传效应和随机永久环境效应的随机回归系数,∑ajxj和∑pkxk分别为随机回归部分;b 为回归系数,∑bixi为固定回归部分,用来拟合群的泌乳曲线;e 为随机残差。

基于重复率模型的常用于分析奶牛的产奶记录(泌乳曲线),另外Schaeffer 等还提出使用此模型对动物生存性状进行分析[5,6]。

1.4.2 基于母体效应

此模型将基于重复率模型的RRM 的加性遗传效应分为直接遗传效应和母体遗传效应,基于母体效应的是基于重复率模型的一种,对应母畜,还有一种基于公畜模型的RRM,其性质与此模型类似[6]。

1.4.3 二维随机回归模型

将两个随时间改变的性状对应的时间尺度同时作为分析性状测定的时间尺度,此模型即可称为二维RRM。如使用此模型分析泌乳期记录时,就需要将泌乳天数和胎次同时作为时间尺度。二维RRM 在早期应用过程中,有时人们并不考虑不同性状的时间尺度之间的相互作用,但实际上它们之间的确存在相关性,从而导致该模型的估计值不够准确[6]。

1.5 随机回归模型经常使用的统计理论

1.5.1 协方差函数的应用

协方差函数可定义为给出轨迹不同点测定性状的方差和协方差的连续函数,此函数可用于描述表型协方差结构。在RRM 中,使用协方差函数的优点类似于使用回归,因为协方差函数允许:(1)协方差随时间逐渐变化;(2)协方差和时间差异之间存在关联性;(3)预测轨迹点的方差和协方差函数,或即使观测点很少,但能使用来自所有其他测定的信息。协方差函数给出我们如何用变化的参数恰当描述随时间不断改变的性状,这一点对含有遗传参数的评估模型尤为重要,协方差函数给出了我们处理此类变化的信息,即我们到底如何处理和分析生长曲线和泌乳曲线,协方差函数为分析相应模型中的独立方差分量提供了方法,这种方差分量揭示了性状随时间改变的特有模式[4]。

1.5.2 方差分量(或遗传参数)的估计

1.5.2.1 基于似然函数的估计

当似然函数取得最大值时,说明采样数据发生的概率最大,我们称其为最优(或最大)似然函数。最大似然法(ML)、约束最大似然法(REML),ML 法和REML 法都是以使观察值或观察值的线性组合的似然函数达到极值的原则来估计方差组合。根据迭代法的不同,REML 又可分为最大期望约束最大似然法(EMREML)、非求导约束最大似然法(DFREML)和平均信息约束最大似然法(AIREML)[7]。

1.5.2.2 基于线性模型的估计

按照最佳线性无偏估计的原则去估计线性模型的固定效应和随机效应的方差分量估计法称为最佳线性无偏估计法(BLUP),该法使用的数学模型是混合线性效应模型,因此,它将选择指数法和最小二乘法有机结合起来。除了BLUP 法外,最小范数二次无偏估计法(MINQUE)和最小方差二次无偏估计法(MIVQUE)也是两种方差分量的无偏估计法,但不如BLUP 法常用,这两种方法均适用于所有混合模型。另外,最小二乘法也是一种模型曲线的拟合方法,最早由法国勒让德提出,常用于估计方差分量[8]。

1.5.2.3 贝叶斯法(Bayesian approach)估计

贝叶斯法是一种重要的方差分量估计方法,此法将当前信息和先验信息结合起来,先验密度与似然函数的乘积等于后验密度,此法能对数量性状和阈性性状进行方差组分估计[8]。

1.5.3 两种常用的回归方法

1.5.3.1 勒让德多项式(Legendre polynomials)回归

Legendre 多项式回归是描述两个变量在[-1,1]上正交的序列函数(或多项式集合),因变量通常是随机的且服从某种分布,自变量通常由观测者决定的一些时间点来校正,模型可以选择与时间点个数相同的多项式阶数,这样可以准确描述数据,虽然缺少一般性,但此类函数的优点在于具有正交性,由于存在正交条件高阶项系数趋于零,并且增加和删除一个项对其他项没有影响。在生物学中,绝大部分曲线都可使用三阶、四阶或五阶多项式来表示。

1.5.3.2 样条回归

样条回归是一种特殊的函数,由多项式分段定义,一般的样条是自然的三次样条。样条回归可以看作一个逐段回归或分段回归,即把数据分为几段,在一段内分别拟合模型,每一段内可以拟合直线、二次项、三次项等,根据实际情况而定,与多项式回归相比,样条回归拟合效果更优,而拟合模型的最终目的都是寻找相对较优的模型。在特定回归模型(如给定的RRM)中,经常将样条回归用于拟合协方差结构的分析中。

2 随机回归模型的优点与缺陷

2.1 优点方面

当RRM 侧重于分析测定日记录或纵向数据时,其优点在于能以较少参数准确拟合性状的协方差,能灵活地与生产测定计划相结合,能较准确地消除测定日记录中的环境效应,能用于拟合个体泌乳曲线与群体一般性状产生的偏差,提高奶牛305d 产奶量的遗传评估准确度[6],RRM 的优点还在于可利用特征值系数有效改变性状曲线,能对不完整记录进行处理[9]。

2.2 缺陷方面

2.2.1 表现在等价协方差函数的使用上

给定时间内的多次测定值可视为多重性状,但在时间推移中,测定值可能时间分布,理论上,多性状方法包含无数个性状,而实际上很多性状的数据都可能会丢失(除非我们进行连续测定),采取简化的方式就是将特定时间的表达定义为独立性状,从而达到限制性状数量的目的,但却存在这些缺陷:(1)我们将协方差结构拟合为不连续的结构,但实际上它是连续的;(2)在正确解释同一时间段的更多测定值时,这种做法更显单调烦琐;(3)针对许多不同年龄性状的多性状模型,其缺陷在于相关性矩阵不具有结构性[4]。

2.2.2 表现在数据分析的便利程度上

RRM 本质上是一种带有随机效应的回归模型,一般来说,随机效应模型得出的结论偏向保守,置信区间较大,更难发现差异,带给我们的信息是,如果各个试验的结果差异很大时,是否需要把各个试验合并往往需要我们慎重考虑,因而难以很快获得较为客观的结论。

2.2.3 表现在使用随机回归模型需要的计算量上

在进行多元随机回归分析时,常出现计算量大幅上升现象,而拟合种群或亚种群平均增长曲线的参数也可以用于RRM,这同样适合于拟合回归模型所需的参数数量,但这种情况下,对于待分析(大型)动物育种数据,更多的随机回归系数会使计算量迅速增加[4],这都是我们不愿面对的。另外,在使用基于RRM 的单步最佳线性无偏估计法(ssBLUP)时,其主要限制因素仍然是分析大数据集所需要的计算时间[10]。

3 随机回归模型的优化

3.1 优化手段

从Legendre 多项式阶此组合的优选分析入手,寻找该模型的随机效应对性状曲线(如生长曲线和泌乳曲线)的最佳拟合点。

3.2 优化目标

将更多的随机回归效应纳入至随机回归模型中,以期达到更加准确的评估分析结果。

4 随机回归模型在畜禽育种中应用举例

4.1 随机回归模型在奶牛育种中的应用

4.1.1 随机回归—测定日模型的应用

奶牛育种的主要目的在于选择不断提高群体产奶性状的遗传水平[5],不过这也是奶牛遗传育种的难点之一,产奶性状极易受其他数量性状和环境的共同影响,且环境效应影响很大。性状选择遗传评估主要是通过估计育种值(EBV)实现的,可以使用多性状回归测定日模型(MMRRM-TDM)进行EBV 评估,MMRRM-TDM 利用来自测定日记录的信息对个体进行EBV 估计,进而利用不同定义阶段的EBV 值对种公畜进行遗传评定和性状分析,通过持续力EBV 对泌乳曲线进行遗传改进[10]。

4.1.2 基于线性样条的多性状随机回归模型的应用

在不同遗传组成的种群中使用不同的选择强度和特定的选择过程,纯种和杂交奶牛之间的差异和协方差可能发生在多个品种群体中,制定和实施考虑基因型手段、亲属间遗传力协方差的遗传评估及每个不同品种群体存在的特定遗传方差,有助于多品种群体的基因改良。线性样条RRM(RRMLS)适用于获得多品种群体的遗传参数,不同品种组成的后代群与种公牛的BV 会发生交互作用[11]。

4.2 随机回归模型在肉牛育种中的应用

国外专家曾尝试对该国的Hays Converter(HC)牛进行遗传参数和遗传趋势的评估,他们联合应用了MMT 和RRM 这两种评估模型。研究显示,外观检查和使用作为候选肉牛的个体表型可能不会对肉牛的性状选择产生最大限度的影响,使用估计育种值(EBV)作为选择基础,预计将会更快地产生改良基因。该遗传评估引入了当代群体(CG)这个效应值,该效应在RRM 中被认为是随机的,则预测估计方差会减小,因为那些更多已收集到的信息被用于预测EBV[12]。

4.3 随机回归模型在蛋鸡育种中的应用

体重也是鸡体健康的标志之一,与肉鸡及其他家禽相比,从目前已取得的研究成果看,国内专家曾以白来航鸡与东乡绿壳蛋鸡F2资源群为研究对象,根据已收集的数据,对这两种蛋鸡的遗传参数作出评估。研究显示,RRM 可用于蛋鸡早期体重选育,但RRM 的应用和优化应紧扣研究目的,且高阶多项式适用于估计遗传参数,而低阶多项式则更适用于EBV[9]。

4.4 随机回归模型在绵羊育种中的应用

在家畜生长性状中,体重是一个重要且容易测量的经济性状,家畜生长发育过程中各阶段的体重(包括初生重、断奶重和周岁重等)是生长性状遗传力评估模型中的常用方差分量。国内专家曾以考力代绵羊作为试验对象,对其体重生长的遗传参数和协方差函数进行分析和评估,他们根据似然比检验(LRT)筛选出用于考力代绵羊多性状遗传分析和协方差函数估计的最佳模型[13]。

5 随机回归模型应用前景展望

RRM 是处理包含随机效应的回归分析方法,与具有等价作用的测定日模型(TDM)、协方差模型一样,都是分析纵向数据的常用模型,但对特定时间点的纵向数据(针对多性状模型)分析而言,很明显只需要考虑性状间随机效应(即加性遗传效应、永久环境效应等)的相关性,因而,随机参数数量有限,但在实际应用中,这种情况几乎不存在,因为不考察性状沿时间改变的趋势和走向,对性状的预测和估计便无从谈起,因而,重复测定是人们获得可靠评估分析的必需,但却是最简单直接的手段,但一定限度内的测定次数,无论从计算量还是分析难度方面讲,RRM 都能发挥其处理大样本且结果准确的优点,同时从建模计算的发展前景来看,借助计算机软件处理复杂计算似乎早已成为趋势,至少计算量大的问题一定限度内是可以克服的,但随着重复测定次数的增加,带来的不仅是计算量的增加,而是性状测定频率难以把握和数据结果分析的复杂程度,因为重复测定的目的之一就是考察同一性状在不同时间点的相关性高低,这是影响遗传性状评估准确性的重要因素,如果时间间隔过大,相关性可能为零,过小一则测定工作量太大,再则最终产生的随机效应参数太多,从计算量上和数据分析上(每一协方差参数都要作出估计,都要与目标曲线进行拟合)都是巨大的挑战。另外,重复测定的均匀程度也间接关系到最终结果的准确性。另有研究显示,RRM 对稀疏数据很敏感[12],这又间接说明,随着重复测定次数的增多和时间间隔的缩小,RRM 对数量激增的随机效应参数的敏感度变小,这种情况同样会影响最终分析结果,因而使用此模型可能难以获得十分可靠的评估结果。对于RRM 的应用前景展望,很多人都把此模型能处理更多的随机效应作为其准确分析试验效应的重要条件,但很少有人探讨其具体的实现途径,从上述分析可以看出,不断优化模型结构,寻求更为便捷、快速的计算处理手段,努力探索增加随机效应,是提高评估准确性与参数增多带来分析不便之间的最佳解决方案(如使用样条函数拟合协方差结构就是一种有益尝试),这几点应该是RRM 在未来发挥其应有作用的关键所在。

6 结语

将数理统计学模型应用于畜禽育种研究工作中,对现代畜牧业发展具有里程碑意义。无论哪个畜种,在具体育种工作中使用何种模型,应视其研究目的和方向的不同灵活应用,扬长避短,只有这样才能发挥其应有作用,人们对随机回归模型的不断优化及其应用畜种的不断增多充分体现了这一点,而随着计算处理条件和分析手段的进一步提高,相信该模型会受到业内人士更多的关注。

猜你喜欢
协方差方差性状
“7532B”母种不同系统性状比较
概率与统计(2)——离散型随机变量的期望与方差
鉴定对照种“菁松×皓月”的茧丝质性状稳定性分析
一种改进的网格剖分协方差交集融合算法∗
投资组合中协方差阵的估计和预测
基于子集重采样的高维资产组合的构建
方差生活秀
揭秘平均数和方差的变化规律
方差越小越好?
二维随机变量边缘分布函数的教学探索