检测控制动态性状的QTL随机回归模型

2017-08-08 19:35周晓晶何倩毓张巧生
安徽农学通报 2017年14期
关键词:模拟样条

周晓晶 何倩毓 张巧生

摘 要:表型值随着时间(生命时期、年龄、胎次等)或其他可以量化的因素(生理状态、生产水平、代谢率和环境条件等)变化的性状称为动态性状,如产蛋、泌乳和生长等性状皆属此类。该研究基于随机回归模型思想,提出了检测控制动态性状的多个数量性状位点(QTL)的贝叶斯定位分析方法,在这里视B样条(B-spline)函数作为子模型。计算机模拟试验验证所建议分析方法的统计强度和QTL参数估计精度。相比于Legendre多项式,由低阶多项式構成的样条函数更广泛的应用于非参数的数据分析,并且能很好的回避龙格现象。实际数据集分析了包含有420头中国荷斯坦奶牛的胸围数据,并且得出了具有生物学意义的结论。

关键词:动态性状;随机回归模型;B-样条;模拟

中图分类号 Q348 文献标识码 A 文章编号 1007-7731(2017)14-0030-05

Abstract:Dynamic traits are those phenotypic values change with time and other quantifiable factors such as age,parities,physiological status,performance level and environment etc.On the basis of random regression models(RRM),Bayesian mapping measure has been developed to detect the QTLs controlling dynamic traits,in which the B-spline is imbedded into the RRM.The computer simulation experiments were conducted to demonstrate the statistical powers of QTL detection and the precision of QTL parameter estimation.Compared to the Legendre polynomial,the splines that construct curves from pieces of lower degree polynomials smoothed at selected pointed(knots)are more commonly used in nonparametric data analysis,which seldom have oscillations at two extremes of the curve.A real dataset with approximately 420 China Holstein cows,which contains the records of the chest from the local dairy farm was analyzed and the biological conclusions were derived.

Key words:Dynamic Traits;Random regression model;B-spline;Simulation

动物体的很多经济性状是随着时间(生命时期、年龄、胎次等)或其他可以量化的因素(生理状态、生产水平、代谢率和环境条件等)变化的,称为动态性状。这些性状广泛存在于生物和医学领域,如生长和发育性状、产奶量、产蛋量、泌乳和生长等性状。任何动物和植物的发育同时经历系统的和个体特异性发育过程,QTL是整个基因组中控制该发育过程的系统组成部分的基因。由于动态性状在育种和生产中特殊的经济地位,揭示这类性状遗传规律及其改良提高的研究工作尤显重要。

关于控制动态性状的QTL检测方法较多,其中随机回归模型能够拟合每个QTL的遗传效应的动态模式,该方法不仅能够检测控制动态轨迹的QTL,而且能够推断任意时间点的QTL。随机回归模型已是分析纵向数据或者重复记录数据常用方法,有各种形式的随机回归模型,如基于重复记录的随机回归模型,基于母体效应的随机回归模型,二维随机回归模型等等。随机回归模型因其能灵活地描述个体在不同时间点的基因表达而备受关注。随机回归模型在动物育种中的应用范围已覆盖到奶牛性状的遗传评估、体质评分、采食量、生长性状、生存性状、环境互作的表型值等。随机回归子模型是建立随机回归模型的关键因素,不同的子模型将导致动态性状遗传参数估计值相当大的差异。标准化的多项式是正交多项式的一种,广泛应用于大型农场动物的各种动态性状育种值的遗传评估。

非参数的Legendre多项式广泛应用于定位动态性状基因位点。高阶的Legendre多项式能够很好的拟合方差和均值的变化,但是,这样的多项式经常在极值点高估观测值,导致龙格现象,也就是说,由于曲线上极值点处的振荡,曲线的拟合度随着阶数的升高而显著降低。并且关于动态性状的基因定位分析方法几乎都是建立在试验研究基础上的。相反,B样条函数(B-spline)能够更广泛的应用于非参数的数据分析去推断变量的经验分布。1974年,Gordon和Riesenfeld用B样条基函数代替了Bernstein基函数,构造了B样条曲线。B样条曲线分段组成。每一段的参数t的区间为[0,1]。这样就克服了Bezier曲线的缺点:改变Berier曲线任意一个控制点,曲线上的所有点都变换。BSpline曲线的优点:修改某一控制点只引起与该控制点相邻的曲线形状发生变化,远处的曲线形状不受影响。spline曲线段由几段低阶多项式构成,他们在选择点相连接,这些选择点就是所谓的节点。同使用多项式分析比较,B-spline可以提供更加准确的遗传特征函数的估计值,而且不易出现端点异常的现象,这是由于在每个区段内使用了低阶多项式的原因。一个好的随机回归模型应该包含一组固定曲线,这些曲线可以描述不同群体变量之间的表型相关和加性遗传效应与永久环境效应的随机回归部分;还可能存在其他的随机回归因素,例如群体效应和母体遗传效应。

Meyer采用牛奶产量测定日记录模型分析澳大利亚安格斯牛的生长性状,在该文中,作者比较了随机回归模型的11个不同组合,他们分别是二次和三次的B样条曲线,结点个数达到了6个。通过计算,拟合生长性状的最优随机回归模型为带有3个结点的三次B样条曲线。

本研究基于随机回归模型提出了贝叶斯检测方法,在这里,B样条函数作为子模型来表征群体均值的动态性、QTL效应和指定个体的随时间独立的环境效应。计算机模拟说明方法的有效性,实际数据集来源于当地牧场的奶牛数据,包括420个个体的胸围记录,试图得出具有生物学意义的结论。

1 研究方法

2 模拟

进行模拟实验验证基于贝叶斯B样条(B-spline)的检测动态性状的定位分析方法的有效性和适应性。在贝叶斯分析的框架内,视B样条函数为回归模型的子模型,能够同时描述群体均值、多个QTL的遗传效应,以及其他环境因子随时间的变化。我们知道,在功能定位中采用的Logisitic曲线由于其不可加性,不能实现同时检测多个QTL。

以含有150个独立个体的回交群体为例。每一基因位点包含两种基因型。在长度为600cM的染色体片段上等距离设置61个共显性分子标记。放置10个控制动态性状轨迹的QTL。假定性状表型值随时间的变化及加性效应随时间的变化服从带有4个节点及2阶多项式的B-spline。每个个体的初始时间点指定为10,20,30,40,50,60,70,80,90,100。4个节点选取为10,40,70,100。节点的选择是至关重要的,节点过多导致过高拟合,节点太少导致拟合效果差。

对于模拟数据集,用阶数分别为4,5和6阶的Legendre多项式替换B-spline,来检测模拟的10个QTL。当然,4阶Legendre多项式和B-spline具有相同个数的回归系数。同时,我们希望5阶和6阶Legendre多项式相比于4阶Legendre多项式具有较高的拟合度。接下来,在相同的实验设计下,利用Legendre多项式生成模拟数据,然后利用贝叶斯B-spline检测QTL。

3 实例分析

动物资源群体来源于大庆本地牧场——红骥牧场。奶牛品种为中国荷斯坦奶牛,重要经济性状为胸围动态性状,测定时间为2010年1月至2013年13月。具体为2010年出生的60头奶牛、2011年出生的70头奶牛及2012年出生的80头奶牛。由于奶牛早期生长发育状况与日后的产奶量、繁殖问题和健康问题有着密切关系,因此对奶牛生长性状的研究主要针对的是从出生到第一个泌乳期结束这段时间,分为初生、断奶、周岁和头胎分娩这4个时间点。在实际牛场管理过程中,这几个时间點正是牛只转群的时间,饲料成分、管理方式、饲养环境都发生了明显变化,这样的划分方式也与生产实际相契合。所以特别关注初生、断奶、周岁和头胎分娩这四个时间点的体重记录,将它们视为一组。共4组数据。处理数据,去掉异常值后剩余143个个体的4组数据。

带有3个结点和2个多项式片段的模型拟合动态性状的群体均值和每个QTL的遗传效应。当结点数选为3,6,和12个月时,该方法检测到了控制胸围的生长轨迹。参数估计见表5。另外,当内部结点选为4月和9月时,拟合结果几乎一致。这说明该方法的精度较强的依赖于内部结点的选取。

4 结论

本文提出了视B-样条函数为子模型的随机回归模型,目的是检测控制动态性状的QTL,实现了群体均值、QTL遗传效应和其他随时间变化的环境因素的估计。B-样条函数相比于勒让德多项式的优势是能够避免端点异常值现象。不同结点的选择能够导致较大变异,因此在基于B-样条函数的QTL定位中结点的选取是关键因素。理论上结点越多越容易产生数据的过高拟合,结点越少越容易产生数据的过低拟合。

目前,奶牛育种的总体趋势是在保持奶牛产奶量以及乳成分等优良遗传性状的同时,兼顾奶牛的躯体结构、趾蹄健康、使用寿命、繁殖性能等综合遗传性能的选育,以获得奶牛养殖的最大经济效益。有研究表明-加强体型性状的选择对奶牛产奶量以及乳成分的提高有利,也有利于降低体细胞数,增强个体乳房炎的抗性,鉴于此,有必要研究奶牛除了产奶量之外的动态性状的表征。

参考文献

[1]C.R Henderson.Analysis of Covariance in the Mixed Model:Higher-Level,Non-homogeneous,and Random Regressions[J].Biometrics,1992,38(3):623-640.

[2]J.Jamrozik,L.R.Schaeffer and J.C.M.Dekkers.“Genetic evaluation of dairy cattle using test day yields and random regression model [J].Journal of Dairy Science,1997,80(6):1217-1226.

[3]L.R.Schaeffer.Application of random regression models in animal breeding [J].Livestock Production Science,2004,86(1-3):35-45.

[4]S.Macgregor,S.A.Knott,I.White and P.M.Visscher.Quantitative trait locus analysis of longitudinal quantitative trait data in complex pedigrees [J].Genetics,2005,171:1365-1376.

[5]R.Yang,Q.Tian,S.Xu.Mapping quantitative trait loci for longitudinal traits in line crosses [J].Genetics 2006,173:2339-2356.

[6]R.Yang,H.Gao,X.Wang,J.Zhang,Z.B.Zeng and R.Wu.A semiparametric approach for composite functional mapping of dynamic quantitative traits [J].Genetics 2007(177):1859-1870.

[7]R.Yang,S.Xu.Bayesian shrinkage analysis of quantitative trait Loci for dynamic traits [J].Genetics,2007,176:1169-1185.

[8]C.de Boor.A Practical Guide to Splines [M].New York: Springer Verlag,2001.

[9]K.Meyer,W.G.Hill.Estimation of genetic and phenotypic covariance functions for longitudinal or “repeated” records by restricted maximum likelihood [J] Livest Prod Sci,1997,47:185200.

[10]B.J.De Groot,J.F.Keown,L.D.van Vleck,et al.Genetic parameters and responses of linear type,yield traits,and somatic cell scores to divergent selection for predicted transmitting ability for type in Holsteins [J].Journal of Dairy Science,2002,85(6):1578-1585.

[11]Y.de Haas,L.L.G.Janss and H.N.Kadarmideen.Genetic and phenotypic parameters for conformation and yield traits in three Swiss dairy cattle breeds [J].Journal of Animal Breeding and Genetics,2007,124(01):12-19.

[12]M.J.Sillanp??,E.Arjas.Bayesian mapping of multiple quantitative trait loci from incomplete inbred line cross data [J]Genetics,1998,148:1373-1388.

[13]M.J.Sillanp??,E.Arjas.Bayesian mapping of multiple quantitative trait loci from incomplete outbred offspring data [J].Genetics,1999,151:1605-1619.

[14]J.M.Satagopan,B.S.Yandell,M.A.Newton,T.C.Osborn.A bayesian approach to detect quantitative trait loci using Markov chain Monte Carlo [J].Genetics,1996,144(02):805-816.

[15]N.Yi.A unified Markov chain Monte Carlo framework for mapping multiple quantitative trait loci [J].Genetics,2004,167(02):967-975.

(責编:张宏民)

猜你喜欢
模拟样条
一元五次B样条拟插值研究
基于五次B 样条的对流-扩散方程数值解法
对流-扩散方程数值解的四次B样条方法
三次参数样条在机床高速高精加工中的应用
基于样条函数的高精度电子秤设计
让学引思:让学生做主