王鲜萍,鲁绍雄
(1.河南大学生命科学学院,河南开封475001;2.云南农业大学动物科技学院,云南昆明650201)
BC1设计下标记密度对QTL定位精确性的影响
王鲜萍1,鲁绍雄2
(1.河南大学生命科学学院,河南开封475001;2.云南农业大学动物科技学院,云南昆明650201)
通过计算机模拟分析BC1设计中标记密度(标记间隔分别为5、10、20、50 cM)对数量性状基因座(QTL)定位精确性的影响,以均方误(MSE)为衡量指标.结果表明:当遗传图谱上相邻标记间的图距在5 cM以上时,提高标记密度,对于提高QTL定位的准确性和精确性具有积极的效应,但当标记密度达到某一程度(相邻标记间图距为2 cM)时,由于方法本身的局限,继续增加标记密度,对标记-QTL连锁分析法定位QTL的效果则没有实际意义,标记密度对检验统计量LOD值的影响不明显.
BC1设计;标记密度;QTL定位;最大似然法
家畜的大多数重要经济性状都是具有复杂遗传基础的数量性状(quantitative trait).传统数量遗传学的一系列理论和方法都是建立在微效多基因假说(minor-effect polygene hypothesis)的基础上,该假说认为数量性状是受大量的、效应微小而类似、并且可加的基因控制.这些基因在世代相传中服从孟德尔定律,即分离规律和自由组合规律,以及摩尔根的连锁互换规律.由于单个基因的效应很小,易受环境影响,因而无法确定单个基因的效应及其在染色体上的位置[1-2],更不能对其进行准确的识别、分离和克隆.但在近二、三十年来,大量的理论研究和试验结果表明,数量性状既受数目较多的微效基因(minor-effect gene)的影响,还受一个或少数几个起主导作用的主效基因(major gene)的影响,即是一种主基因+多基因的混合遗传(mixed inheritance)模式[3-4].随着分子遗传学理论和方法的迅速发展,大量的分子遗传标记被发现,利用这种分子标记的遗传连锁图谱,我们可以对各个数量性状基因座(quantitative trait locus,QTL)的作用和在染色体上的位置进行研究.近年来,人们在利用分子标记连锁图谱进行QTL的检测和定位方面做了大量的工作,并利用实际资料进行分析,相继检测出了一些可能有较大作用的QTL.但一个突出的问题就是QTL的精确定位.一般说来,检测QTL是否存在比较容易,但要确定QTL在染色体上所处的精确位置就比较困难,而且QTL的效应很难精确估计.QTL精确定位对标记辅助选择、QTL克隆等研究工作都是非常重要的.影响QTL定位精确性的因素主要有:群体规模、性状遗传力、QTL在染色体上的位置、标记密度.其中,QTL的位置和性状遗传力对于特定的性状和群体是相对固定的,而标记密度和资源群体规模在一定程度上是可以人为控制的.理论研究表明,QTL定位随着标记密度的增加而升高,但实际研究表明,当标记密度增加到一定水平时,QTL定位的精确性反而下降.因此,标记密度的大小直接影响到QTL定位的精确性.本文在群体规模、性状遗传力、QTL位置固定情况下通过计算机模拟方法研究BC1设计下标记密度对QTL定位精确性的影响,以期找出一个最佳的标记密度.
假定某一常染色体的总长度为100 cM,在该染色体上存在着一个影响目标数量性状的QTL.连锁图谱上的标记呈均匀分布,即相邻标记间的图距是相等的.每个标记座位只有2个等位基因,且都为共显性标记.QTL有两个等位基因,且不存在显性效应.QTL定位采用的资源群体为BC1设计,并采用最大似然分析法进行QTL的检测与定位.
1.1 数据模拟
1.1.1 F0代标记与QTL基因型的模拟假定F0世代中两个亲本群体P1和P2的标记座位和QTL均处于连锁平衡(linkage equilibrium)状态,每一标记和QTL座位均只有2个等位基因,且在每一座位上均为相应的纯合子.每一个体的标记座位和QTL的等位基因利用(0,1)均匀分布随机数发生器产生随机数序列来确定,并进而确定每一个座位的基因型.
1.1.2 BC1代个体数据的模拟
性状表型值的模拟:BC1群体中个体数量性状表型值由QTL基因型值(QTL genotypic value)、多基因效应值(polygenic value)和环境效应(environmental effect)值3部分构成.即:yi=vi+ui+ei,其中,vi为个体的QTL基因型值,由个体的QTL基因型决定;u为个体的多基因效应值,服从N(0,分布,由计算机程序随机产生;ei为环境效应值,服从N(0,)分布,由程序随机产生.
1.2 分析方法
1.2.1 最大似然分析对于回交群体,采用Lander和Botstein[6]提出的区间定位(interval mapping)法,如在相邻标记Mk-1和Mk构成的区间内存在影响目标数量性状的QTL,则个体的性状表型值可由如下线性模型表示:yi=µ+bxi+ei(i=1,2,…,n).其中,yi为个体的数量性状观察值;μ为模型的均值;xi为QTL基因型的指示变量,取值为1或0,相应的概率由双侧标记基因型和QTL位置所决定;b为QTL指示变量xi的回归系数,表示假定QTL的效应;ei为随机残差,服从N(0,)分布.
1.2.2 似然函数该模型的分布为混合正态分布(mixed normal distribution),似然函数为:
2.1 QTL位置的估计
不同标记密度(相邻标记间图距)水平下区间定位法对QTL位置估计值、MSE和检验统计量LOD值见表1.不同标记密度下的LOD值变化曲线见图1.
表1 不同标记密度下QTL位置的估计值及其均方误差
图1 不同标记密度下LOD值的变化曲线
从QTL位置参数的估计结果来看,并未呈现出标记密度越高,QTL定位越准确的规律.从检验统计量LOD值的变化情况看,标记密度对LOD值的影响并不明显,各个水平的变化未呈现出规律性.这与目前采用连锁分析方法进行畜禽QTL定位的置信区间几乎都在5 cM以上的实际是相符的.
2.2 QTL效应值的估计
不同标记密度水平下区间定位法对QTL基因型加性效应的估计值及其MSE见表2.不同标记密度下QTL加性效应估计值的剖面图见图2.
表2 不同标记密度下QTL效应估计值及其均方误差
图2 不同标记密度下QTL效应估计值曲线
从表2可以看出,QTL加性效应的估计值与其真值的偏差未呈现规律性的变化.从QTL效应值估计的MSE看,在相邻标记间图距为5 cM和10 cM时较小,QTL效应估计的结果精确性较高;相反,当标记密度为2 cM、20 cM时,均方误差较大,QTL效应估计的精确性稍低.
在早期的QTL定位研究中,人们往往将检出率的高低作为衡量QTL定位效果的指标[8-9],但检出率是一个很容易达到较高水平的统计量.从本文的结果来看,很多情况下,检出率均为100%,而QTL位置估计值的均方误仍然很大.也就是说,QTL定位的精确性仍然很低,而标记辅助选择(markerassistedselection, MAS)的相对效率在很大程度上取决于QTL定位的精确性.因此,QTL定位的精确性要比QTL检测效率更具有意义.利用分子标记对控制数量性状的QTL进行定位,并对其遗传效应进行估计,是近年来数量遗传学的新发展[10],这为育种上借助分子标记辅助选择提高数量性状的选种效果奠定了基础,也是进一步在DNA水平上对QTL进行遗传操纵的前提.
多年来,提高畜禽遗传图谱上的标记密度一直是人们追求的目标.因为从理论上说,图谱上的标记密度越高,相邻标记间的距离就越小,QTL定位的置信区间也越小.然而本文的结果则显示,在BC1设计下采用传统的区间定位法进行QTL定位,当图谱上相邻标记间的图距从20 cM缩小到5 cM时,QTL位置估计的误差均方从90.80×10-5降低到了7.77×10-5,但当相邻标记间的图距进一步缩小到2 cM时,QTL位置估计的误差均方反而又上升到了40.40×10-5.从本文所涉及的4种标记密度看,以相邻标记间的图距为5 cM时最有利于保证QTL定位的精确性,其效应的估计结果也更为可靠.
王菁等[11]研究表明在不同因素水平组合下QTL定位的准确性随标记密度的加大而变化趋势略有不同;Riquet[12]、Meuwissen等[13]和刘会英[14]模拟连锁不平衡定位的研究中,发现采用高密度标记时,定位的结果与理论水平还有一定差距.本研究中QTL的效应估计值在不同标记密度下变化不稳定,趋势也略有不同,与上述学者的研究结果类似.理论上讲,增加标记密度可以提高QTL定位精确性,但从以上的研究结果来看,尽管标记密度相对较大,仍没能充分利用所有的标记信息.另外,标记密度过高,我们将很难区别相邻区间之间的差异;反之,如果标记密度过低,我们可能检测不到标记和QTL的连锁不平衡,从而无法实施QTL定位.
QTL定位分析比较复杂,一方面是由于统计方法问题,另一方面是由于分子标记技术操作比较复杂而且费用昂贵,因此对QTL作图效率问题进行研究非常必要,即以较少的分子水平上的样本数据来对QTL作出精确的定位.目前在QTL作图领域,一个具有普遍性的问题是对于标记-QTL连锁缺乏有效的统计检验方法.在具体试验中,即使标记和QTL之间不存在连锁,他们之间重组率的估计值通常也小于0.50[15].
迄今为止,遗传标记技术的发展,在主要畜种基因组中可实现0.5~3.0 cM高饱和密度的遗传图谱[16],并且随着SNP技术的日臻成熟,标记间隔将进一步缩小.丰富的标记资源强有力地推动着QTL定位研究的发展,同时也呈现给我们较为现实的难题:选择多少个标记座位可满足QTL定位的需要,尤其对于标记-QTL连锁分析,过低密度标记降低连锁分析的准确性和精确性,过高密度的标记会降低座位间重组事件的发生次数而影响分析效果[17],因此采用合理的标记数目显得尤为重要.Doerge等[17]提出了标记利用的合理策略:采用较低密度、均匀分布基因组的标记图谱进一步进行精细定位.张勤[18]进一步总结了利用遗传图谱信息进行QTL定位研究的具体思路和总体策略:①通过连锁分析将QTL定位在5~20cM区间的特定区段;②利用该区段的高密度标记(间隔0.25~1 cM),基于群体的连锁不平衡,并利用历史积累重组事件,实施QTL精细定位.
进一步提高QTL检测与定位的精度,实现精细定位和高效定位,是今后QTL定位研究的重点,除了要不断改进试验设计外,合理优化的统计分析方法也是必不可少的,统计方法的好坏直接影响着QTL检测定位的准确性和可靠性.采用连锁不平衡分析是今后家畜经济性状QTL精细定位的主要手段,根据连锁不平衡原理,在QTL定位方面人们普遍考虑采用一些新的定位策略,利用群体的连锁不平衡来寻找与QTL连锁最紧密的标记.虽然在QTL精细定位方面连锁不平衡分析优势明显,但其定位效力受到标记与QTL间连锁不平衡程度的限制,因此有必要结合连锁平衡的一些优点,进行QTL精细定位[19].
[1]鲁绍雄.猪主要数量性状主基因研究进展[J].黑龙江畜牧兽医,2000(8):27-29.
[2]鲁绍雄,吴常信,连林生.性状遗传力与QTL方差对标记辅助选择效果的影响[J].遗传学报,2003,30(11):989-995.
[3]Shrimpton A E,Robertson A.The Isolation of polygenic factors controlling bristle score inDrosophila melanogaster.I.Allocation of third chromosome sternopleural bristle effects to chromosome sections[J].Genetics,1988,118(3):437-444.
[4]Falxoner D S,Mackay T F C.Introduction to quantitative genetics[M].4th ed.Harlow:Longman Group Ltd,1996.
[5]Haldane J B S.The combination of linkage values and the calculation of distance between the loci of linked factors[J].Journal of Genetics,1919,8:299-309.
[6]LanderES,BotsteinD.MappingMendelianfactorsunderlyingquantitativetraitusingRFLPlinkagemaps[J].Genetics,1989,121(1):185-199.
[7]Dempster A P,Laird N M,Rubin D B.Maximum likelihood of from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B,1977,39(1):1-38.
[8]Weller J I,Kashi Y,Soller M.Power of daughter and granddaughter designs for determining linkage between marker loci and quantitative trait loci in dairy cattle[J].Journal of Dairy Science,1990,73(9):2525-2537.
[9]Van der Beek S,Van Arendonk J A M,Groen A F.Power of two-and three-generation QTL mapping experiment in an outbreed population containing full-sib or half-sib families[J].Theoretical and Applied Genetics,1995,91:1115-1124.
[10]莫惠栋.数量遗传性德新发展:数量性状基因图谱的构建和应用[J].中国农业科学,1996,29(2):8-16.
[11]王菁,张勤,张沅.孙女设计中标记密度对QTL定位精确性的影响[J].遗传学报,2000,27(7):590-598.
[12]Riquet J,Coppieters W,Cambisano N,et al.Fine-mapping of quantitative trait loci by identity by descent in outbred populations:application to milk production in dairy cattle[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(16):9252-9257.
[13]Meuwissen T H E,Goddard M E.Fine mapping of quantitative trait loci using linkage disequilibria with closely linked marker loci[J].Genetics,2000,155(1):421-430.
[14]刘会英.利用连锁不平衡信息精细定位QTL[D].北京:中国农业大学,2003.
[15]徐云碧,陈英.利用最大似然法进行水稻产量性状基因的分子作图[J].遗传学报,1995,22(1):46-52.
[16]Georges M,Andersson L.Livestock genomics comes of age[J].Genome Research,1996,6:907-921.
[17]Doerge R W,ZengZ B,Weir B S.Statisticsissues in the search for genes affecting quantitative traits in experimental populations[J]. Statistical Science,1997,12(3):195-219.
[18]张勤.基因组时代的数量遗传学[C]//陈宏权.中国动物遗传育种研究进展:第11次全国动物遗传育种学术会议论文集.北京:中国农业科学技术出版社,2001:155-156.
[19]殷宗俊,张勤,陈宏权,等.离散性状QTL区间定位的最大似然方法[J].遗传学报,2005,32(9):923-929.
(责任编辑:邓天福)
Effect of marker density on QTL mapping in a backcross design
Wang Xianping1,Lu Shaoxiong2
(1.College of Life Science,Henan University,Kaifeng 475001,China;2.College of Animal Science and Technology,Yunnan Agricultural University,Kunming 650201,China)
Using simulation of computer method,the effects of marker density on the accuracy of quantitative trait locus(QTL)mapping,measured with mean squared error(MSE)of QTL position and effect estimates,were investigated for a backcross design.The results indicated that when the map distance of two adjacent markers was above 5 cM,it was useful for improving the accuracy of QTL mapping to increase marker density.However,when the map distance of two adjacent markers was shortened to 2 cM,increasing the marker density more had no effect on improving QTL mapping,which owing to the limit of marker-QTL linkage analysis.Marker density had no obvious effect on limit of detection value.
backcross design;marker density;QTL mapping;likelihood method
S813.2
A
1008-7516(2012)01-0032-05
10.3969/j.issn.1008-7516.2012.01.008
2011-12-28
河南大学重点科研项目“影响畜禽QTL定位精确性的主要因素研究”
王鲜萍(1979-),女,山西大同人,研士,讲师.主要从事动物遗传育种与繁殖研究.