梅步俊+王志华
摘 要:数量遗传学是遗传学领域难度较大的课程,掌握数量遗传学基本知识,并能将其应用到科研工作中,从事相关研究,需要学生拥有较为扎实的统计学基础。但是,目前国内的统计学和数量遗传学教学尚缺乏联系。该文以数量遗传学基本概念为主要内容,较为详细的推导了数量遗传学的基本原理和公式,为学生进一步理解该学科的的基本原理提供帮助,也为该学科的进一步研究提供基础。
关键词:教学改革;统计计算;数量遗传学;复杂性状
中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2017)20-0018-04
数量遗传学是遗传学的一个特殊分支,该学科的研究对象是个体之间性状“程度”的差异,而非“类型”的差异。这些个体间的差异被称为数量差异或数量性状[1],数量性状被定义为在一个群体内的各个体间表现为连续变异的性状[2]。数量性状的表型受到基因和环境变异的共同影响,单个基因解释的表型方差的比例通常是很小。然而,无数微效基因的联合贡献对表型的变异有重要意义。控制数量性状变异的基因称为数量性状基因座(QTL)。在数量遗传学文献中,QTL代表单数形式,QTLs代表复数形式。但无论一个QTL有多小,它都像单个孟德尔位点一样分离[3]。目前,常规的研究手段仍然捕捉不到小效应的QTL的分离现象,依然需要借助统计学方法来推断基因间的分离现象。大多数应用于数量遗传学的统计方法需要定义特殊的遗传模型。
1 基因频率和基因型频率
动物育种领域只考虑二倍体生物。二倍体生物携带同源基因组的2个拷贝,一个来自父本亲本,另一个来自母本的亲本。基因组的每个拷贝称为单倍体。因此,基因组的每个基因座都含有两个等位基因,每个基因座均来自每个亲本[4]。虽然每个个体最多携带2个不同的等位基因,但是整个群体可能有许多不同的等位基因,称为复等位基因群体[5]。为了简单起见,我们只考虑一个包含2个不同等位基因的种群,称为二倍体群体。设特定群体[A]位点有2个等位基因[A1]和[A2]。在二倍体群体中,只可能有3种基因型,分别为[A1A1]、[A1A2]和[A2A2]。不同群体的结构和交配制度决定了其3种基因型比例的的不同,[P11=PrA1A1],[P12=PrA1A2]和[P22=PrA2A2]分别为3种基因型的频率。基因型[A1A1]、[A1A2]分别包含1个或2个等位基因[A1]。因此,整个群体[A1]的频率为:
[p1=PrA1=P11+12P12]
[p2=PrA2=P22+12P12]
以上2个公式不考虑群体历史和结构。但是,基因型频率和基因频率之间的函数关系需要一些假设。在大的随机交配群体中,存在基因频率和基因型频率之间的独特关系,可以表示为[P11=p21],[P12=2p1p2]和[P22=p22]。这可以解释为2个独立等位基因联合在一起形成基因型[6]。因为包含2个相同的基因型,所以杂合子的频率为[2p1p2],即[A1A2]和[A2A1]代表2种不同来源的配子。这个特殊的关系可由以下2项式扩展表示:
[p1+p22=p21+2p1p2+p22] (1)
对应于如下基因(型)分离组合事件:
[A1+A22=A1A1+2A1A2+A2A2] (2)
如果一个群体没有选择、突变和迁移,基因频率和基因型频率将在代际传递中一直保持不变,这样的群体处于哈代-温伯格平衡状态[7]。如果一个大群体不处于哈代-温伯格平衡,只要经过一代的随机交配就足以使群体达到哈代-温伯格平衡。
对于一个等位基因频率[kk>2]群体的哈代-温伯格平衡可表示为[Pij=2pipj],[i≠j];[Pii=p2i],[i=j],此处[Pij=PrAiAj]和[pi=PrAi],[i, j=1, …, k]。
基因频率和基因型频率是群体的基本特征。研究的基因通常与适合度有关,从而确定群体对环境变化的适应性和群体的进化。这些内容是群体遗传学的研究内容。在数量遗传学中,我们的研究对象是的决定数量性状表型的基因,所以首先要为基因型和等位基因指派赋值,这些值被称为遗传效应。
2 遗传效应和遗传差异
群体中每个个体的数量性状都有表型值。 假设我们可以观察到群体中所有个体的基因型。基因型[A1A1]的遗传效应被定义为群体中携带基因型[A1A1]个体的表型平均值,该基因型值定义为[G11],[A1A2]和[A2A2]也可有类似定义。[G11]的效应等于平均表型效应,其原因如下。设[Y11]為携带基因型[A1A1]个体的表型值,则其可以表达为:
[Y11=G11+E11] (3)
此处,[E11]为随机环境偏差。即使群体中的每个个体都有相同的基因型值,其环境偏差也各不相同。当对群体中所有个体求平均值时,上式变为:
[Y11=G11+E11] (4)
[G11]个体数量足够多时,因正负偏差相互抵消,则[E11≈0],[Y11=G11]。
可以定义3种参数为基因型值的函数:
[μ=12G11+G22]
[a=G11-12G11+G22]
[=G11-μ] (5)
[d=G12-12G11+G22]
[=G12-μ]
此处,[μ]称为中值,[a]为加性效应,[d]为显性效应。因此,3种基因型值可以表示为:
[G11=μ+a]
[G12=μ+d] (6)
[G22=μ-a]
我们也可以将基因型值表示为中值的偏差:
[φ11=G11-μ=a]
[φ12=G12-μ=d] (7)endprint
[φ22=G22-μ=-a]
在温代-哈伯格平衡下,基因型值的群体平均值可以表示为中值的偏差:
[μG=Eφ=P11φ11+P12φ12+P22φ22]
[=p21a+2p1p2d+p22-a]
[=p1-p2a+2p1p2d] (8)
基因型方差为:
[σ2G=varφ=Eφ2-E2φ] (9)
此处
[Eφ2=P11φ211+P12φ212+P22φ222]
[=p21a2+2p1p2d2+p22-a2]
[=p21+p22a2+2p1p2d2] (10)
经过一些代数运算,可得
[σ2G=2p1p2a+p2-p1d2+2p1p2d2] (11)
3 平均等位基因替代效应
个体的每个位点由2个等位基因组成,每个等位基因分别来自一个亲本。2个等位基因在繁殖过程中将进入不同的配子。亲本的配子将在子代重新组合,形成下一代的基因型。因此,基因型不能一代一代的遗传下去,而是它是等位基因(单倍型)从一个世代传递到下一个世代[8]。因此,需要定义等位基因效应。本文用下面2×2表格定义等位基因效应。
等位基因[A1]的效应定义为:
[α1=φ11-μGp21+φ12-μGp2p1p1=p2a+dp2-p1] (12)
等位基因[A2]的效应定义为:
[α2=φ12-μGp1p2+φ22-μGp22p2=-p1a+dp2-p1]
(13)
2个等位基因之间的差值称为平均等位基因替代效应,表示为[α]:
[α=α1-α2=a+p2-p1d] (14)
不同基因型中2个等位基因的效应和称为“育种值”,其含义为个体携带这种基因型的后代的期望基因型值。因此,基因型[A1A1]的育种值为[A11=2α1=2p2α],另外2个基因型的育种值分别为[A12=α1+α2=p2-p1α]和[A22=2α2=-p1α]。真实基因型值和与育种值的差异称为显性偏差[9]。3种显性偏差分别为:
[δ11=φ11-μG-A11=-2p22d]
[δ12=φ12-μG-A12=2p1p2d] (15)
[δ22=φ22-μG-A22=-2p21d]
3种基因型的基因型值(G)、育种值(A)和显性偏差(D)列于表2。
4 遗传方差组分
育种值和显性偏差的期望为0,证明过程如下:
[EA=P11A11+P12A12+P22A22]
[=p212p2α+2p1p2p2-p1α+p22-2p1α=0] (16)
[ED=P11δ11+P12δ12+P22δ22]
[=p21-2p22d+2p1p22p1p2d+p22-2p21d=0] (17)
类似可以推导出:
[σ2A=EA2=p212p2α2+2p1p2p2-p1α2+p22-2p1α2=2p1p2α2]
(18)
[σ2D=ED2=p21-2p22d2+2p1p22p1p2d2+p22-2p1α2=2p1p2d2]
(19)
由遗传性知识和公式(11)可得,第一部分(18)为[σ2A],第二部分(19)为[σ2D],因此:
[σ2G=σ2A+σ2D] (20)
即总遗传方差可以被剖分为加性方差组分和显性方差组分。
5 遗传力
表型值[Y]可由如下线性模型表示:
[Y=G+E=A+D+E] (21)
上式中,[E]为环境误差,其平均值为0,方差为[σ2E]。表型方差[σ2P=varY]为
[σ2P=σ2G+σ2E=σ2A+σ2D+σ2E] (22)
总遗传方差和表型方差的比值称为广义遗传力(broad-sense heritability)[10],表示为:
[H2=σ2A+σ2Dσ2A+σ2D+σ2E] (23)
广义遗传力经常被用在进化论研究中,而加性方差和表型方差的比值称为狭义遗传力(narrow-sense heritability)[11],表示为:
[h2=σ2Aσ2A+σ2D+σ2E] (24)
狹义遗传力反映了性状可以被遗传下去的比例。因此,它在遗传方案制定和遗传改良工作中是非常重要的参数。
6 哈代-温伯格平衡条件下的[F2]家系
此处,我们只考虑哈代-温伯格平衡条件下,[A1A1]和[A2A2]纯合系杂交形成的[F2]家系。等位基因频率[p1=p2=12]时,相应基因型频率[P11=p21=14],[P12=2p1p2=12],[P22=p22=14]。平均等位基因替代效应为[α=a+p2-p1d=a],因此,
[σ2G=2p1p2α2+2p1p2d2=12a2+14d2] (25)
以上结论还可从不同的角度获得。[F2]个体的基因型值可以表示为:
[G=μ+Za+Wd] (26)
此处
[Z=+1 A1A1, P11=140 A1A2, P12=12-1 A2A2, P22=14] (27)
[W=0 A1A1, P11=141 A1A2, P12=120 A2A2, P22=14] (28)
基因型方差可以被剖分为:
[σ2G=σ2Za2+σ2Wd2=12a2+14d2] (29)endprint
此处
[σ2Z=EZ2-E2Z]
[=14+12+1202+14-12-14+1+120+14-12]
[=12-0=12] (30)
[σ2W=EW2-E2W]
[=1402+1212+1402-140+121+1402]
[=12-14=14] (31)
此处,假设[Z]和[W]的协方差为0;否则,基因型方差计算时需要增加[2covZ, Wad]项[12]。
以上,我们通过对数量遗传学6个方面的基本内容(基因频率和基因型频率、遗传效应和遗传差异、平均等位基因替代效应、遗传方差组分、遗传力和哈代-温伯格平衡条件下的[F2]家系)进行较为详细的公式推导,力求为学生理解并弥合统计学和数量遗传学理论的鸿沟奠定基础。
致谢:本研究感谢美国爱荷华州立大学动物科学系Rohan L.Fernando教授、Hao Chen博士和Jian Zeng博士的帮助。
参考文献
[1]Sherlock J.M.,B.P.Zietsch,J.M.Tybur,et al.The quantitative genetics of disgust sensitivity[J].Emotion,2016,16(1):43-51.
[2]Sherwood R.J.,D.L.Duren,E.W.Demerath,et al.Quantitative genetics of modern human cranial variation[J].Journal of human evolution,2008,54(6):909-914.
[3]Sorensen D..Developments in statistical analysis in quantitative genetics[J].Genetica,2009,136(2):319-332.
[4]Tachida H.C.C.Cockerham.A building block model for quantitative genetics[J].Genetics,1989,121(4):839-844.
[5]Tafti M.,D.Chollet,J.L.Valatx,et al.Quantitative trait loci approach to the genetics of sleep in recombinant inbred mice[J].Journal of sleep research,1999,8 Suppl 1:37-43.
[6]Visscher P.M.,Whole genome approaches to quantitative genetics.Genetica,2009,136(2):351-358.
[7]Walsh B..Quantitative genetics in the age of genomics[J].Theoretical population biology,2001,59(3):175-184.
[8]Walsh B..Quantitative genetics,version 3.0:where have we gone since 1987 and where are we headed? [J].Genetica,2009,136(2):213-223.
[9]Zhivotovskii L.A..Computer models of quantitative characteristics in genetics.Communication II.Dynamics of the frequency of alleles with different types of selection[J].Soviet genetics,1974,8(7):937-941.
[10]Schaffer H.E.L.E.Mettler.Teaching population fitness and adaptive surfaces in population and quantitative genetics[J].The Journal of heredity,1974,65(3):189-192.
[11]Kreitman N..Developments in quantitative genetics in psychiatry.Le Journal medical libanais[J].The Lebanese medical journal,1972,25(4):337-342.
[12]Comstock R.E..Theory of quantitative genetics:synthesis[J].Cold Spring Harbor symposia on quantitative biology,1955,20:93-102.
(責编:张宏民)endprint