张宏礼,张鸿雁
(1.岭南师范学院数学与统计学院,湛江 524048;2.岭南师范学院生命科学与技术学院)
群体遗传学即是研究生物系统进化和自然选择的生物学家的基本理论[1-2],又是遗传多样性判定[3-4]、动植物性状选择[5-6]、人类遗传学分析[7-8]等诸多研究的必要基础工具。
哈迪—温伯格平衡定律是随机交配下的遗传平衡定律,达到哈迪—温伯格平衡群体的遗传结构世代不变。许多数据在进一步分析之前要检验是否符合哈迪—温伯格平衡定律,比如在基因关联性疾病的研究中,首先应对所研究的基因进行哈迪—温伯格平衡检验,用以推断目标基因在群体中是否为稳定存在的基因,进而才能继续研究该基因与疾病的关联性,若该基因不符合哈迪—温伯格平衡定律,则不能进行下一步的关联性研究[9-11],哈迪—温伯格平衡群体为研究群体遗传结构提供了一个参照系。除随机交配外,近亲交配是最重要的一种交配方式,其中完全自交是最强的近亲交配方式。一般的近亲交配可以看成群体一部分随机交配、一部分完全自交构成,研究完全自交对于研究近亲交配有重要的实际价值。在一位点上关于完全自交的理论分析有较多的文献,而从两位点整体角度如何刻画完全自交下的世代变化中群体遗传结构的变化及度量的成果较少见。
基于申农信息理论,能够应用申农熵指标度量群体的遗传结构,刻画在世代传递中群体遗传结构的变化[12-17]。利用申农熵原理可以为不同的目标人群筛选合适的Y-STR基因座组合,为Y-STR检验在法医学中的应用提供科学依据和有效办法[18]。关于两对等位基因群体熵变规律的研究主要针随机交配机制[19-20],近亲交配及完全自交情况国内未见报道。
从处于哈迪-温伯格平衡的两对等位基因群体开始,研究在完全自交下的世代变化中群体遗传结构的变化规律及刻画这种变化的信息学描述。
考虑一个大Mendel二倍体生物群体的两位点A和B,各等位基因频率为
为研究方便将正反交分开表示,满足公式(1)的群体会有16种基因型,基因型频率会有无穷多种,假设初始世代群体为哈迪-温伯格平衡群体,基因型频率分布为
矩阵表示为
以后各世代的基因型频率为
矩阵表示为
其中
随世代数增加,ε1(t)和ε2(t)是在区间[0,p1p2)和[0,q1q2)上取值的单调增加的函数。
从一位点看,各世代的纯合体基因型频率逐代增加、杂合体基因型频率逐代减少,但是从两位点整体看,完全的纯合体基因型频率逐代增加、完全的杂合体基因型频率逐代减少,而半纯合半杂合的基因型频率可能增加也可能减少,群体的遗传多样性程度如何变化值得研究。
性质2说明,尽管从两位点整体看,半纯合半杂合的基因型频率可能增加也可能减少,但是群体的遗传多样性程度整体上还是严格单调减少的,而不会出现波动,这和一位点的情形一致。
根据申农信息理论,位点A和B各自初始世代的基因型申农熵为
所以在完全自交下,两位点的配子频率分布世代不变,与初始平衡群体的基因频率一致。两位点A和B各自的位点申农熵为H(A)=-p1lnp1-p2lnp2;H(B)=-q1lnq1-q2lnq2。假定群体雌雄两性配子同分布,用X、Y分别表示雄、雌配子,则配子申农熵为
配子间互信息反映配子间的遗传信息关联程度。性质4说明,在完全自交下,随世代交替,配子间的信息交流逐代增加,直到极限状态最大,此时群体完全纯合。
进一步定义两位点配子间近交关联信息系数为
根据性质4可得近交关联信息系数如下性质。
性质5配子间近交关联信息系数随着近交系数F的增大而增大,且0≤IFX,Y(t)≤1。
近交关联信息系数与近交系数反映的问题一致的,且取值范围相同。近交系数是数理统计意义下配子间的相关系数,而配子间的近交关联信息系数从信息学角度反映配子间的相对关联程度。
为检验上述结果的正确些,选择如下的两位点哈迪—温伯格平衡群体作为初始群个体。
应用MATLAB软件推演在完全自交下各世代基因型频率如表1。
表1 各世代基因型频率Table1 Genotype frequency distribution in the initial population from generation to generation
各世代基因型联合申农熵、配子间互信息、近交关联信息系数如表2。
由表1可见,完全纯合体基因型频率逐代增加、完全的杂合体基因型频率逐代减少,而半纯合半杂合的基因型频率中Aabb,aAbb,aaBb,aabB四种基因型频率先增后降,其他半纯合半杂合基因型频率一直下降。但是,由表2可见,基因型联合申农熵逐代减少,配子间互信息逐代增加,近交关联信息系数越来越大,与理论分析一致。
表2 各世代基因型联合申农熵、配子间互信息、近交关联信息系数Table2 Shannon entropy,information and the coefficient of inbred correlation information from generation to generation
从处于哈迪—温伯格平衡的两对等位基因群体开始完全自交,尽管从两位点整体看,半纯合半杂合的基因型频率可能增加也可能减少,但是群体的基因型联合申农熵还是严格单调减少的,亦即群体遗传多样性程度整体上是严格单调减少的,而不会出现波动,从理论分析的角度证实了与一位点的情形具有一致性。基因型联合申农熵可以很好地从两对等位基因情形推广到多位点、多等位基因情形,结论类似,这种整体性描述是从各基因型频率的变化不容易体现出来的。
两位点配子间互信息反映配子间的遗传信息关联程度,在完全自交下随世代交替配子间的信息交流逐代增加,配子间的遗传信息关联程度越来越大,直到极限状态最大,此时群体完全纯合。同基因型联合申农熵一样,可以将配子间互信息从两对等位基因情形推广到多位点、多等位基因情形,这时配子间互信息最大值为各位点申农熵之和,从而多位点、多等位基因的近交关联信息系数的分母即为各位点申农熵之和,这种加法计算起来简单、方便、易用,而且具有信息学意义。
两对等位基因情形下,如果群体中一部分自交、一部分随机交配,可以依据概率论中的全概率公式推导世代变化中基因型联合分布的演化规律、基因型联合申农熵的变化规律、配子间互信息的变化规律,相关结果应该介于随机交配平衡群体和完全自交群体之间,这样的结果可以用来描述一般的近期繁殖群体的变化规律。上述研究还可以进一步考虑迁移、突变、选择、连锁等因素的作用,丰富应用信息论方法研究群体遗传学理论的内容。
从处于哈迪—温伯格平衡的两对等位基因群体开始完全自交,完全的纯合体基因型频率逐代增加、完全的杂合体基因型频率逐代减少,而半纯合半杂合的基因型频率可能增加也可能减少。在这个演化过程中群体的遗传多样性程度是否单调变化值得关注,研究表明:从两位点整体来看,群体的基因型联合申农熵逐代严格单调减少,亦即群体遗传多样性程度整体上严格单调减少;配子间的互信息逐代增加,近交关联信息系数越来越大,两性配子的信息关联程度越来越紧密地趋于一致。研究从理论上证实了两位点情形与一位点情形具有一致性,所得结论可以很好地推广到多位点、多等位基因情形。