湖南农业大学动物科技学院
禽畜遗传改良湖南省重点实验室 410128
随着众多家畜基因组测序的完成和高通量测序价格的直线下降,研究者们从全基因组角度在家畜基因组上寻找同人工选择、环境适应和驯化历史等的选择印记成为可能。一般而言,当获得家畜目标群体的全基因组数据后,需要考虑选择发生的时间、选择的强度、研究包括的群体和选择的模式等因素,从而确定将要使用的数理分析方法。目前常用的家畜基因组选择信号的鉴别方法主要有以下几种。
先介绍基于非同义突变和同义突变替换率的检验方法。基因组上的非同义突变(non-synonymous)指导致氨基酸改变的核苷酸变异,同义突变(synonymous)指由于密码的简并性,使得发生在基因编码区的突变并不改变编码的氨基酸。该种方法使用基因编码区在非同义位置上的非同义突变数目的替换率(dn)同在同义位置上的同义突变数目的替换率(ds)的比值来判断出现的选择模式。认为当dn同ds的比值等于1时,位点处于中性进化;当dn同ds的比值大于1时,认为出现了正向选择;反之,当dn同ds的比值小于1时,认为出现了负向选择。有众多方法可以对dn和ds进行计算,最初计算只能在2条DNA序列中进行,近期在多条序列之间进行dn和ds计算也成为了可能,并且可以利用似然比检验对假设的中立模型和替代模型进行统计学检验。计算基于dn同ds的比值选择信号鉴定常使用软件MEGA和PAML进行。
另一种方法是基于位点变异的遗传频谱(frequency spectrum)选择信号鉴定,常用的有Tajima’s D检验,通过比较群体突变率的两个估计值θ和π的差异,检测正向选择,Tajima’s D的值小于0,表示位点可能发生了正向选择或是负向选择;而Tajima’s D的值大于0,表示位点可能发生了长期的平衡选择。可以看出为负值的Tajima’s D不能区分是发生了正向选择还是负向选择,但后续使用Fay和Wu的H检验后,当位点H值为负值时,提示出现正向选择。
还有一种是基于连锁不平衡(LD)的选择信号鉴定方法。Sabeti等人提出基于长距离单倍型 (longrange haplotype,LRH)检验方法来检测近期的正向选择信号区域。这种检验先通过识别出核心单倍型(core haplotypes),然后逐渐由核心单倍型向基因序列上下游扩展从而评估LD随距离增加的衰减程度,LD的衰减程度通过扩展单倍型纯合性(Extended haplotype homozygosity,EHH)来计算[1]。 如果某个核心单倍型的连锁不平衡程度高于一般单倍型,那么这个位置很有可能经历了正选择。此外,综合单倍型评分算法 (integrated haplotype score,iHS)和扩展单倍型纯合性算法(Extended Haplotype Homozygosity,XP-EHH)也较常使用[2]。
此外,基因群体分化(population differentiation)的选择信号鉴定方法也非常常用,常通过计算FST统计量来对多个群体之间比较评估群体结构。FST统计量通过SNP或微卫星标记分型的遗传多态性数据,来估计各个亚种群间平均杂合度与整个种群平均杂合度的差异。FST统计量为正值,并且越接近1表示亚种群间种群分化程度越高,提示出现了群体结构的变化,如突变、遗传漂变、近亲交配、选择作用或Wahlund效应。
值得注意的是,鉴定家畜的选择信号的方法有很多,由于篇幅有限只介绍了常用的一些方法,这些方法各有其适用性和不足之处,在实际应用当中可以多选择几种方法进行联合分析,从而尽量降低选择信号鉴别中的假阳性。