基于SNP标记的QTL组合定位方法

2014-04-29 00:44王倩雯郭茂祖王春宇刘晓燕

智能计算机与应用 2014年4期

王倩雯　郭茂祖　王春宇　刘晓燕

摘要：QTL的精确定位对数量性状遗传机制的研究及应用具有重要意义。随着分子生物技术和遗传学的发展，产生了大量可用于QTL定位的遗传标记和分析方法。然而，多数方法只能将QTL定位到一个区间而非具体位置，且具有较高的假阳性。为此，提出利用全基因组上的SNP标记，通过emBayesB方法和性状-标记回归区间分析相结合的组合方法进行QTL定位研究。组合方法能够筛选出与QTL存在较强关联的SNP标记，具有较高的计算速度和计算效率；通过性状-标记区间检测，能够较为精确地计算出QTL的位置。方法中考虑到染色体上其它标记的背景遗传信息，提高定位成功率和可信度。

关键词：QTL定位；组合方法； emBayesB方法； SNP标记

中图分类号：TP391.41 文献标识码：A文章编号：2095-2163（2014）04-0017-04

Abstract：Search the precise position of QTL ， is very significant for understanding the genetic mechanisms of quantitative traits and its application. The development of molecular biology and genetics results in a large number of genetic markers and analytical methods can be used for QTL mapping. However， most methods can only map QTL to a interval rather than a specific location with a high false positive. This paper proposes that the use of genome-wide SNP markers and combination strategy which combining emBayesB methods and traits - mark regression interval analysis conducted QTL mapping studies. Combination strategy could screen out SNP markers which associated with QTL in the presence of strong， and having a high computing speed and efficiency； through trait-mark interval detection， the location of the QTL can be calculated more accurately. The method takes into account the background genetic information of other genetic markers on the chromosome， achieves higher position success rate， and improves the positioning reliability.

Key words：QTL Mapping； Combination Strategy； EmBayesB Method；SNP

0引言

具有连续表型测量值的性状称为数量性性状，许多重要农艺、经济性状都是数量性状，因此，研究数量性状的遗传机制并在生产中加以应用对动植物育种工作具有重要作用。数量性状位点（quantitative trait loci，QTL ）的概念由 Gelderman[1]1975 年首次提出，可将其表述为：QTL是指基因组上的一个或多个影响性状表型变异的基因或染色体片段。广义理解认为，QTL 包含基因组中所有影响性状表型变异的基因，在实际研究中只将那些可被检测出的、具有显著效应的基因或者染色体片段称为 QTL[2]。数量性状受多基因控制，遗传基础复杂，对外在环境的影响也较为敏感，并表现为连续的变异，而且必须通过测量才能得到表型变异值，因此研究过程中存在一定的困难。

利用发生在遗传标记与目标性状表型值间的关联，根据标记与QTL之间的连锁关系，通过统计分析确定QTL在染色体上的位置并估计其遗传效应，该过程称为QTL定位[3]。早期的研究，只能借助数理统计手段，将控制数量性状的多个基因作为一个整体进行分析[4-6]，该类方法无法了解影响数量性状的每一个基因的位置和效应，存在严重的制约性。二十世纪八十年代以后，随着分子标记技术的出现，通过利用分子标记进行QTL定位研究，增强了人们对数量性状的遗传操纵能力，提高了QTL定位研究对数量性状研究的生物学意义。在QTL定位过程中遗传标记的选择由最初的RFLP标记、RAPD标记、SSR标记等等发展为现在常用的SNP（Single Nucleotide Polymorphism，单核苷酸多态性）标记。单核苷酸多态性是由单个核苷酸的变异引起的DNA序列多态性，因其数量丰富密度高、遗传稳定性好、分布广泛等特点，已将SNP标记作为新一代遗传标记而获得广泛使用[7-9]。

在众多已有的QTL定位方法中，其分析大多都是基于单个标记或者区间进行，而较少考虑其它标记或者区间的背景遗传信息的影响，本文提出的组合方法，是将期望最大化（Expectation Maximum，EM）算法和贝叶斯模型相结合[10]，较为准确地估计每个SNP标记与QTL存在连锁不平衡（Linkage Disequilibrium，LD）的后验概率，并从中选择出与目标性状存在很强关联性的标记作为显著SNP标记，而且降低了显著SNP标记造成的假阳性率，进一步又利用基于性状-标记区间检测方法，对显著SNP标记进行分析，精确定位QTL 的位置和效应。基于全基因组SNP标记进行分析，可以同时估计所有标记的效应，更加有效地利用标记的遗传信息。

1组合方法的分析方法

本实验采用的组合方法，先利用基因组选择算法emBayesB方法对全基因组SNP标记进行分析，求得与至少一个QTL存在关联的每个SNP遗传标记后验概率，再选择后验概率超过一定阈值的标记作为显著性SNP标记进行第二步分析。而且，运用性状-标记回归区间检测计算得到显著性标记与潜在QTL的重组率，从而得到QTL在染色体上的位置。组合方法不仅可以分析标记和样本数量都比较大的情况，同时，还将尽可能多地发现与性状存在显著性相关的 SNP 标记，严格控制假阳性结果的产生，提高分析结果的准确性和定位QTL的精确性。

1.1基于全基因组SNP标记的emBayesB算法

整个基因组的SNP标记数目十分庞大，但基因组中QTL的数目却较为有限，只有部分标记与QTL存在紧密连锁关系，并可为QTL定位提供有用信息。若能准确选择出这些标记并有效利用，就可提高定位QTL的成功率和定位的准确性。因此，设计通过emBayes算法，即将EM算法与贝叶斯模型相结合[11]，由此而找到与目标性状存在显著关联的SNP标记集合。

1.1.1SNP先验分布及缺失数据处理

通过对比可以看到传统回归分析虽然定位得到的真实QTL比较多，但是假阳性率也非常高，通过利用固定区间判定的关联分析方法以及emBayesB方法只得到了显著性SNP，对于QTL所在的具体区间的确定则是通过人工不断尝试而得到的，而且利用LD区间检测的emBayesB分析方法，也能够通过LD分析确定QTL所在区间。但是，这三种方法也仅仅说明在确定的区间内有QTL存在，却并未得到QTL的准确位置。组合方法的分析模型的提出，结合了emBayesB和性状-标记回归区间检测的优势，同时能够通过计算QTL与所在区间左侧标记的重组率得到QTL的具体位置和该QTL的加性效应，并且取得了较高的成功率和较低的假阳性。

3结束语

综合以上分析可以看到，通过emBayesB方法得到与至少一个QTL存在连锁不平衡的显著性SNP标记集合，对这些标记实行性状-标记回归区间分析，并可进一步确定QTL的位置和效应，该方法在成功率和假阳性率方面都有不错的表现，尤其能够通过计算更为精确地得到QTL在染色体上的位置和效应值。

通过emBayeB方法为第二步的回归区间检测分析提供了包含丰富遗传信息的SNP标记，同时大大减少了标记数量，并且也减少了计算的工作量。这就使得用于处理小样本数据的性状-标记回归分析方法的应用成为可能。性状-标记回归区间检测考虑到了其他标记的背景遗传信息的影响，进而增加了QTL定位的可信度。

参考文献：

[1]GELDERMAN H. Investigation on inheritance of quantitative characters in animals by gene markers[J].I. Methods. Theor. Appl.Genet.，1975（46）：300-319.

[2]胡芳. 中国荷斯坦奶牛6号染色体泌乳性状QTL精细定位研究[D]. 武汉：华中农业大学， 2010.

[3]王健康. 数量性状基因的完备区间作图方法[J]. 作物学报， 2009， 35（2）： 239-245.

[4]LYNCH M，WALSH B.Genetic and Analysis of Quantitative Traits.Sunderland[J].Sinauer Associates，1998.

[5]DOERGE R W. Mapping and analysis of quantitative trait loci in experient populations[J]. Nat Rev Genet， 2002， 3： 43–52.

[6]翟虎渠，王建康. 应用数量遗传[M]. 北京：中国农业科技出版社， 2007.

[7]XU Shizhong. Estimating polygenic effects using markers of the entire genome[J].Genetics，2003，163：789-801.

[8]EDWARDS SV. Is a new and general theory of molecular systematic emerging[J]. Evolution， 2009，63（ 1）：1-19.

[9]HUANG Wenda， ZHAO Xueyon， ZHAO Xin， et al. Application of molecular markers in population genetics[J].Pratacultural Science，2010，27（11）：115-120.

[10]SHEPHERD R K， MEUWISSEN THE， WOOLLIAMS J A. Genomic selection and complex trait prediction using a fast EM algorithm applied to genome-wide markers[J]. BMC Bioinformatics， 2010， 11：529.

[11]FLINT-GARICA SA， THORNSBERRY J M，BUCKLER E S .Structure of linkage disequilibrium in plants[J]. Annu Rev Plant Biol，2003， 54：357-374.

[12]吴为人，李维明.基于性状-标记回归的QTL区间检测方法[J]. 遗传，2001，23（2）：143-146.

智能计算机与应用2014年4期

智能计算机与应用的其它文章: 基于自学习的汉语开放域命名实体边界识别; 基于对数似然比的湍流目标检测; 基于Spring MVC的数据库分页查询技术及应用研究; 基于系统调用序列分析入侵检测的层次化模型; 使用过训练提升词性标注依存句法联合模型的速度; 一种支持MDD的ICES—Modeling建模语言和建模工具