刘艳萍 包阿东 梅步俊
摘要 本研究通过模拟和基因组数据,使用群体遗传模型来预测稀有变异选择的预期特征,并比较不同SNP年龄估计方法的结果之间的异同。Wright-Fisher模型框架下,随着初始基因频率的增加,基因被固定的概率上升;与有效群体缩减Wright-Fisher模型相比,一般Wright-Fisher模型和有效群体扩增Wright-Fisher模型的基因被固定概率更高,但初始基因频率较高时,3种模型无明显差异。稀有变异基因的遗传方式为共显性、完全显性时,稀有变异基因可以在群体中达到很高的频率或固定,其中完全显性时基因频率在群体中达到0.5以上的概率更高;稀有变异基因的遗传方式为共显性时,不同有效群体含量随选择系数变化的规律与理论预测基本相同。SNP年龄估计依据不同假设条件,往往有不同估计结果。
关键词 复杂性状;稀有变异;家畜;Wright-Fisher模型;SNP年龄
中图分类号 S813 文献标识号 A
文章编号 1007-7731(2023)08-0111-08
Study on Inheritance of Rare Variants of Complex Traits in Livestock
LIU Yanping2,3 BAO Adong1,2 MEI Bujun1,2*
(1Engineering Technology Research Center of Inner Mongolia sheep Genetic Evaluation Method and Application,
Bayannur Inner MongoLia 015000;
2Medical college, Hetao college, Bayannur Inner MongoLia 015000;
3Agriculture department, Hetao college, Bayannur Inner MongoLia 015000)
Abstract This study uses population genetic models to predict the expected characteristics of rare variant selection through simulation and genomic data, and compares the similarities and differences between the results of different SNP age estimation methods. Under the framework of the Wright-Fisher model, with the increase of the initial gene frequency, the probability of the gene being fixed increases; compared with the effective population size contraction Wright-Fisher model, the fixed probability of gene frequency in the general Wright-Fisher model and the effective population expansion Wright-Fisher model is higher, but when the initial gene frequency is higher, there is no significant difference between the those models. When the genetic mode of the rare variant gene is codominance and completely dominant, the rare variant gene can reach a high frequency or fixation in the population. And when the genetic mode is completely dominant, the probability of gene frequency reaching 0.5 or more in the population is higher. When the genetic mode of rare variant genes is codominant, the law of the different effective populations size with the different selection coefficient is basically the same as the theoretical prediction. SNP age estimation methods based on different assumptions often have different estimation results.
Keywords complex traits; rare variants; livestock; Wright-Fisher model; SNP age
全基因組关联研究(Genome-wide association study,GWAS)方法通过基因芯片技术系统评估常见遗传变异(通常是SNP,在群体中的最小等位基因频率MAF>5%)对性状(疾病)的影响。到目前为止,已经发现有2 000多个SNP与疾病相关,只能解释小部分的遗传因素[1]。总体来说,GWAS发现的这些SNP位点对复杂疾病只有中等程度的影响,位点与性状只有关联性,没有因果关系,要想通过关联关系推导至因果关系仍很困难,要想将这些通过GWAS发现的位点转化为疾病功能解释或临床应用还有很长的路要走。分析低频位点(0.5% 罕见基因位点一般在基因的编码区或启动子区,具有一定的生物学意义,如错义突变、无义突变、stop loss突变、插入或缺失引起的移码突变及启动子区调节转录的变异。RVAS是基于功能单元(目前主要是基因,以后有可能是小的信号通路)分析一组位点与疾病的关联,而GWAS是基于单个位点评估关联性[3-4]。 突变可能由于遗传漂变、自然选择和人工选择在群体中消失,增加频率或固定。如果等位基因受到选择的影响,大的基因组区域也会因遗传连锁而受到影响。在强阳性选择的情况下,基因组区域遗传变异可能消失,出现“选择性清除(selective sweep)”[5]。在纯化选择的情况下,当有害等位基因反复从基因座中被清除时,也可以减少连锁基因组邻域中的中性突变。这种现象被称为“背景选择”。随着畜禽基因组测序数据的增加,积累了稀有变异数据,这些数据表明畜禽进化过程较预想的复杂,而群体遗传学研究有助于阐明数量性状的遗传机理[6]。本研究通过模拟和基因组数据,使用群体遗传模型来预测稀有变异选择的预期特征。 1 材料与方法 1.1 Wright-Fisher模型 本研究分别考虑有效群体含量初始为100和1 000这2种情况,模拟200世代,等位基因初始频率分别为0.004、0.04、0.2、0.4;分别使用一般Wright-Fisher模型、有效群体缩减Wright-Fisher模型和有效群体扩增Wright-Fisher模型,对于后两种模型有效群体含量初始为100时,有效群体变动范围为50;有效群体含量初始为1 000时,有效群体变动范围为500。 假设一个群体由N个个体组成,[Xt]和[Xt+1]表示[t]和[t]+1世代携带等位基因A的染色体数目,分别等于i和j,基因在代际间传递可用二项式(Binomial)分布表示: 式中,P为等位基因A的频率,1-p或q为等位基因a的频率。 1.2 不同遗传方式影响 通常根据显性系数(h)和选择系数(s)对遗传模型进行参数化,野生型适应度设置为1,其中基因型AA的适合性为1,基因型Aa的适合性为1+hs,基因型aa的适合性为1+s。h=1为完全显性,h=0为完全隐性,h=0.5为共显性。如果种群规模是固定的,要考虑相对适应度,即个体基因型相对于群体的适合度,平均群体适合度[?]为: 1.3 SNP年龄估计方法 20世纪70年代,群体遗传学家Motoo Kimura和Tomoko Ohta使用等位基因频率估计等位基因年龄[7]。在随机交配的大群体中,中性等位基因的年龄估计值为: 式中,p代表等位基因频率,t1为期望的等位基因年龄,以2N世代为单位。1990年,Jean-Louis Serre等通过分析等位基因内部变异来估计等位基因年龄[8],公式为: 式中,t为世代数,c为重组率,[xt]为t世代时与突变等位基因连锁的标记频率,y为与突变等位基因不连锁的标记频率。 一般方法是在Serre方法基础上,计算基因所在区域的LD,计算扩展单倍型杂合性(EHHS, Extended Haplotype Heterozygosity),并在此基础上设定阈值,计算基因左右翼用于计算年龄的标记长度[9]。本研究使用R软件SimPhe包内置数据集,比较3种不同SNP年龄估计方法估计结果的异同。 2 结果与分析 2.1 Wright-Fisher模型 Wright-Fisher模型描述了在离散的非重叠世代中有限随机交配群体的进化。该模型描述了基因座上等位基因频率随时间的变化过程。基因频率受一系列因素的影响,如随机漂移、突变、迁移、选择和种群规模的变化。突变、迁移和选择以确定性方式影响等位基因频率,被统称为进化压力。对有限群体进行随机抽样,频率从一代到下一代变化(遗传漂移)。突变和迁移会导致抽样频率的线性变化,而选择是一种非线性变化。一般认为,随着世代推移,等位基因频率逐渐远离初始频率。本研究中(图1、图2),当初始基因频率极低时(0.004),无论种群规模是否发生变化,随着世代数增加,基因频率偶尔有微小波动,但在大多数情况下基因始终保持极低频率或最终从群体中消失;隨着初始基因频率的增加,基因被固定的概率上升;与有效群体缩减Wright-Fisher模型相比,一般Wright-Fisher模型和有效群体扩增Wright-Fisher模型的基因固定概率更高,但初始基因频率较高时,3种模型无明显差异;当有效群体含量由100增加为1 000时,基因更加不容易被固定,且200个世代中,基因频率最终结果更难预测。 2.2 不同遗传方式影响 本研究考虑稀有变异3种不同遗传方式(共显性、完全显性和完全隐形),在选择系数s为0.1时,100个世代基因频率的变化,共模拟100次(见图3)。结果显示,稀有变异基因的遗传方式为共显性、完全显性时,稀有变异基因可以在群体中达到很高的频率或固定,其中完全显性时基因频率在群体中达到0.5以上的概率更高;而遗传方式为完全隐形时,基因频率在100个世代内一般不会超过0.4。 本研究用模拟方法比较不同群体含量和选择系数对稀有变异基因频率的影响,结果表明,稀有变异基因的遗传方式为共显性时,不同有效群体含量随选择系数变化的规律与理论预测基本相同;完全显性时,不同有效群体含量随选择系数变化的规律均比理论预测高,而且随着选择系数增加,偏差逐渐增大;而完全隐形时,趋势与完全显性时相反,且随着有效群体含量增加,基因频率随选择系数变化规律与理论预测结果的偏差逐渐增大(见图4)。 2.3 SNP年龄估计方法 等位基因或SNP的年龄可以通过不同拷贝之间的遗传变异(等位基因内变异)及其频率来估计。遗传学界已有估计等位基因年龄的近似方法。只用等位基因频率也可以估计基因的年龄。基于频率和等位基因内变异性的估计可以组合以提供更准确的估计,也可以揭示自然选择的影响是否存在,等位基因年龄的估计取决于对群体历史和自然选择的假设。SNP年龄估计依据不同假设条件,往往有不同估计结果,图5显示了3种不同估计方法对同一数据估计结果的差异。 3 讨论 全基因组关联研究(GWAS)改变了我们对复杂性状(例如,体重指数BMI,血压和血脂)遗传基础的理解,以及对常见1型和2型糖尿病、冠状动脉疾病等疾病的认识。尽管GWAS成功地鉴定了与这些复杂性状相关的基因组区域,但是仅能解释遗传力的一小部分。GWAS的一个重要局限性在于,通常以常见变异关联信号为理论基础,每个信号仅对性状产生一定的效应。因此,人们越来越倾向“缺失遗传力”由罕见的遗传变异或低频变异(通常定义为MAF<1%)引起[10]。 全基因组测序技术是研究稀有遗传变异的金标准。传统GWAS方法分析群体中频率低于1%变异的功效有限。但下一代测序技术和新型分析技术的发展,稀有遗传变异在许多复杂性状中都发挥了作用,包括克罗恩病中的NOD2、1型糖尿病的IFIH1,病态窦房结综合征中的MYH6和調节空腹血糖水平的G6PC2。正在进行的基于人类群体的全基因组测序计划,例如千人基因组和UK10K项目,正在为跨群体研究稀有遗传变异的分布和特征提供了基础,通过改进的填补技术,可以对数以千万计具有复杂性状的变异进行关联研究。但DNA芯片技术通常对于常见SNP变异最有效,能够达到99.5%以上的准确度,而对于低频和稀有变异(次要等位基因频率<5%)则准确性不高[11]。随着针对稀有变异(例如Exome Chip和MetaboChip)芯片的广泛使用,已经发布了精确识别稀有变异的新方法。 Affymetrix和Illumina两家公司有专门针对低频变异(次等位基因频率<5%)的基因芯片,可以用于遗传学关联研究。现有用于常见SNP的芯片基因型分型算法(如MPAM、DM、RLMM、GEL、BRLMM、CRLMM、CHIAMO等)不适用于稀有变体,因为这些方法在对数据进行聚类时会假定存在3个基因型类,而稀有变异则不适用这种假设。例如,对于处于哈代温伯格平衡的次等位基因频率<1%的变异,则需要对100 000个样本进行基因分型,以期望每个基因型类别至少有10个信号[12]。另外,很难对稀有变异的算法进行基准校对,因为大多数样品(包括HapMap样品)的稀有变体的检测率都与常见变异不在同一数量级。使用家系数据也不一定能解决这个问题。如果未检测到稀有基因型,并且家系中的每个个体都被称为常见等位基因纯合子,且不会发生孟德尔错误。类似地,因为无法判断稀有变异等位基因基因型的正确识别率,比较算法结果与已知基因型的总体一致性几乎没用。例如,对于MAF=0.1%的SNP,计算所有位点常见等位基因纯合子的算法有99.8%的正确率[13]。因此,对于稀有变异,找到合适的比较数据集和评估算法的准确性比常见变异更具挑战性。 SNP是最常见的遗传突变,也可能是研究最多的遗传变异。SNP检测的原理较简单,在读段正确比对到参考序列以后,与参考序列比对不上的碱基就是SNP。但有许多因素会导致出现“假SNP”。常见导致“假SNP”的5种原因:①测序错误,测序仪本身导致“假SNP”的出现,读段中存在不正确的碱基,有时错误的碱基会以低质量序列打分数被反映出来;②PCR错误,PCR扩增过程中发生复制错误,导致出现碱基错误的读段,多次对同一PCR片段重复测序可能会加剧这种情况的出现;③污染,生物样品包含来自另一个样品或物种(例如细菌或病毒)的少量DNA;④比对错误,如将读段比对到错误的基因组位置,则可能导致明显的碱基不匹配;⑤存在未知的插入或缺失,如果变异附近存在未知的变异(例如大片段的插入或缺失),则位于该变异侧翼的读段可能比对不正确,从而产生SNP,这种错误较难发现和矫正[14]。可以通过以下3种方式判断SNP检测率是否有错误:①如在人类中,计算SNP的发生率是否约为每1 000个碱基1个;②转换/颠换比(Ts/Tv),已知自然发生转换形成的SNP(C→T,T→C,A→G,G→A)的速率显著高于颠换形成SNP的速率,正常情况下该比例应高于2;③等位基因频率:实际SNP数据应当在0.5和1.0等位基因频率处存在2个峰值,如果在0.5和1.0处没有明显的峰值,则SNP检测有问题[15]。 稀有变异的质控主要是去除错误率较高的变异和个体,以免产生虚假的关联信号。通常样本水平的质控优先于变异水平的质控,以确保质量不合格的样本不影响后续分析。样品混合是造成测序错误的主要原因,可能发生在整个采样及测序过程中。通常可以使用“DNA指纹”技术检测样品登记性别和测序标记估计“性别”一致性,或将测序结果与以前个体测序基因型相比较来判断样品是否有混合。可以使用Sequenom测序平台测得的几十个常见多态性位点作为“DNA指纹”[16, 17]。基因型错误可以利用同源一致性原理进行校正。 等位基因年龄(或突变年龄)指等位基因首次突变出现以来经过的时间。估计某个等位基因出现的时间可以推断物种迁徙,性状和自然选择的模式。估计等位基因年龄主要依据2种方式:①群体中等位基因的频率;②等位基因不同拷贝内发生的遗传变异,也称为等位基因内变异[18]。将2种方式联合使用可以提高等位基因年龄估计的准确性,有时也可以提供选择信号是否存在的信息。基于频率估计等位基因年龄的基本假设:在没有选择的情况下,高频等位基因比低频等位基因更古老。在有正向选择的情况下,由于自然选择、基因流、遗传漂移和突变等因素可能使等位基因频率增长较快。基于等位基因内部变异来估计等位基因年龄的基本假设,即每一世代重组均会破坏连锁不平衡,也会产生连锁的新变异。基于等位基因内变异估计等位基因年龄可以使用溯祖理论(coalescent theory),分析年代久远的历史突变时可以通过重建基因树并确定树根的方式来推断等位基因的年龄,而对于新近突变,群体遗传学使用突变,重组率和统计学模型来估计等位基因年龄[19]。 等位基因年龄估计的例子:囊性纤维化(Cystic fibrosis)、艾滋病抗性等位基因(AIDS-resistance allele,CCR5)、乳糖酶持久性(Lactase persistence)。最近,Albers和McVean[20]提出了一种非参数方法,使用基于聚结的突变和重组模型来估计等位基因的年龄。具体而言,该方法将时间推断为成百上千的染色体序列(单倍型)对之间的最新共同祖先(TMRCA),然后使用复合似然方法将该信息组合起来,以获得单个基因座突变时间的估计值。使用来自1 000个基因组计划和西蒙斯基因组多样性计划的数据,该方法应用于人类基因组中的1 600万个变体,以生成变体年龄图集[21]。 4 作者貢献 梅步俊负责文章的设计、撰写及程序编写,是试验设计和试验研究的执行人;包阿东和刘艳萍负责编写部分程序和资料整理,参与部分试验设计、试验结果分析。全体作者都阅读并同意最终的文本。 5 致谢 感谢华中农业大学姜勋平教授课题组在研究过程中提供的帮助。本研究受国家自然科学基金项目(31760660);内蒙古自治区自然科学基金项目(2019MS03092);内蒙古自治区肉羊遗传评估方法与应用工程技术研究中心;巴彦淖尔市科技创新基金项目;巴彦淖尔市科技计划项目(BKZ2016);内蒙古自治区科技计划项目(2020GG0201)等项目的资助。 6 参考文献 [1] BURKETT K M,MCNENEY B,GRAHAM J,et al. Using gene geneal-ogies to detect rare variants associated with complex traits[J]. Hum Hered.,2014,78(3-4):117-130. [2] CHEN G,YUAN A,ZHOU Y,et al. Simultaneous analysis of common and rare variants in complex traits:Application to SNPs (SCARVAsnp)[J]. Bioinform Biol Insights,2012(6):177-185. [3] FENG T,ELSTON R C,ZHU X. Detecting rare and common variants for complex traits:sibpair and odds ratio weighted sum statistics (SPWSS,ORWSS)[J]. Genet Epidemiol.,2011,35(5):398-409. [4] OSCAR G R,DAETWYLER H D,MACLEOD I M,et al. Rare variants in transcript and potential regulatory reg-ions explain a small percentage of the missing heritability of complex traits in cattle[J]. PLoS One,2015,10(12):e0143945. [5] JOUAN L,GAUTHIER J,DION P A,et al. Rare variants in complex traits:novel identification strategies and the role of de novo mutations[J]. Hum Hered.,2012,74(3-4):215-25. [6] KARUNARATHNA C B,GRAHAM J. Using gene genealogies to localize rare variants associated with complex traits in diploid populations[J]. Hum Hered.,2018,83(1):30-39. [7] SLATKIN M,RANNALA B. Estimating allele age[J]. Annu Rev Genomics Hum Genet.,2000(1):225-49. [8] Malaspinas,Anna-Sapfo. Estimating allele age and selection coefficient from time-serial data[J]. Genetics,2012,192(2):599-607. [9] GANDOLFO,LUKE,C,et al. Dating rare mutations from small samples with dense marker data[J]. Genetics,2014,197(4):1315-1327. [10] KIM S,LEE K,SUN H. Statistical selection strategy for risk and protective rare variants associated with complex traits[J]. J Comput Biol.,2015,22(11):1034-1043. [11] LETTRE,G. Rare and low-frequency variants in human common diseases and other com-plex traits[J]. J Med Genet.,2014,51(11):705-714. [12] LI B,LIU D J,LEAL S M. Identifying rare variants associated with complex traits via sequencing[J]. Curr Protoc Hum Genet.,2013(1):1-26. [13] LU T H,AUSTIN E,BONNER A,et al. Applications of machine learning and data mining methods to detect associations of rare and common variants with complex traits[J]. Genet Epidemiol.,2014,38(1):81-85. [14] MR MUNAF?,FLINT J. Common or rare variants for complex traits?[J]. Biol Psychiatry,2014,75(10):752-753. [15] KALLIOPE P,IOANNA T,ELEFTHERIA Z. In search of low-frequency and rare variants affecting complex traits[J]. Hum Mol Genet.,2013,22(R1):16-21. [16] RITCHIE G R S,FLICEK P. Functional annotation of rare genetic variants,in assessing rare variation in complex traits:design and analysis of genetic studies[M]. E. Zeggini and A. Morris,Editors. New York(NY):2015 57-70. [17] RUDRA P,BROADAWAY K A,WARE E B,et al. Testing cross-phenotype effects of rare variants in longitudinal stud-ies of complex traits[J]. Genet Epidemiol.,2018,42(4):320-332. [18] DUBON M,PEDROSA V,FEITOSA F,et al. Identification of novel candidate genes for age at first calving in Nellore cows using a SNP chip specifically developed for Bos taurus indicus cattle[J]. Theriogenology,2021,173:156-162. [19] SCHMIDT N,K SCH?CKER,KRAUSE I,et al. Genome-wide SNP typ-ing of ancient DNA:Determination of hair and eye color of Bronze Age humans from their skeletal remains[J]. Am J Phys Anthropol.,2020,172(1):99-109. [20] HAMANN L,SZWED M,MOSSAKOWSKA M,et al. First evidence for STING SNP R293Q being protective regarding obesity-associated cardiovascular disease in age-advanced subjects-a cohort study[J]. Immun Ageing,2020,17:7. [21] SINGH A,BABYAK M A,SIMS M,et al. Evaluating the precision of EBF1 SNP x stress interaction association:sex,race,and age differences in a big harmonized data set of 28,026 participants[J]. Transl Psychiatry,2020,10(1):351. (責编:何 艳) 基金项目 国家自然科学基金项目(31760660);内蒙古自治区自然科学基金项目(2019MS03092);巴彦淖尔市科技计划项目(BKZ2016);内蒙古自治区科技计划项目(2020GG0201)。 作者简介 刘燕萍(1969—),女,副教授。研究方向:动物胚胎移植及家畜的保种和育种。 收稿日期 2021-12-06