杨宇昕,邹枨
基于温带和热带玉米群体全基因组F和XP-EHH的 选择信号检测
杨宇昕,邹枨
(中国农业科学院作物科学研究所,北京 100081)
【目的】玉米起源于热带地区,经过自然和人工选择,广泛的种植于温带地区。开花是玉米生长发育的中心环节,也是热带玉米向温带环境种植的主要适应性性状。鉴定玉米在驯化过程中出现的受选择基因区段,并进一步挖掘开花候选基因,为玉米的群体改良、开花遗传机理解析提供数据支撑。【方法】首先单独分析30份温带玉米自交系和21份热带玉米自交系的单倍型数据,通过过滤高缺失和等位基因频率较低的变异位点,得到高质量的SNP(single nucleotide polymorphism)标记,利用SnpEff软件对温带和热带玉米群体的基因组多态性位点进行了功能预测。其次过滤得到同时存在于温带和热带玉米的高质量SNP标记,对温带和热带玉米的基因型数据进行主成分分析(principle component analysis,PCA)以确定其群体结构,之后利用群体分化指数(fixation index,F)和群体间扩展单倍型纯合度(cross population extended haplotype homozygosity,XP-EHH)法分析温带和热带玉米群体间的选择信号分布情况,选择F和XP-EHH值的top 1%为阈值,筛选得到受选择位点。通过对SNP进行功能注释得到温热带玉米群体受到选择的基因。利用agriGO工具对候选驯化基因进行功能富集分析。利用相关的生物信息学数据库对候选基因进行功能注释,进一步鉴定玉米驯化过程中的开花候选基因。【结果】通过对温热带玉米群体的高测序深度的SNP进行分析,发现热带玉米群体的SNP数目为14 123 408个,温带玉米群体的SNP数目为8 791 673个,鉴定到的SNP主要分布于基因间区。2个群体中均存在的SNP标记数目是204 752个。主成分分析表明温带和热带玉米可以显著的分为两个类群。F选择信号的top 1%是0.3593,共鉴定到557个候选驯化基因,XP-EHH选择信号法的top 1%是3.2681,共鉴定到1 913个候选基因。鉴定到多个候选基因与玉米的开花调控密切相关,包括、、如抑制开花基因的表达,导致玉米在长日照环境下出现晚花表型,是一个重要的开花调控基因;COL1与开花促进因子FT蛋白互作,加速玉米开花以适应长日照环境;的功能注释揭示该基因是一个光敏色素互作因子,与光周期基因互作。【结论】热带玉米群体具有更高的遗传多态性,筛选到一系列参与了热带玉米和温带玉米的分化候选基因,并且重点挖掘了参与其中的玉米开花调控相关基因。
玉米;选择信号;群体分化指数;群体间扩展单倍型纯合度;开花基因
【研究意义】玉米是非常重要的粮食和饲料作物,考古学和遗传学研究证明现代玉米起源于约9 000年前的墨西哥西南部,其野生祖先是大刍草[1-3]。玉米的起源中心位于低纬度短日照的热带环境,经过不断地人工选择和驯化,逐渐降低了光周期敏感性,并且被广泛种植于58°N到40°S的温带长日照地区[4-5]。根据玉米对地理环境的适应性,其可以划分为适应长日照环境的温带玉米和适应短日照环境的热带玉米2种类型[6]。热带玉米不仅具有优良的农艺性状(例如根系发达、抗病虫性强[7]等特点),而且具有丰富的遗传变异[8],是进行群体改良的优良材料。不同的玉米群体在人工选择和驯化的过程中,逐渐适应当地的生长环境,导致染色体区段上控制目标性状基因的优势等位基因频率逐渐增加,多态性发生改变,根据中性遗传假说[9],这将会导致与目的基因紧密连锁的染色体序列多态性也会随之发生改变,这一个过程称之为搭车效应[10]。由于人工选择而导致的DNA结构变化称之为即选择信号(selection signal),其特点是染色体区段上出现较长距离的单倍型纯合、连锁不平衡值改变以及优势等位基因频率的增加。因此,利用选择信号法探究温热带玉米群体的基因组变化,可以鉴定在热带玉米适应性改良过程中受到选择的基因区段,并且深入的挖掘开花基因,对于揭示玉米的驯化改良的遗传机制具有重要意义。【前人研究进展】选择信号检测方法根据其分析原理可以分为以下3种类型:(1)基于等位基因频率谱的方法,代表的计算方法包括Tajima's D[11]和CLR(composite likelihood ratio)[12]等;(2)基于连锁不平衡的方法,主要包括EHH(extended haplotype homozygosity)[13]、iHS(integrated haplotype score)[14]和XP-EHH[15]等;(3)基于群体分化进行群体遗传分化的方法,主要包括F法[16-18]。目前,应用较为广泛的选择信号检测方法包括群体分化指数法(F)和群体间扩展单倍型纯合度法(XP-EHH)。F统计理论最早由WRIGHT[16]提出,经过对其分析方法和计算理论的不断改进,如今使用较多的是由WEIR等[17]提出的无偏估计的F。F选择信号法可以扫描全基因组范围内的SNP位点,计算每个SNP的F值,其取值范围为0—1,0代表群体间所有位点都没有出现分化,1代表群体间已经完全分化。XP-EHH选择信号是基于基因的连锁不平衡原理,群体经过人工选择和改良,将会出现较大范围的染色体重组,由于连锁作用的存在,导致突变基因附近的中性位点也会逐代的传递,因此,在染色体上形成较长范围的单倍型纯合。XP-EHH的计算方法是EHH和iHS统计原理的扩展,相比于F方法只能计算出发生分化的位点,XP-EHH统计量可以得到选择作用所在的群体,即XP-EHH统计值为正数时,表明选择发生在试验群体,反之则发生在参考群体。随着越来越多物种的参考基因组构建完成,利用F和XP-EHH选择信号法,已经在遗传进化、基因挖掘等生物学领域取得了很大的进展。AXELSSON等[19]对狼和狗采取全基因组重测序得到3.8亿个SNP遗传变异标记,通过进行F选择信号检测,在淀粉消化和脂肪代谢中起到重要作用的10个调控基因表现出明显的选择信号,这些调控基因可以促进狗的祖先在以淀粉为主要食用能量的人类社会中生存,相比于肉食性习性动物的狼,可以得到更多食物,这种可以消化淀粉的适应性演化是狼驯化为狗的关键步骤。LIU等[20]利用温带、热带和亚热带玉米中代表性的260个玉米自交系,结合F的计算方法,发现热带玉米相比于温带玉米具有更高的遗传多样性和更多的等位基因位点。通过研究地方品种和自交系的位点间差异,表明现代玉米低于80%的位点来源于地方品种,为利用玉米地方品种进行改良提供了有力的试验支持。HE等[21]利用XP-EHH选择信号的方法,在温带玉米改良进程中一共鉴定到超过1 100个候选基因区段,通过基因富集分析,发现这些基因主要参与蔗糖合成和油分含量调控等。【本研究切入点】随着高通量测序技术在农业领域的广泛应用,高质量的玉米参考基因组图谱[22-23]和单倍型图谱[24-25]相继构建完成,极大地促进了玉米功能基因组学的发展,同时这些公共数据也为广大科研人员进行其他的生物学问题研究提供了宝贵的数据资源。热带玉米在经历人工驯化和改良过程中逐渐适应温带环境,因此,有必要利用选择信号法揭示在改良过程中发生选择的位点,挖掘候选驯化基因,进一步从基因层面上探究玉米的群体改良。【拟解决的关键问题】本研究选择具有代表性的30个温带玉米自交系和21个热带玉米自交系作为材料,基于全基因组单倍型数据,分析温热带玉米基因组多态性,并且结合F和XP-EHH 2种方法进行群体间选择信号的检测,挖掘发生选择的驯化基因,为玉米驯化的遗传机理解析提供理论依据。
选取具有代表性的30个温带玉米自交系和21个热带玉米自交系,其基因型数据来自于玉米单倍型图谱第三版[25],选择单倍型图谱中测序深度较高的重测序数据,以确保其准确率。原始基因型数据以VCF文件存储。考虑到原始基因型数据等位基因频率偏低可能影响后续分析[26],因此,利用VCFtools软件将缺失率较高和最小等位基因频率低于0.05的SNP剔除,相关参数为--maf 0.05。首先进行温带玉米群体和热带玉米群体的SNP筛选,分别得到温带和热带的基因型数据,这两个基因型数据只进行SNP的功能注释。使用的选择信号计算方法要求温带和热带玉米群体具有相同的SNP数目,因此,将温带玉米和热带玉米一起进行SNP的筛选,得到共存于温带和热带玉米群体的高质量SNP标记,该基因型用于F和XP-EHH选择信号的计算。为了评估温热带玉米群体全基因组水平上的变异情况,利用SnpEff[27](版本号4.3p)软件对温热带玉米群体的变异信息进行功能注释。SNP密度分布利用R软件包CMplot绘制。玉米参考基因组下载于Ensemble数据库。
主成分分析选择Tassel(版本号5)软件。首先将过滤得到的温热带玉米群体的基因型文件导入到Tassel软件,按照5个成分进行分析,选择前2个主成分进行绘图展示。
采用群体分化指数(F)法进行温热带玉米间选择信号的检测,其计算原理是依据染色体等位基因频率变化。群体间选择信号的检测可以揭示不同群体驯化过程中经历的自然选择。按照WEIR等[17]的统计方法进行F值的计算,考虑到基于单位点SNP扫描的方法容易受到遗传漂变等因素的影响,因此,为降低假阳性,选择滑动窗口的计算方法来增加选择信号的灵敏度[28]。利用VCFtools软件计算滑动窗口内的F值,相关参数设置为--fst-window-size 200 kb、--fst-window-step 100 kb。利用R包qqman展示全基因组水平上的F值。为了鉴定F值的受选择位点,选择F值的top 1%作为显著阈值线[29],高于阈值线的SNP位点定义为“受选择位点”,F的计算公式参考WEIR等[17]报道。
同时利用基于群体间扩展单倍型纯合度(XP- EHH)的方法检测群体间存在分化的基因区段。XP-EHH选择信号的计算使用selscan[30]软件(版本号v1.1.0),将温带玉米群体作为试验群体,热带玉米群体作为参考群体。当基因组某一区段的XP-EHH的值为正,代表在试验群体中发生了选择,反之则表示参考群体的基因组片段发生选择。基于XP-EHH选择信号得到的统计值近似符合正态分布[15],对XP-EHH的值进行标准化正态分布处理,使用selscan的norm参数对原始的XP-EHH值进行标准化处理。将标准正态化处理后的XP-EHH值从大到小排序,取其top 1%[29]作为显著的阈值线用以判断温、热带群体间是否发生选择,并且筛选出受选择基因区段,XP-EHH的计算原理参考SABETI等[15]的报道。
F法是按照滑动窗口计算得到的受选择位点,因此,将滑动窗口的起始和终止位点各向上游和下游扩增50 kb作为受选择选择区段,使用Bedtools[31](版本号v2.26)软件将受选择位点附近的候选驯化基因与玉米参考基因组进行基因比对,编码基因若是落在滑动窗口内则定义为候选基因。针对XP-EHH法得到的受选择位点,以显著SNP位点向上下游各扩增50 kb作为受选择的区域,同样利用Bedtools软件筛选出候选基因。由于篇幅所限,利用maizeGDB(https://www. maizegdb.org/)对选择信号值较高的基因进行基因功能注释。
利用在线工具agriGO进行候选基因的富集分析[32]。分析方法采用奇异富集分析(singular enrichment analysis,SEA),参考数据库选择ssp. v5a,显著性GO条目的检验使用Fisher精确校验,显著性阈值为0.05。分析内容包括细胞组分、生物过程和分子功能等。
利用SnpEff软件评估温、热带玉米群体在基因组水平上的多态性情况(图1),基因组注释信息来源于B73自交系。结果表明,热带玉米染色体的SNP数目显著的高于温带群体。热带玉米群体一共鉴定到14 123 408个SNP,染色体上平均每145个碱基存在一个变异位点;在温带玉米群体中共鉴定到个8 791 673个SNP,平均每234个碱基存在一个变异位点。温带和热带玉米群体一起进行SNP筛选,最终得到了204 752个符合过滤标准的SNP位点。此外,还分析了温带玉米和热带玉米群体中SNP的分布区域(表1),结果表明,温带和热带玉米群体中的SNP变异主要都发生在基因区间(Intergentic),此外依次是下游区间(Downstream)、上游区间(Upstream)、内含子区间(Intron)、外显子区间(Exon)等。
表1 温带和热带玉米群体的SNP在基因组区间的分布比例
a:温带玉米群体SNP分布;b:热带玉米群体SNP分布。横轴代表染色体的物理位置,窗口大小为1 Mb区间。深绿色代表SNP密度小的区域,红色代表SNP密度高的区域
温带玉米和热带玉米由于对光周期敏感性的不同,其表型存在较大差异(图2),例如株高、叶片数、开花期等。温带材料可以在温带环境正常散粉开花,热带材料生殖生长期较长,未能在温带环境散粉开花。此外,热带材料的株高也显著的高于温带材料。利用温带玉米和热带玉米基因组信息,借助主成分分析策略来揭示温带和热带玉米群体之间的遗传关系(图3),按照PC1和PC2 2个维度可以将使用的玉米自交系分为温带和热带2个类群。
温带玉米光周期敏感性低,可以在长日照的温带环境下正常生长结实;而热带玉米则具有较强的光周期敏感性,主要栽培于热带环境。利用2个群体共有的204 752个SNP标记计算得到每个滑动窗口内的F值,全基因组水平上F的top 1%是0.3593(图4),高于阈值线的受选择位点一共是1 908个,占总变异位点数的0.9%。其中第4染色体受到选择的显著性位点最多,是414个;第7染色体最少,是61个。第1染色体66 460 001—66 510 000区间内含有最高的F值,其值为0.77。在第1、2、3、4、5、6、8、9、10染色体上都有较强的选择信号。
图2 温带(a)和热带(b)玉米自交系表型
图3 温、热带群体的主成分分析
XP-EHH选择信号检测的原理是根据原有的突变区段由于连锁效应较难被打破,而产生新的突变需要较长的选择周期才能达到很高的基因频率。因此,当某个单倍型区段在群体中出现频率较高,代表该基因区段经历了选择,可以利用XP-EHH选择信号的方法鉴定出来。利用selscan软件计算全基因组的上每个SNP位点的XP-EHH值,使用温带群体作为试验群体,热带群体作为参考群体,当XP-EHH值为正值时,代表在温带群体发生了选择,其值为负值时,表明驯化选择发生在热带群体。由于主要关注热带玉米向温带玉米的驯化,因此,只分析了XP-EHH值大于0的情况,即温带玉米群体中发生选择的染色体区段(图5),结果表明,在第2、3、7、8、10染色体存在较多的选择区段,其top 1%为3.32,高于阈值线的SNP位点数目是39 664个,XP-EHH值最高的位点是位于Chr.2:69.324 Mb附近,其值为7.3298。以受选择SNP位点为核心向上下游各扩增50 kb得到100 kb的候选基因区段,利用Bedtools软件将其与玉米B73参考基因组进行比对,共得到1 913个候选基因,其中包含2个与玉米适应性改良关系密切相关的基因,分别是[33]和[34]。(Chr.9:115 786 897—115 789 787),其F值为3.58,最新的一项研究表明是玉米开花控通路中的一个重要调节因子[33],在长日照环境下,抑制开花促进因子[35-36]的表达,导致玉米晚花,通过CRISPR/Cas9技术介导的敲除,发现可以促进玉米提早开花。鉴定到在温带群体受到选择,因而加速热带玉米群体对温带环境的适应,这与前人报道一致[33]。(Chr.9:108 447 974—108 449 794)是玉米光周期调控通路中的重要基因,该基因编码蛋白可以和开花促进因子FT蛋白互作,加速玉米开花以适应长日照环境,是一个重要的开花调控基因。
利用F鉴定得到557个候选基因和XP-EHH得到的1 913个候选基因。基因富集分析表明F法得到的候选基因富集在生物学过程(biological process,P),共19个显著的GO条目(表2)。这些GO条目主要涉及到肌动蛋白发育调控、微丝的发育调控和细胞骨架构成等。利用XP-EHH得到的1 913个基因没有富集得到显著的GO条目,推测是因为热带玉米驯化温带玉米涉及到众多农艺性状的改变,并且许多农艺性状是由一系列微效数量位点控制,因此未能得到显著的GO条目。尽管如此,XP-EHH的方法仍然可以得到较多的选择基因,并且这些基因中鉴定得到了与玉米花期调控相关的基因,例如和。因此,通过选择信号的方法可以为解析玉米驯化的遗传机理、鉴定候选驯化基因提供实验依据。除了这些已经报道过的调控基因,还统计了选择信号值高于top 1%和top 0.1%的候选基因(表3)。另外,通过maizeGDB网站进行基因功能注释,发现这些基因均是玉米生长发育过程中的重要调控因子,例如是一个光敏色素调节因子,参与玉米开花通路调控;参与下胚轴的发育调控。
表2 FST选择信号得到的基因进行GO富集分析的结果
表3 选择信号鉴定得到的候选基因功能注释
a受选择区域内较高F值的基因;b受选择区域内较高XP-EHH值的基因;c基于maizeGDB的基因功能注释;d同时受到F和XP-EHH选择的基因;*代表受到选择的关键基因(选择信号值高于top 1%);**代表受到强烈选择的基因(选择信号值高于 top 0.1%)
aGenes with higherFvalues in selected regions;bGenes with higher XP-EHH values in selected regions;cGene function annotation based on maizeGDB;dCandidate genes identified by bothFand XP-EHH methods; *Represents the selected key genes (the selection signal over top 1%); **Represents the strongly selected genes (the selection signal over top 0.1%)
阈值线代表选择信号值的top 1% the cutoff lines represent the top 1% of the XP-EHH selection signal
玉米起源于热带环境的墨西哥西南部,经过对其进行适应性改良,玉米逐渐的扩散到世界各地。根据光周期敏感性的不同,玉米可以被划分为温带玉米和热带玉米[6]。热带玉米靠近玉米起源中心,很少经历人工选择和改良,保留着大量的有利变异,是进行群体遗传改良的重要材料[8]。本研究选择30份温带玉米自交系和21份热带玉米作为研究材料进行重测序。通过SnpEff软件对变异文件进行基因组的功能的注释和预测,发现热带玉米基因组具有更多的SNP(图1),无论是SNP的总数还是平均分布密度均显著高于温带玉米。该结果证明了热带玉米具有更高的遗传多样性,这与前人研究即热带玉米具有更高的遗传多样性一致[8]。主成分分析发现温带玉米群存在更大的变异幅度(图2),推测是因为温带玉米群体包含较多的亚群,因此其变异幅度更广,该结果和前人的主成分分析一致[6]。这也表明本研究所使用的基因型数据以及群体划分的准确性,为后续的选择信号分析奠定了数据基础。玉米作为一个广适性的作物,其在基因组水平存在多态性变化,进而导致相关表型变化,是使其成为有重要影响力作物的一个重要条件。研究揭示了温热带玉米基因组水平SNP变异情况,可为后续的玉米功能基因组学研究提供理论基础。
随着海量生物学数据的产出,使用高密度的SNP标记进行群体间选择信号的分析在很多物种中都已成功进行,包括人类[37]、绵羊[38]、水稻[39]等。选择信号是一种重要的群体遗传学研究手段,利用合适的选择信号可以显著的揭示玉米适应性进化的遗传机理,并且可以深入挖掘与农艺性状相关的候选基因[21]。本研究利用F和XP-EHH的方法进行选择信号的鉴定。F可以利用等位基因的频率变化来筛选基因组受到驯化选择的基因区段[16],这是因为同一个物种由于驯化的目的、种植环境、改良时间不同将会导致基因组上的等位基因频率发生变化,虽然它可以鉴定出受到选择的基因,但是不能确定选择的方向[40],因此,本研究进一步引入XP-EHH选择信号方法。XP-EHH是一种基于基因组上单倍型纯合度的方法,鉴定不同群体间发生选择作用的区段,XP-EHH统计分析方法引入了参考群体和试验群体的概念,因此可以根据统计值判断基因组发生选择的方向,这为深入筛选候选驯化基因提供了更有力的数据支撑[41]。
传统的选择信号检测方法主要利用RFLP、AFLP和SSR等分子标记。有研究利用玉米和大刍草的99个SSR标记作为选择信号进行分析[2],揭示了现代玉米起源于约9 000年前的墨西哥西南部。然而RFLP、AFLP和SSR等分子标记开发程序繁琐,并且定位精度不高,如今已经很少应用于选择信号的研究之中。随着新一代测序技术的发展,基于高通量测序技术得到的SNP标记由于其精度高、密度大以及定位更加准确等优点,逐渐取代了传统的分子标记,成为进行选择信号检测的主要方法[19-21]。本研究选择具有代表性的温带和热带玉米群体的重测序数据,进行全基因组水平的F和XP-EHH的2种选择信号的鉴定,分别筛选到了557和1 913个候选基因。利用F鉴定得到的基因进行富集分析,结果表明这些基因富集在一些重要的生物学通路上,主要参与肌动蛋白的发育调节(GO:0008064,GO:0032956)、微丝的发育调节(GO:0030832)、细胞骨架发育调控(GO:0030036)等。本研究利用F得到基因进行富集分析,得到的显著GO条目较少,此外XP-EHH选择信号法鉴定到的候选基因未能得到显著的GO条目,不能准确地反映群体分化的结果。推测是目前所用的参考数据库信息不够全面,因此未能特异的鉴定出富有生物学意义的GO条目。本研究通过对具有较高选择信号的基因进行功能注释,发现这些基因是在热带玉米改良为温带玉米过程中受到了极大的选择,同时也是玉米生长发育过程中重要的调控因子(表3)。因此,结合相关的表型性状和选择信号法可以鉴定玉米适应改良过程中发生变化的基因。其中通过XP-EHH选择信号法,鉴定到温热带玉米适应性改良相关的调控基因[33]和玉米开花调控相关的基因[34]。尽管前人曾经利用过相关的选择信号鉴定了玉米在驯化过程中的选择基因[21],然而本研究着重挖掘了与开花相关的调控基因,开花是玉米生育期的一个重要农艺性状,关系到植株从营养生长到生殖生长的转变。其中包括已经报道过的和。此外在候选基因集中鉴定到了一些开花调控候选基因,例如,基因功能注释表明该基因是一个光敏色素互作因子(表3),与光周期基因互作[42]。因此,本研究鉴定得到的候选基因可以为后续的开花遗传机理解析提供理论基础。这些研究表明结合F和XP-EHH选择信号法是进行群体遗传分化、功能富集分析和驯化基因挖掘的一个重要手段。
基于对温带和热带玉米的基因型数据分析,发现热带玉米具有更高的遗传多样性,表明其是玉米分子育种的重要资源。鉴定到玉米驯化改良过程中受到选择的基因,且部分受选择的基因参与玉米开花发育调控途径。
[1] PIPERNO D R, RANERE A J, HOLST I, IRIARTE J, DICKAU R. Starch grain and phytolith evidence for early ninth millennium BP maize from the Central Balsas River Valley, Mexico., 2009, 106(13): 5019-5024.
[2] MATSUOKA Y, VIGOUROUX Y, GOODMAN M M, SANCHEZ J, BUCKLER E, DOEBLEY J. A single domestication for maize shown by multilocus microsatellite genotyping., 2002, 99(9): 6080-6084.
[3] VAN HEERWAARDEN J, DOEBLEY J, BRIGGS W H, GLAUBITZ J C, GOODMAN M M, Gonzalez J d J S, ROSS-IBARRA J. Genetic signals of origin, spread, and introgression in a large sample of maize landraces., 2011, 108(3): 1088-1092.
[4] BUCKLER E S, HOLLAND J B, BRADBURY P J, ACHARYA C B, BROWN P J, BROWNE C, ERSOZ E, FLINT-GARCIA S, GARCIA A, GLAUBITZ J C, et at.. The genetic architecture of maize flowering time., 2009, 325(5941): 714-718.
[5] SWARTS K, GUTAKER R M, BENZ B, BLAKE M, BUKOWSKI R, HOLLAND J, KRUSE-PEEPLES M, LEPAK N, PRIM L, ROMAY M C, et at. Genomic estimation of complex traits reveals ancient maize adaptation to temperate North America., 2017, 357(6350): 512-515.
[6] LU Y L, YAN J B, GUIMARAES C T, TABA S, HAO Z F, GAO S B, CHEN S J, LI J S, ZHANG S H, VIVEK B S, et at.. Molecular characterization of global maize breeding germplasm based on genome-wide single nucleotide polymorphisms., 2009, 120(1): 93-115.
[7] TALLURY S, GOODMAN M. Experimental evaluation of the potential of tropical germplasm for temperate maize improvement., 1999, 98(1): 54-61.
[8] HALLAUER A R, CARENA M J. Adaptation of tropical maize germplasm to temperate environments., 2013, 196(1): 1-11.
[9] KIMURA M. Evolutionary rate at the molecular level., 1968, 217(5129): 624-626.
[10] SMITH J M, HAIGH J. The hitch-hiking effect of a favourable gene., 1974, 23(1): 23-35.
[11] TAJIMA F. Statistical method for testing the neutral mutation hypothesis by DNA polymorphism., 1989, 123(3): 585-595.
[12] NIELSEN R, WILLIAMSON S, KIM Y, HUBISZ M J, CLARK A G, BUSTAMANTE C. Genomic scans for selective sweeps using SNP data., 2005, 15(11): 1566-1575.
[13] SABETI P C, REICH D E, HIGGINS J M, LEVINE H Z, RICHTER D J, SCHAFFNER S F, GABRIEL S B, PLATKO J V, PATTERSON N J, MCDONALD G J, et at.. Detecting recent positive selection in the human genome from haplotype structure., 2002, 419(6909): 832.
[14] VOIGHT B F, KUDARAVALLI S, WEN X Q, PRITCHARD J K. A map of recent positive selection in the human genome., 2006, 4(3): e72.
[15] SABETI P C, VARILLY P, FRY B, LOHMUELLER J, HOSTETTER E, COTSAPAS C, XIE X, BYRNE E H, MCCARROLL S A, et at.. Genome-wide detection and characterization of positive selection in human populations., 2007, 449(7164): 913.
[16] WRIGHT S. The genetical structure of populations., 1949, 15(1): 323-354.
[17] WEIR B S, COCKERHAM C C. Estimating F-statistics for the analysis of population structure., 1984, 38(6): 1358-1370.
[18] GIANOLA D, SIMIANER H, QANBARI S. A two-step method for detecting selection signatures using genetic markers., 2010, 92(2): 141-155.
[19] AXELSSON E, RATNAKUMAR A, ARENDT M L, MAQBOOL K, WEBSTER M T, Perloski M, Liberg O, ARNEMO J M, HEDHAMMAR A, LINDBLAD-TOH K. The genomic signature of dog domestication reveals adaptation to a starch-rich diet., 2013, 495(7441): 360.
[20] LIU K J, GOODMAN M, MUSE S, SMITH J S, BUCKLER E, DOEBLEY J. Genetic structure and diversity among maize inbred lines as inferred from DNA microsatellites., 2003, 165(4): 2117-2128.
[21] HE C, FU J J, ZHANG J, Li Y X, ZHENG J, ZHANG H W, YANG X H, WANG J H, WANG G Y. A gene-oriented haplotype comparison reveals recently selected genomic regions in temperate and tropical maize germplasm., 2017, 12(1): e0169806.
[22] SCHNABLE P S, WARE D, FULTON R S, STEIN J C, WEI F S, PASTERNAK S, LIANG C Z, ZHANG J W, FULTON L, GRAVES T A, et at.. The B73 maize genome: complexity, diversity, and dynamics., 2009, 326(5956): 1112-1115.
[23] JIAO Y P, PELUSO P, SHI J H, LIANG T, STITZER M C, WANG B, CAMPBELL M S, STEIN J C, WEI X H, CHIN C S, et at.. Improved maize reference genome with single-molecule technologies., 2017, 546(7659): 524.
[24] CHIA J M, SONG C, BRADBURY P J, COSTICH D, DE LEON N, DOEBLEY J, ELSHIRE R J, GAUT B, GELLER L, GLAUBITZ J C, et at.. Maize HapMap2 identifies extant variation from a genome in flux., 2012, 44(7): 803.
[25] BUKOWSKI R, GUO X S, LU Y L, ZOU C, HE B, RONG Z Q, WANG B, XU D W, YANG B C, XIE C X, et at.. Construction of the third-generation Zea mays haplotype map., 2017, 7(4): gix134.
[26] DANECEK P, AUTON A, ABECASIS G, ALBERS C A, BANKS E, DEPRISTO M A, HANDSAKER R E, LUNTER G, MARTH G T, SHERRY S T, et at.. 1000 Genomes Project Analysis Group. The variant call format and VCFtools., 2011, 27(15): 2156-2158.
[27] CINGOLANI P, PLATTS A, WANG L L, COON M, NGUYEN T, WANG L A, LAND S J, LU X Y, RUDEN D M. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of drosophila melanogaster strain w1118; iso-2; iso-3., 2012, 6(2): 80-92.
[28] MA Y, DING X, QANBARI S, WEIGEND S, ZHANG Q, SIMIANER H. Properties of different selection signature statistics and a new strategy for combining them., 2015, 115(5): 426.
[29] HOAGLIN D C, MOSTELLER F, TUKEY J W.. New York: John Wiley & Sons, 1983.
[30] SZPIECH Z A, HERNANDEZ R D. selscan: an efficient multithreaded program to perform EHH-based scans for positive selection., 2014, 31(10): 2824-2827.
[31] QUINLAN A R, HALL I M. BEDTools: a flexible suite of utilities for comparing genomic features., 2010, 26(6): 841-842.
[32] TIAN T, LIU Y, YAN H Y, You Q, Yi X, Du Z, XU W Y, SU Z. agriGO v2. 0: a GO analysis toolkit for the agricultural community, 2017 update., 2017, 45(W1): W122-W129.
[33] HUANG C, SUN H Y, XU D Y, LIANG Y M, WANG X F, XU G H, TIAN J G, WANG C L, LI D, WU L H, et at..enhances maize adaptation to higher latitudes., 2018, 115(2): E334-E341.
[34] KHAN S, ROWE S C, HARMON F G. Coordination of the maize transcriptome by a conserved circadian clock., 2010, 10(1): 126.
[35] GUO L, WANG X, ZHAO M, HUANG C, LI C, LI D, YANG C , YORK A M, XUE W, XU G, LIANG Y, CHEN Q, DOEBLEY J F, TIAN F. Stepwise cis-regulatory changes incontribute to maize flowering-time adaptation., 2018, 28(18): 3005-3015.
[36] MENG X, MUSZYNSKI M G, DANILEVSKAYA O N. The-likegene functions as a floral activator and is involved in photoperiod sensitivity in maize., 2011, 23(3): 942-960.
[37] SHEEHAN M J, NACHMAN M W. Morphological and population genomic evidence that human faces have evolved to signal individual identity., 2014, 5: 4800.
[38] 曾滔, 赵福平, 王光凯, 吴明明, 魏彩虹, 张莉, 李利, 张红平, 杜立新. 基于群体分化指数FST的绵羊全基因组选择信号检测. 畜牧兽医学报, 2013, 44(12): 1891-1899.
ZENG T, ZHAO F P, WANG G K, WU M M, WEI C H, ZHANG L, LI L, ZHANG H P, DU L X. Genome-wide detection of selection signatures in sheep populations with use of population differentiation index FST., 2013, 44(12): 1891-1899. (in Chinese)
[39] HUANG X, SANG T, ZHAO Q, QI F, ZHAO Y, LI C Y ZHU C R, LU T T, ZHANG Z W, LI M, et at.. Genome-wide association studies of 14 agronomic traits in rice landraces., 2010, 42(11): 961.
[40] MCVICKER G, GORDON D, DAVIS C, GREEN P. Widespread genomic signatures of natural selection in hominid evolution., 2009, 5(5): e1000471.
[41] 薛周舣源, 宋显威, 吴林慧, 王露珍, 崔家安, 孙章健, 张政, 马云龙. 畜禽选择信号检测方法及其统计学问题. 畜牧兽医学报, 2018, 49(6): 1099-1107.
XUE Z Y Y, SONG X W, WU L H, WANG L Z, CUI J A, SUN Z J, ZHANG Z, MA Y L. The identification methods of selection signatures in livestock and its statistical problems., 2018, 49(6): 1099-1107. (in Chinese)
[42] KUMAR I, SWAMINATHAN K, HUDSON K, HUDSON M E. Evolutionary divergence of phytochrome protein function inPIF3 signaling., 2016, 67(14): 4231-4240.
(责任编辑 李莉)
Genome-Wide Detection of Selection Signal in Temperate and Tropical Maize Populations with Use ofFand XP-EHH
YANG YuXin, ZOU Cheng
(Institute of Crop Science, Chinese Academy of Agricultural Sciences, Beijing 100081)
【Objective】Maize was first domesticated in tropical areas, but it has been cultivated widely in the temperate regions after natural and artificial selection. Flowering time is not only the key component of the entire growth period, but also a major adaptive trait during the dispersal process from tropical to temperate conditions. Thus, identifying the selected gene regions responsible for the adaptation to temperate zones, and discovering the genes that are involved in flowering time could provide a molecular basis for improving maize and for dissecting its flowering mechanism. 【Method】We analyzed the haplotype data of 30 temperate and 21 tropical maize inbred lines. High quality SNP (single nucleotide polymorphism) markers were obtained after filtering out SNPs with high missing rates and low allele frequencies. These high quality SNPs were annotated by SNPeff. Principle component analysis (PCA) of the genotypic data of temperate and tropical maize was performed to further validate the population structure of these samples. Using high quality SNP markers that were present in tropical and temperate populations, we calculated the selection signal using the fixation index (F) and cross population extended haplotype homozygosity (XP-EHH) methods. The top 1% of values was used as a significant threshold to identify the candidate selected signals. The candidate selected genes that we selected from temperate and tropical maize were identified based on their SNP annotation. The function of these selected genes was characterized furtherly by the GO enrichment analysis using agriGO. To identify the genes for flowering time that were under selection, bioinformatics databases were examined that contained relevant data on maize. 【Result】By analyzing the high depth resequencing data, we found 14123408 and 8791673 SNPs in tropical and temperate populations, respectively. The identified SNPs were mainly distributed in the intergenic regions. There were 204752 high quality SNPs that coexisted in temperate and tropical populations. PCA indicated that temperate and tropical maize can be divided into two groups. The top 1% ofFvalue and XP-EHH were 0.3059, 3.2681, and a total of 557 and 1 913 candidate genes were identified byFand XP-EHH methods, respectively. Many candidate genes were highly related to regulation of flowering time, which included,and.is a vital gene for regulating flowering time, and it negatively regulated the floral activator gene, which cause the late flowering time phenotype under long-day conditions. COL1 positively interacts with the FT protein to promote the transition of flowering time to adapt to the long-day environment. Functional annotations ofrevealed that it was a phytochrome interacting factor, and interacts with photoperiod gene. 【Conclusion】Our study revealed that tropical maize had higher genetic diversity than temperate maize. A series of genes that were under selection during the adaptation to tropical to temperate conditions were predicted, and we further explored the genes that were involved in flowering during this process.
maize; selection signal; fixation index; cross population extended haplotype homozygosity; flowering time genes
2018-10-30;
2018-12-09
国家重点研发计划(2016YFD0100303)、国家自然科学基金面上项目(31371638)
杨宇昕,E-mail:yyx0719@126.com。通信作者邹枨,E-mail:zoucheng@caas.cn
10.3864/j.issn.0578-1752.2019.04.001