向丽媛 徐 凯 苏 静 吴 超 袁 雄 郑兴飞 刁 英 胡中立 李兰芝,*
1 湖南农业大学 / 湖南省农业大数据分析与决策工程技术研究中心,湖南长沙410128;2 武汉大学 / 杂交水稻国家重点实验室,湖北武汉430072
水稻农艺性状包括株高、穗长、有效穗数、穗粒数、穗实粒数和千粒重等,通过研究和改良农艺性状可以提高产量,培育高产品种。随着高通量测序技术的发展,水稻全基因组测序的完成成为水稻品种改良重要转折点。全基因组关联分析(genome- wide association study,GWAS)是一种对全基因组范围内常见遗传变异(单核苷酸多态性和拷贝数)总体关联分析的方法。自植物中第一篇使用高分辨GWAS 鉴定数量性状相关基因/QTL 的报道[1]以来,在水稻中进行全基因组关联分析的报道越来越多,Yonemaru 等[2]对抽穗期、粒长、千粒重、籽粒表面积、每穗粒数、抗病6 个产量相关的性状进行全基因组关联分析,鉴定到8 个显著相关位点。Huang等[3]对517 份实验材料进行高通量测序,对株高等14 个农艺性状进行GWAS 分析,鉴定出了37 个显著关联的变异位点,且每个位点能够解释大约36%的表型变异,给水稻的遗传育种研究提供了重要的理论基础。GWAS 的出现加快了学者对各种性状遗传机制的认识,但该方法也存在以下局限性[4]:(1)目前,GWAS 利用SNP 芯片技术检测的SNP 大多是根据高密度单倍型图谱数据得来的,或者是以一定物理位置间隔选择的SNP。因此,关联分析所获得的SNP 位点不一定真正与性状有关,或位置有所偏差。(2)为防止假阳性关联,GWAS 分析采用非常严格的P值,因而很可能漏掉一些P值未达到GWAS要求的阈值但实际上有关联的SNP。(3)GWAS 分析通常局限于单个位点的边际效应[5],但很多性状的调控机制是由多个基因相互作用引起的。
针对GWAS 存在的缺点,也出现了很多相应的方法。如基于Wang 等[6]提出的多位点随机SNP 效应混合模型方法,编写了mrMLM 软件包(https:// cran.rproject.org/web/packages/mrMLM/index.html)。Hirschhorn[7]提出了基于通路的研究方法,利用基因功能、代谢通路等相关信息对GWAS 结果进行深入挖掘。当前以SNP 为对象的GWAS 通路分析算法分为非核算法和核算法两大类[8],其中非核算法主要包括基因功能富集分析(gene set enrichment analysis,GSEA)和分层贝叶斯优取(hierarchical Bayes prioritization,HBP),核算法包括线性核(linear kernel,LIN)、状态认证核(identity-by-status kernel,IBS)和尺度不变核(powered exponential kernel,PEK)。GSEA是目前GWAS 通路分析最常用的方法之一,GSEA 的结论基于一组相关基因而非单个基因,因此富集分析增加了研究的可靠性,且能识别出与生物现象最相关的生物过程,相比于单基因方法更有利于得到有意义的通路;同时比基于经典完备统计学理论的结果更稳定可靠。
目前,通路分析法在水稻中的研究较少,张远森[9]用GSEA 方法检测出103 个通路与14 个水稻农艺性状相关联,其中质体通路与抽穗天数、小穗数和分蘖数等13 个水稻农艺性状相关。此外,水稻一般配合力的高低与杂种优势对于是否能获得优良水稻品种同样重要。North Carolina design II(NCII)设计被广泛认为是进行配合力和杂种优势研究的经典遗传设计[10]。Liu 等[11]利用广陆矮4 号和特青产生的F2回交群体与不育系,按NCII 设计进行测交。发现一般配合力较低的亲本,子代的株高、抽穗期、颖花数这3 个性状反而呈现超表达,且其一般配合力效应显著上升。我们前期研究[10]用三系野败型杂交水稻的恢复系和微核心种质构成的品种群体,按照NCII 遗传交配设计,分别与5 个不育系测交,分析亲本一般配合力与相对竞争优势的相关性,表明亲本一般配合力之和与相对竞争优势在千粒重、株高、主穗二次枝梗数、主穗实粒数、主穗一次枝梗数、主穗颖花数性状间均呈极显著正相关。付新民等[12]利用野败型雄性不育系和恢复系,按照NCII 遗传交配设计表明,在水稻培育中,应当根据不同性状考虑不育系和恢复系对农艺性状的影响,进一步提高杂交水稻的杂种优势水平。梁康迳[13]采用包括现今生产上大面积推广的籼型恢复系在内组成的籼粳杂交水稻遗传群体,按NCII 设计,主要分析其穗部性状的杂种优势的遗传规律,建议适当扩大双亲的遗传差异,以保持杂种优势水平,并与培育目标和组合测配特点相结合,有效地培育适合不同环境或特定环境的超高产组合。
尽管关于水稻农艺性状全基因组关联分析、基于NCII 遗传设计的水稻配合力和杂种优势的研究很多,但是关于水稻农艺性状配合力和杂种优势的全基因组通路分析还未见报道。农艺性状的配合力和杂种优势,均类似于农艺性状表型本身,为数量性状,受多个基因控制。本研究按照NCII 遗传交配设计,构建测交群体,考察包括产量性状在内的 9个农艺性状,对水稻农艺性状表型、配合力和杂种优势进行通路分析,以期为水稻品种的培育和改良提供一定的理论基础。
部分材料由华中农业大学余四斌教授、四川农业大学李双成教授和扬州大学汤述翥教授馈赠。其中含29 份三系野败型杂交水稻的恢复系和86 份微核心种质构成品种群体。4 个两系不育系[矮64S(PA64)、广占 63S(GZ63)、Y58S 和新安S(AS)]及1个三系不育系[珞红3A(3A)]构成测交不育系。以上材料均为籼稻(详见附表1)。根据这5 个不育系(母本)和115 个籼稻品种(父本)的SNP 信息,进而推算出测交群体F1代的SNP 基因型用于后续分析。
根据NCII 遗传交配设计,在海南陵水开展杂交试验,构建测交群体。分别在2011年、2012年湖北鄂州、海南陵水两地进行杂交,获得F1杂交种。115个父本与575 个F1杂交子代于2013年种植在华中农业水稻基地,田间种植1 行10 株,种植密度16.7 cm × 26.7 cm,每点2 次重复,随机区组设计种植。
水稻成熟后于田间考察株高,收种时,从中间8株中选择长势均一的3 株收种,室内考察单株主穗实粒数(filled grains per panicle,FGPP)、千粒重(1000-grain weight,KGW,g)、主穗长(main panicle length,MPL,cm)、主穗一次枝梗数(primary branch of main panicle,PBP)、株高(plant height,PH,cm)、主穗二次枝梗数(secondary branch of main panicle,SBP)、主穗颖花数(spikelet per panicle,SPP)、有效穗数(effective tillers per plant,TP)、单株实粒重(yield,YD,g)9 个农艺性状。
为了深入了解水稻农艺性状的遗传机制,把每个性状对应的数据集分成V、GCA、TC 和BP4 类。V 代表亲本(父本)的表型,GCA 代表亲本(父本)的一般配合力,TC 代表测交群体的表型,BP 代表测交群体的超亲优势值,BP=F1-Pat,Pat 表示父本的表型值。对这4 类数据分别进行GWAS 分析。
将收集到的水稻9 个农艺性状数据经过质量控制,经删除maf<5%、缺失基因个数>20%的SNP 等一系列数据处理,得到1,894,012 个SNP。以GAPIT 软件[14]的CMLM 模型进行关联分析处理。以P-value < 10-4为标准筛选显著性的SNP[15],用于后续的分析。
在国家水稻数据中心(http://www.ricedata.cn/,截至2018年10月15日)查找相关基因的注释信息,利用python(version 3.5.4)脚本实现多个检索爬取结果于本地。
通过PlantGSEA(http://structuralbiology.cau.edu.cn/PlantGSEA/index.php),将爬取的结果用于分析。用PlantGSEA 筛选出具有显著性功能的通路[9]。
针对9 个农艺性状,在V、GCA、TC、BP 四个数据集中分别共检测到100、107、118、33 个通路,其中有5 个通路是4 个数据集共有的(图1),包括催化活性(GO:0003824)、阳离子结合(GO:0043169)、离子结合(GO:0043167)、代谢过程(GO:0008152)、初级代谢过程(GO:0044238)(表1)。对于这些通路,本研究将从9 个农艺性状分别进行详尽的阐述。
图1 4 个数据集所含通路 Fig.1 Pathways in the four datasets
表1 4 个数据集共有的通路 Table1 Common pathways in four datasets
2.1.1 主穗实粒数 在V、GCA、TC 数据集中与水稻主穗实粒数相关联的通路数分别为1、37 和4 个(图2,详见附表2,附表3,附表4)。其中包括生物调控(GO:0065007)、调节基因表达(GO:0010468)相关通路。在TC 数据集中有flo-2基因。She 等[16]研究表明flo-2通过影响胚乳中储藏性物质的积累,在调控水稻籽粒大小和淀粉品质中发挥关键作用。结果表明基因表达、生物调控过程都对主穗实粒数产生影响。
2.1.2 千粒重 在V、GCA、TC 数据集中与水稻千粒重相关联的通路数分别为7、1 和4 个(图2,详见附表2,附表3,附表4)。其中包含半胱氨酸和蛋氨酸代谢(KEGG)相关通路。GCA、TC 数据集中都含有GS3基因。Mao 等[17]研究表明GS3是一个控制籽粒大小的主效QTL,它在调节籽粒和器官大小中具负调节子的功能。野生型等位基因包含N 端的OSR 结构域,一个跨膜区,TNFR/NGFR 家族富半胱氨酸结构域,以及C 端的VWFC 4 个推测的结构域。C 端TNFR/NGFR 和VWFC 结构域显示出对OSR功能的抑制作用,这2 个功能域失活突变会产生非常短的籽粒。V、TC 数据集中含有甘氨酸、丝氨酸和苏氨酸代谢(KEGG)通路和SaM基因。Long 等[18]研究表明Sa基因座,影响水稻籼粳亚种间杂交F1代的育性,籼粳等位基因之间的互作导致雄配子败育,结实率下降。Sa位点实际上是由SaM和SaF两个相邻的基因位点组成。SaF编码一个476 氨基酸组成的F-box 蛋白,与SaF+相比,SaF -发生一个单核苷酸突变,导致编码产物第287 氨基酸由苯丙氨酸置换为丝氨酸。以上结果表明半胱氨酸以及丝氨酸代谢通路都会影响到粒重。
图2 4 个数据集9 个性状通路结果 Fig.2 Pathways of nine traits in the four datasets
2.1.3 主穗长 在V、GCA、TC 数据集中与水稻主穗长相关联的通路数分别为2、1 和3 个(图2,详见附表2,附表3,附表4)。包括SNARE 相关囊泡运动(KEGG)等通路。真核生物细胞囊泡运输过程中的膜融合主要是由SNARE 蛋白介导的,SNARE 蛋白的结构高度保守。鲍永美[19]研究发现,植物中的SNARE 蛋白促进植物细胞板形成,能与离子通道蛋白相互作用,有利于植物的正常生长发育,能提高植物的抗病性及参与植物的向重力性作用。
2.1.4 主穗一次枝梗 在V、GCA、TC、BP 数据集中与水稻主穗一次枝梗相关联的通路数分别为76、25、26 和19 个(图2,详见附表2,附表3,附表4,附表5)。其中包括序列特异性DNA 结合转录因子 活 性(GO:0003700)、依赖DNA的转录(GO:0006350)相关通路。其中 V 数据集中含有OsAP2-39基因。Yaish 等[20]研究表明OsAP2-39是水稻中的类APETALA-2 转录因子,含有一个AP2 结构域,控制脱落酸与赤霉素间的关键互作,植物激素间的互作是调控植物生长发育的一个重要机制。
2.1.5 株高 在V、GCA、TC 数据集中与水稻株高相关联的通路数分别为3、41 和50 个(图2,详见附表2,附表3,附表4)。其中包括 ATP 结合(GO:0005524)、大分子代谢过程(GO:0043170)相关通路。在GCA、TC 中含有nd1基因。Li 等[21]研究表明nd1株高变矮,茎和根尖初生细胞壁的结构均有缺陷,茎中,木糖和纤维素含量降低,同聚半乳糖醛酸含量增加。以上结果表明ATP 结合、大分子代谢过程将会影响株高性状的形成。
2.1.6 主穗二次枝梗 在GCA、TC 数据集中与水稻主穗二次枝梗相关联的通路数分别为55 个和54 个(图2,详见附表3,附表4)。也包括一次枝梗中的分子功能,如依赖DNA 的转录(GO:0006350)。
2.1.7 主穗颖花数 在V、GCA、TC、BP 数据集中与水稻主穗颖花数相关联的通路数分别为21、54、76 和4 个(图2,详见附表2,附表3,附表4,附表5)。其中包括花粉识别(GO:0048544)、花粉-雌蕊互作(GO:0009875)相关通路。
2.1.8 有效穗数 在V、TC、BP 数据集中与水稻有效穗数相关联的通路数分别为5、3 和10 个(图2,详见附表2,附表4,附表5)。其中包括水解酶活性(GO:0016798 )等通路。
2.1.9 单株实粒重 在GCA、TC 数据集中与水稻单株实粒重相关联的通路数分别为34 个和49 个(图2,详见附表3,附表4)。其中包括嘌呤核苷结合(GO:0001883)相关通路,表明嘌呤核苷结合将影响到单株实粒重。
水稻农艺性状通常由多个基因或者多个通路共同控制调节,由表2可知,V中参与多个性状(1~3个)的通路个数分别是86、13 和1 个(详见附表6)。GCA中参与多个性状(1~6 个)的通路个数分别是52、11、11、25、22、7 和1 个(详见附表7)。TC 中参与多个性状(1~5 个、7 和8 个)的通路个数分别是51、20、32、4、7、1 和3 个(详见附表8)。BP 中参与1 个性状的通路个数是33 个(详见附表9)。
表2 4 个数据集不同性状个数所含的通路个数 Table2 Number of paths contained in four datasets with different traits
在4 个数据集中催化活性(GO:0003824)、阳离子结合(GO:0043169)、离子结合(GO:0043167)、代谢过程(GO:0008152)等通路在9 个农艺性状中都有,表明某一通路可能影响多个性状。
在GCA 数据集中的PBP 和SBP 性状中都存在依赖DNA 的转录(GO:0006350)、另一种依赖于DNA 的转录调节(GO:0045449)。在TC 数据集中PBP、SBP 与MPL 都含有细胞组分(GO:0005575),生物过程(GO:0008150)通路。表明一次枝梗和二次枝梗的生长存在着联系,且一次枝梗和二次枝梗的数目和长度对水稻穗长的形成也有着一定的影响。
在TC 数据集中性状KGW 和YD 有细胞组分(GO:0005575)、生物过程(GO:0008150)通路。表明水稻的粒重与产量之间存在着联系,且粒重又是产量构成的重要因素之一。
同时在TC 数据集中性状YD 也含有PH 中的大分子代谢过程(GO:0043170)、细胞大分子代谢过程(GO:0044260)、大分子修饰(GO:0043412)通路,表明株高与水稻产量也有着一定的联系。
水稻的农艺性状大多是数量性状,由上述结果可以看到水稻的各个性状的遗传机制并不是完全独立,而是相互之间有着一定的联系。千粒重、株高、主穗一次枝梗、主穗二次枝梗都与产量相关,且主穗一次枝梗与二次枝梗与穗长相关。石晗[22]研究表明单株理论产量与穗长、株高、有效穗数、单穗实粒重、每穗粒数等呈显著或极显著正相关,有效穗数与单株理论产量成极显著正相关,每穗粒数与株高、穗长都呈极显著正相关。我们的结果与其部分相符,这表明我们的结果具有一定的可靠性。
对于农艺性状的研究,黄利兴等[23]认为单株有效穗、穗长、穗总粒数、穗粒数、结实率、千粒重和着粒密度7 个农艺性状亲本的表现与一般配合力的效应值呈显著性正相关。廖伏明等[24]认为一般配合力与亲本自身的表型值有一定程度的正相关,说明在育种过程中必须注意亲本自身农艺性状的改良。付新民等[12]的研究表明生育期、株高、单株有效穗数、每穗总粒数、结实率和千粒重性状一般配合力与其表型值间的相关达到显著或极显著水平。说明这些性状可以通过其表型选择提高一般配合力。同样,我们的前期研究[8]表明除亲本单株实粒重与一般配合力间相关性不显著外,亲本农艺性状与其一般配合力均为正相关。
在本研究GCA 与V 中相同的通路有65 个,除了生物生长所需的基本代谢通路 DNA 结合(GO:0003677)、蛋白质代谢过程(GO:0019538)、离子结合(GO:0043167)等外,其中也包括一些影响相关性状的通路,如半胱氨酸和蛋氨酸代谢(KEGG)、激酶活性(GO:0016301)、甘氨酸、丝氨酸和苏氨酸代谢(KEGG)等。张远森[9]研究表明水稻粒重与细胞蛋白变性过程(GO:0006464)、激酶活性(GO:0016301)等通路相关。我们的结果与其部分相符。
共同的通路在亲本性状和一般配合力中都起着一定的作用,表明性状和一般配合力之间有着一定的相关性,这与前面学者研究得到的结果相符。已知与性状相关的代谢通路,那么该通路中的相关的节点基因可能对该性状具有调控作用。而对于一般配合力的改良,我们可以通过找到影响相关性状代谢通路的节点基因,改良相关性状,以期改良一般配合力。
在本研究的TC 与BP 中相同的通路有6 个,包括催化活性(GO:0003824)、阳离子结合(GO:0043169)、离子结合(GO:0043167)、代谢过程(GO:0008152)、初级代谢过程(GO:0044238)、水解酶活性(GO:0016787)等。
既然杂种数量性状表型与杂种优势存在共同的通路,表明二者存在着一定的联系。而杂种优势的出现,可能是由于基因组合引起的。所以对于杂种优势的研究,我们可以从某一性状的相关通路进行,找到调控该通路的相关基因,以期改良该性状,更好地挖掘杂种优势。这为揭示杂种优势的遗传机理提供了一定的理论基础。
对于大部分数量性状,用于定位的表型数据直接来源于大田或温室的测量值,或是对多年多点的数据测量值的线性估计,称为构成形状。将表型值需要通过其他数量形状测量值的代数运算而获得的性状成为复合形状[25]。一般配合力和超亲优势值都属于复合形状。
水稻的长宽比(粒型)是一个重要的复合性状,Li等[26]对一个大小为308 的水稻BC3F1群体的粒长、粒宽和粒型进行了QTL 分析。在第3 和第10 染色体上发现2 个控制粒长,第12 条染色体上1 个控制粒宽的QTL。2 个控制粒型的QTL,其位置与控制粒长的2 个QTL 相近。而Rabiei 等[27]对一个大小为192 的水稻F2群体的粒长、粒宽和粒型进行了QTL分析。在这18 个QTL 中,5 个控制粒长,7 个控制粒宽,6 个控制粒型,其中有1 个解释15.0%表型变异的粒型QTL,既没有被粒长发现,也没有被粒宽发现。
从Li 等[26]和Rabiei 等[27]对于水稻粒型的遗传研究来看,复合性状的QTL 作图和构成性状的QTL作图会得到不同的结果,有时甚至出现一些复合性状仅有的QTL。在本研究中,表型性状与一般配合力及超亲优势值存在不同的通路,其之间的遗传基础应该存在着差异。其遗传机理是一个复杂的过程,到目前并没有详尽标准的参考,而本研究也为遗传机理的解释提供理论基础,使水稻杂种优势以及一般配合力的遗传机理得到更全面的揭示。
本研究表明对于改良一般配合力和杂种优势,可以从水稻各性状的代谢通路出发,找到该通路中的控制该性状的相关基因,改良相关性状、一般配合力和杂种优势。一个生物学过程是一个复杂的网络调控过程,由基因组调控,并非单基因,本研究从基因集的水平出发,利用通路分析法对于杂种优势的获得以及一般配合力的改良提出了新的思路。
基于通路分析的方法剖析水稻农艺性状配合力和杂种优势,4 个数据集分别得到了100、107、118、33 个与农艺性状相关的通路。对于改良一般配合力和杂种优势,可从基因集水平出发,找到通路中的控制该性状的相关基因,以改良相关性状、一般配合力和杂种优势。本研究结果可为后续解析水稻农艺性状一般配合力和杂种优势的遗传机理提供重要的理论基础。
附表请见网络版:1)本刊网站http://zwxb.chinacrops.org/;2)中国知网http://www.cnki.net/;3)万方数据 http://c.wanfangdata.com.cn/Periodical-zuowxb.aspx。