伍叶娜,潘根,姜慧,常丽,黄思齐,唐慧娟,栾明宝,陈安国
(中国农业科学院麻类研究所,湖南 长沙 410205)
亚麻(Linum usitatissimum L.)是亚麻科(Linaceae)亚麻属(Linum)一年生草本植物,自花授粉,喜凉爽湿润气候,起源于中亚和地中海地区,是我国重要的经济作物之一,按照用途分为纤用亚麻、油用亚麻及油纤兼用亚麻。纤用亚麻主要种植于黑龙江、吉林、新疆、内蒙古等地。亚麻纤维因具有强韧、吸湿、透气、耐磨等优良性状而被誉为“纤维皇后”[1]。油用亚麻又称为胡麻,多分布于新疆、甘肃、河北、内蒙古等地。亚麻籽中富含α-亚麻酸、木酚素、优质植物蛋白质等多种对人体有利的营养成分[2-3],亚麻籽品质特性的重要指标是含油量,其油脂含量为35%~45%[4]。α-亚麻酸是通过外源补充的一种人体必需不饱和脂肪酸营养物质,为二十碳五烯酸(EPA,eicosapentaeno-ic acid)、二十二碳五烯酸(DPA,docosapentaenoic acid)和二十二碳六烯酸(DHA,docosahexaenoic acid)的合成前体物质,在降血脂血压、预防糖病、防治癌症以及延缓血管衰老等方面发挥着重要的作用[2]。此外,亚麻木酚素(SDG,secoisolariciresinol diglucoside)在预防和治疗乳腺癌[5]以及骨质疏松症[6]等方面发挥着重要的作用,亚麻籽蛋白中的半胱氨酸和蛋氨酸含量能够提高人体抗氧化能力,有效预防结肠癌发生[7]。总体来说,亚麻是一种综合利用价值极高的作物,在纺织、食品、工业、医药保健等方面发挥着重要的作用。
随着分子生物学的发展,利用分子标记进行亚麻分子育种的研究越来越多,常用的分子标记有扩增片段长度多态性(AFLP,amplified fragment length polymorphism)、随机扩增多态性 DNA(RAPD,random amplified polymorphic)、简单序列重复(SSR,simple sequence repeats)以及单核苷酸多态性(SNP,single nucleotide polymorphism),主要应用于亚麻种质资源鉴定、遗传连锁图谱构建、数量性状座位(QTL,quantitative trait locus)定位和全基因组关联分析(GWAS,genome-wide association studies)等。亚麻农艺及品质性状多数为多基因控制的数量性状,其遗传表现复杂,一般的QTL位点具有较低的遗传率。另外,我国亚麻存在纤维产需缺口大、亚麻品质差、抗逆性较差等问题,因此揭示亚麻产量、品质以及抗逆等相关性状的遗传基础并培育优良亚麻品种是目前的研究目标。为培育出高产、优质、抗逆的新品种,需要进行产量、品质和抗性性状等基因的发掘和利用[8-9]。GWAS是解析表型遗传机制及挖掘QTL的重要手段,具有定位精确度高、检测范围广、构建群体所需时间短等优点,已应用于水稻[10]、玉米[11]以及大豆[12]等作物的分子育种研究。GWAS在亚麻多种性状研究以及育种研究中得到了一定的应用,为阐明亚麻复杂性状的遗传结构提供了理论基础,对亚麻品种改良具有指导性意义。本文简要介绍了GWAS基本原理及方法,总结了其在亚麻遗传育种中的研究进展,以及存在的问题和解决途径,进一步为亚麻分子标记辅助育种研究提供依据和参考。
关联分析是以连锁不平衡(LD,linkage disequilibrium)为基础,鉴定某一群体内目标性状与遗传标记或候选基因关系的分析方法[13],与传统作图相比,具有不需要构建作图群体、可同时考察多个性状进行关联分析、基因定位精确度高等特点[14]。关联分析可分为全基因组扫描和基于候选基因的关联分析两种策略[15]。GWAS理论基础是连锁不平衡,通过全基因组内的SNP变异与复杂性状进行关联分析,发掘影响目标性状的候选基因[16],从分子水平揭示作物表型多样性的遗传基础。近年来随着简化基因组测序(SLAF-seq)技术的不断发展,测序成本的下降,基于全基因组检测SNP变异位点进行GWAS的研究不断增加。1996年,Risch等[17]首次提出了全基因组关联分析的概念。目前已在水稻[10]、玉米[11]、大豆[12]等作物中有了深入研究,为其他作物品种遗传改良和培育提供了理论依据。
1.2.1 群体结构对GWAS的影响
群体结构会导致GWAS结果出现假阳性,故进行试验前应选取具有代表性、数量较多的种质资源作为研究群体,通过增大群体容量和评估种群结构来尽可能减少假阳性,进而降低群体结构对试验的干扰。一般线性模型(GLM,general linearmodel)和混合线性模型(MLM,mixed linearmodel)是全基因组关联分析常用的两种模型[18],其中MLM模型在GWAS分析过程中能够有效控制群体结构的影响,提高分析效率和结果的准确性[19]。此外,可通过SNP标记的检测,主成分分析(PCA,principal component analysis)获得的P值、亲缘关系K值以及群体结构Q值等对群体结构进行进一步的校正与分析[20]。
1.2.2 连锁不平衡对GWAS的影响
连锁不平衡是指群体内不同位点上等位基因间的非随机关联,是GWAS的理论基础,一般情况下LD衰减距离越小,关联分析时需要的SNP标记越多,越容易找到与目标性状紧密连锁的分子标记,提高关联分析的精确性[21]。在构建关联群体时,为了减少连锁不平衡性,获得更多的表型和遗传变异,应选择地理差异较大的品种作为关联分析材料[22]。除此之外,GWAS研究还需要对表型性状进行准确鉴定,如实施合理的田间试验、考虑环境与基因型的互作效应等[23]。
1.3.1 种质材料选择
丰富的种质资源是GWAS研究的基础,因而需要选取足够多的样本量[24],但群体来源越多会导致假阳性的概率增加,需利用家系群体进行初步定位,再用自然群体高精度定位[25],两种方法结合分析可减少群体之间假阳性的概率,提高关联分析的分辨率。
1.3.2 表型考察
GWAS需要对基因型数据和表型数据进行关联分析,因而需要对目的性状进行准确测定和评估。然而,表型性状具有可塑性,不仅受基因型的控制,还受周围环境的影响,因而会影响GWAS分析结果[26]。因此,在试验前期应制定科学的试验计划[27],合理选择随机区组试验等田间试验设计,从时间、空间上增加表型的重复性[24],在多年和多环境中进行目标性状的表型鉴定,降低环境影响以及减少表型测定误差。
1.3.3 基因型鉴定
随着高通量测序技术的发展和测序成本的降低,使用SLAF-seq、基因芯片技术、全基因组重测序等方法获得群体SNP信息,可提升关联分析遗传定位的精度,广泛应用于GWAS研究。
1.3.4 群体结构和亲缘关系分析
在关联分析过程中,自花授粉作物的群体结构会导致某些等位基因频率在不同亚群之间存在显著差异,从而导致出现假阳性结果[28]。亚麻属于自花授粉作物,在对亚麻进行群体结构分析时,可以在进行表型与基因型关联分析之前通过构建群体系统进化树、PCA、Structure分析等对样本间的群体结构和亲缘关系进行分析[29],从而避免定位时出现的假阳性问题。
1.3.5 关联作图及候选基因发掘
PLINK[30]和TASSEL[31]等分析软件用于全基因组关联分析,其中TASSEL软件既可以对各种模型进行相关分析,又可以估计LD值和作图,估计种群结构和作图基于遗传距离的树形图[32]。亚麻作为自花授粉作物,通过GWAS定位性状相关基因难以达到单基因水平,必须综合基因芯片、RNA测序、实时荧光定量PCR(qRT-PCR,real-time reverse transcription-PCR)等技术来确定与目标性状相关联的候选基因。
随着高通量测序技术的进步,GWAS在亚麻农艺(表1)、品质(表2)以及抗逆(表3)等相关性状的育种研究中取得了一些进展,为亚麻品种改良和分子育种奠定了重要的理论基础。
表1 全基因组关联分析在亚麻农艺性状中的相关进展Table 1 Progress of GWAS in agronomic traits of flax
续表1
续表1
表2 全基因组关联分析在亚麻品质性状中的相关进展Table 2 Progress of GWAS in quality traits of flax
续表2
千粒重、分枝数、开花日数、分枝习性是亚麻种子产量的主要决定因素,出麻率、株高、干茎制成率是亚麻纤维产量的主要决定因素[33]。GWAS能够对亚麻分枝数、株高以及生育期等性状进行QTL定位和候选基因预测,进一步为亚麻分子标记辅助育种提供理论基础。为了鉴定亚麻农艺相关性状遗传改良的标记和候选基因,Xie等[34]利用SLAF-seq技术对生长在3种不同环境下的224份亚麻核心种质进行GWAS分析,得到42个与株高、工艺长度、分枝数、单株果数、千粒重等5个农艺性状相关的SNP位点,并利用GLM和MLM模型在10 kb范围内筛选出15个候选基因,确定与株高相关的候选基因是UGT和PL,与分枝数相关的候选基因为GRAS和XTH,与单株果数相关的候选基因是Contig1437和LU0019C12,与千粒重相关的候选基因是PHO1。在此基础上,Xie等[35]又利用GLM模型对13个农艺性状进行分析,检测出与亚麻纤维相关性状相关联的几个位点,预测了亚麻出麻率的候选基因Lus10016354和株高候选基因Lus10016125,为进一步研究亚麻纤维相关性状的分子机制提供了帮助。邓欣[33]利用SSR标记对182份亚麻核心种质产量进行关联分析,确定与株高相关联的位点是M187,与工艺长度相关联的位点是M169-1,与单株蒴果数相关联的位点是M80,M169-2、M192与分枝数相关联,M146、M185与开花期相关联,M155-1、M187与全生长日数相关联。伊六喜[36]基于相关序列扩增多态性(SRAP,sequence-related amplified polymorphism)通过全基因组重测序对269份胡麻进行GWAS分析,获得了与产量相关性状显著关联的21个SNP位点和57个候选基因,其中与株高相关的SNP位点有5个,获得14个候选基因;分枝数相关SNP位点有2个,获得5个候选基因;千粒重相关SNP位点3个,获得5个候选基因;千株粒重相关SNP位点2个,获得1个候选基因;果粒数相关SNP位点2个,获得8个候选基因;株果数相关SNP位点1个,获得7个候选基因;工艺长度相关SNP位点4个,获得15个候选基因。Pydiura等[37]基于亚麻基因组信息,通过GWAS分析鉴定出与亚麻纤维发育相关的候选基因32个,其中编码纤维素合成酶(CesA)和纤维素合成酶类蛋白(Csl)的候选基因各有16个。Chandrawati等[38]选取168份亚麻材料,通过50个SSR标记对其进行分析,在GLM和MLM模型的关联分析过程中均检测出Lu__3043是与开花天数50%相关的SSR标记。GWAS挖掘到的亚麻株高、千粒重等性状相关的基因,为亚麻新品种的分子选育提供理论依据,前人研究所鉴定的SNP位点和相应的候选基因可作为改良亚麻重要农艺性状的生物学基础。
表3 全基因组关联分析在亚麻抗逆性状中的相关进展Table 3 Progress of GWAS in stress resistance of flax
亚麻品质性状有含油率、碘值、油酸、亚油酸、亚麻酸、棕榈酸、粗脂肪等,被广泛应用于食品、医疗保健等领域,研究亚麻品质相关性状遗传机理有助于提高亚麻品质,进一步为亚麻优质育种提供理论依据。Soto-Cerda等[39]利用460个微卫星标记对390份亚麻种质材料的含油率、硬脂酸、亚油酸、亚麻酸和碘值等品质性状进行关联作图,鉴定了9个候选QTL。You等[40]通过GWAS对3个不同双亲亚麻作图群体的260个品系进行分析,共鉴定出17 288个SNP,解释的成熟期、碘值、棕榈酸、硬脂酸、亚油酸和亚麻酸含量的表型变异高于80%,检测到23个基因组区域与33个QTL相关,解释了含油量、碘值、棕榈酸、亚油酸和亚麻酸的表型变异为48%~73%。张喻[41]对来自43个国家的200份亚麻进行GWAS分析,挖掘了8个与油酸代谢相关的候选基因,2个与亚油酸代谢相关的候选基因。伊六喜[36]通过全基因组重测序对269份胡麻进行GWAS分析,获得了与品质相关性状显著关联的19个SNP位点和43个候选基因,其中与油酸、亚油酸、亚麻酸、棕榈酸、硬脂酸以及粗脂肪相关的SNP位点分别是3个、1个、8个、2个、3个、2个,获得的候选基因分别是5个、6个、17个、5个、7个、3个。Xie等[42]通过GWAS对3种不同环境下的224个亚麻群体进行分析,检测到16个与种子脂肪酸含量显著相关的SNP,10个候选基因,其中有6个候选基因参与脂肪酸代谢途径。伊六喜等[43]选取220份亚麻核心种质,通过SSR标记的关联分析检测亚麻木酚素含量相关位点,基于GLM模型和MLM模型均检测到LU_203、LU_661和LU_330位点。伊六喜等[44]对4个环境下的269份亚麻种质的木酚素含量进行GWAS分析,得到13个SNP位点和21个候选基因。目前亚麻品质改良育种较薄弱,GWAS分析在亚麻育种中的应用较少,这些新发现的遗传位点可以显著改善亚麻分子育种进程,鉴定的候选基因有助于阐明亚麻品质相关性状的生物合成机制。
干旱、盐碱、矿物质缺乏等非生物胁迫以及白粉病[45]、炭疽病[46]等病害引起的生物胁迫,均严重影响亚麻产量和品质,因而提供抗逆性是亚麻育种目标之一。近年来科学家利用GWAS挖掘到部分亚麻抗逆相关位点。Dash等[47]通过GWAS揭示了在茎和根中共调控表达的26个基因与干旱胁迫反应有关,其中根应对干旱胁迫比茎要强一些。Soto-Cerda等[48]选取390份加拿大亚麻核心种质进行关联作图,基于MLM模型确定了与6个农艺性状关联的12个位点,其中位于第6连锁群的两个标记位点,确定了1个抗倒伏相关的QTL位点。Sertse等[49]通过GWAS对6个性状及其相应的胁迫指数进行了分析,检测到编码干旱胁迫相关蛋白候选基因Lus10030150。He等[50]选取370份亚麻核心种质材料确定了与抗派斯莫病相关的67个QTL位点,获得候选基因Lus10031043和Lus10020016。谢冬微等[51]在亚麻全基因组中共找到137个核苷酸结合位点(NBS,nucleotidebinding site)类抗病基因,进一步加快了亚麻抗病育种研究。Saha等[52]找到响应高温胁迫的热休克因子(HSF,heat shock factor)基因34个,为进一步促进亚麻耐高温遗传改良和适应性育种提供了依据。目前GWAS在亚麻抗逆相关性状研究中的应用还较少,虽然利用该方法能够鉴定出一些与亚麻抗逆相关的位点,但这些位点是否能够有效地应用到亚麻分子育种中,还需要进一步验证。
综上可知,与传统的QTL作图相比,GWAS具有检测范围广[53]、分辨率高[54]、材料来源多[55]等优势,从而在亚麻产量、品质以及抗逆等相关育种研究中取得一系列重要进展。但GWAS也有其自身的局限性,在亚麻育种试验设计上仍需谨慎,毕竟其只是对候选遗传位点的一种预测,后续还需要结合其他技术手段进行深入研究,探究其生物学功能。常规育种效率低、周期长,而关联分析与分子育种相结合,再加上基因组、转录组、蛋白组及代谢组等多组学融合能更深入地了解亚麻复杂性状的遗传结构,有利于亚麻遗传育种的进一步发展。
GWAS是作物表型与基因型结合用于作物遗传改良的优良技术,其包括研究群体的选择、多年多点的表型鉴定、高通量测序、关联分析、基因功能注释、精细定位、候选基因功能验证等,在亚麻遗传改良中具有重大的应用潜力。尽管GWAS当前还存在一些不足,但随着分子生物学技术的不断深入,其在实际应用中的局限性会不断得以克服。随着高通量测序技术的发展,水稻、玉米、大豆等参考基因组已公布,其基因组范围内的变异数据用于遗传作图和作物演化研究,GWAS在这些作物育种研究中已较为成熟,GWAS在应用于亚麻重要性状研究中可多参考这些作物以进一步对亚麻农艺相关性状、品质相关性状以及抗逆相关性状等方面进行研究,为亚麻品种改良和培育提供依据。在今后的亚麻育种研究中,应当继续利用高通量测序等技术,在全基因组水平对亚麻群体进行基因型鉴定,开展遗传多样性和群体结构分析,进一步结合多组学融合分析和基因功能验证等方法,挖掘亚麻产量、品质以及抗性等相关性状的候选基因,为亚麻优质育种提供一定的理论基础。