雷杰杰,邵盘霞,郭春平,张大伟,唐秉晖,努日曼古丽·艾尼,彭亚娟,崔天宇,张奥深,林海荣,林忠旭,3,尤春源*,聂新辉*
(1.石河子大学农学院/ 绿洲生态重点实验室,新疆 石河子832003;2.石河子农业科学研究院棉花所,新疆 石河子832000;3.华中农业大学植物科学技术学院/ 作物遗传改良国家重点实验室,武汉430070;4. 新疆农业科学院经济作物研究所,乌鲁木齐830091)
新疆棉区是我国最主要的棉区,新疆棉花总产、单产、种植面积连续25 年位居全国第一。 棉花产量和品质的稳定与改良关系到新疆地区的经济发展与社会稳定。 新疆审定棉花品种数量虽多,但是在生产上能够被棉农接受、大面积种植的品种非常有限,而且棉花种质资源的遗传多样性比较狭窄。 遗传基础的研究是品种改良的基础。 对新疆陆地棉种质的构建和遗传进行研究,解析新疆棉花的遗传基础,分析现有种质的遗传背景和遗传多样性,为育种家高效利用优异种质提供理论依据,对实现高效的陆地棉分子育种具有重要意义。 作物的产量、品质、抗逆性等重要农艺性状均属于多基因控制的数量性状(Quantitative trait locus,QTL)。 数量性状在分离后代中呈现连续的表型变异,每个数量性状的基因座对表现型的贡献率微小、对环境反应敏感,因此,进行QTL 分离和鉴定难度大。随着分子标记的开发和数量性状统计分析技术的快速发展,作物的遗传图谱日益饱和,QTL 定位不断深入发展, 为作物数量性状的全面深入研究提供了平台。 关联分析作为近年来发展起来的1 种检测QTL 的高效手段,得到广泛运用。 利用全基因组关联分析能同时对作物自然群体的多个性状进行定位, 目前,前人已经对水稻的农艺性状、耐旱性、抗病性[1-3],小麦抗病性[4],玉米耐冷性[5],大豆的抗病性、农艺性状[6-7],高粱的生物量相关性状[8]等进行了关联分析研究。 其中,棉花中被鉴定的QTL 涉及纤维品质、产量性状、抗病、生育期等许多重要性状。Zhao 等[9]采用覆盖全基因组的212 对标记对158份陆地棉资源在病圃和无病温室处理环境进行与黄萎病抗性相关的关联分析, 获得42 个与黄萎病抗性相关的标记位点,同时发现与黄萎病抗性性状较强连锁的关联位点集中在第16 号染色体上。 聂新辉等[10]利用筛选出分布于26 条染色体且多态性高的75 对SSR (Simple sequence repeat,简单重复序列)标记对51 份新陆早棉花品种进行多态性扫描,发现这些品种的群体遗传结构简单,所研究性状在2 个环境条件下较稳定的结论;基于SSR 的关联分析,发掘了一些与农艺和纤维品质相关的优异等位变异及典型材料。Sun 等[11]收集了719 份陆地种质资源材料,采用63K SNP 芯片基因分型获得了10 511 个SNPs,筛选到了46 个与纤维品质性状显著关联的SNPs, 在染色体D11 和A07 有2 个同时与纤维长度、纤维强度显著关联的优异位点。 基于转录组分析, 筛选到了19 个与纤维品质相关的候选基因。 Wang 等[12]利用重测序技术对267 份材料纤维品质相关性状进行全基因组关联分析,共鉴定到19 个与纤维品质相关的显著位点, 通过与野生陆地棉基因型比较,发现4 个驯化选择的位点。Ademe 等[13]使用198 个SSR 标记对320 份陆地棉产量和纤维品质进行了关联分析,发现部分标记与多个纤维产量和品质性状显著相关,还鉴定出了一些新的QTL。本研究以新疆审定陆地棉品种为材料,选用均匀分布于染色体且多态性高的SSR(Simple sequence repeat)标记,对6 个环境下产量和纤维品质性状的表型与基因型进行关联分析,挖掘优异等位变异位点,将获得的等位变异位点同已经发表的棉花QTL 比较, 筛选出同时定位检测出来的共有QTL,对新疆陆地棉性状的遗传基础进行解析,为实现高效的陆地棉分子设计育种提供理论依据。
本研究群体材料包括从育种单位收集新疆陆地棉品种的原原种156 份(其中新陆早70 份,新陆中80 份, 骨干亲本6 份)(材料信息见附表1,可在本刊网站查看)。 试验材料是从育种单位收集并且进行了典型单株的选择、鉴定、自交纯化及繁种。
2016—2018 年将156 份新陆棉品种种植在石河子市农业科学研究院棉花育种原原种基地(北疆石河子市北泉镇) 和新疆维吾尔自治区农科院经作所棉花育种原原种基地(南疆库尔勒市包头湖)试验田,共3 年2 点6 个环境:2016 年石河子(16SHZ)、2016 年库尔勒(16KEL)、2017 年石河子 (17SHZ)、2017 年库尔勒(17KEL)、2018年石河子(18SHZ)、2018 年库尔勒(18KEL)。 试验田肥力均一,化控一致,地膜滴灌,随机区组设计,1 膜4 行,行距(28+50+28) cm+55 cm,株距9.5 cm,行长5 m,穴播,每个材料种2 行,设2 个重复,常规田间管理。
田间取幼嫩的叶片,根据Li 等[14]采用CTAB法提取基因组DNA, 基于毛细管电泳筛选SSR标记。
SSR 引物来自华中农业大学作物遗传改良国家重点实验室构建的海陆棉种间图谱[14],此图谱包含5 152 个标记、 标记间平均距离0.91 cM。平均每10 cM 挑选1 个标记, 在12 份代表性材料中初筛获得495 个多态性标记,将这些引物在156 份棉花品种中进行PCR(Polymerase chain reaction,聚合酶链式反应),最后选出了73 条带清晰、便于统计、在不同品种间有多态性的引物作为核心引物(引物多态性信息见附表2,可在本刊网站查看)。
表型数据调查标准参照 “NY/T 2323—2013农作物种质资源评价技术规范——棉花”进行调查和统计分析。2016—2018 年分别在9 月中旬选择吐絮正常单株中部10 个铃, 考察3 个产量性状指标,包括铃重(Boll weight,BW)、单铃皮棉重(Lint weight,LW)、衣 分(Lint percentage,LP)及纤维品质相关性状, 包括纤维上半部平均长度(Fiber upper half mean length,FUHML)、 断裂比强度 (Fiber strength,FS)、 马克隆值(Micronaire value,MV)、整齐度(Fiber uniformity,FU)、成熟度(Fiber maturity,FM)、短 纤 维 率(Short fiber,SF)及伸长率(Fiber elongation,FE)。 纤维品质在新疆石河子农业科学研究院棉花所测定,所用仪器为HVI1000,检测温度为(20±2)℃,相对湿度为(65±3)%。
经过初筛,495 对引物中的73 对在156 份新疆陆地棉材料中能扩增得到条带清晰、 重复性好、且表现出多态性(引物多态性信息见附表2,可在本刊网站查看)。 这73 对标记覆盖整个棉花全基因组, 标记间的平均距离为87.43 cM(centimorgan),分布在26 条染色体上,平均每条染色体分布2.8 个,变幅为1~5,共检测到145 个等位基因位点。 不同的SSR 位点检测到的等位变异不同,变幅为1~4 个,平均为2.0。 标记检测到的基因型平均为4.6 个,变幅为2~12 个,其中标记HAU3071a 在156 份材料中能检测到4 个位点,扩增出12 种基因型。 73 对标记的多态性信息含量(Polymorphism information content,PIC)变 幅为0.046~0.732,平均值为0.367。 SSR 引物在所选的棉花品种中检测的等位变异数目和基因多样性的变幅较大,但平均值较低,这说明这些新疆陆地棉品种在基因组水平上变异比较丰富,但遗传基础比较狭窄。
图1 2016—2018 年在石河子和库尔勒地区10 个性状的盒图Fig. 1 Boxplot diagram of 10 traits in Shihezi and Korla regions from 2016 to 2018
表1 新疆棉花品种6 个环境产量和品质性状相关性结果Table 1 Correlation results of yield and quality traits of cotton cultivars in Xinjiang under six environments
基因间等位变异的连锁不平衡状态是关联分析的前提,分析覆盖全基因组的SSR 位点间的连锁不平衡状态将有助于了解棉花基因组的连锁不平衡情况。 图2 显示了73 对标记在26 个连锁群上的连锁不平衡情况,新疆陆地棉基因组内连锁不平衡位点数较多, 但是位点的分布不均匀,较高水平的LD 位点主要集中于Chr8、Chr17等个别染色体。 在73 对SSR 标记的10 585 种位点组合,共线性(同一连锁群)和非共线性(不同连锁群) 组合中都有连锁不平衡位点存在(图2斜线上方有色差的格子),当R2>0.1 时,存在LD位点的组合数占总组合数的2.14%, 当P<0.01时,概率统计显著的不平衡成对位点的比例占总组合数的7.08%(图2 斜线下方有色差的格子),比例较小,这说明新疆陆地棉棉花基因组内的连锁不平衡水平比较低。
图2 新疆陆地棉品种26 条染色体73 个SSR 标记位点间的连锁不平衡分布Fig. 2 The linkage disequilibrium of 73 SSR markers on 26 chromosomes in Xinjiang upland cotton cultivars
73 对核心SSR 标记用于群体遗传结构的分析(图3A),ΔK 在K 取4 时出现拐点(图3B),说明156 份新疆陆地棉品种可被分为4 个亚群(图4),亚群1 包含37 个品种;亚群2 包含20 个品种,其中新陆中系列品种占30%,新陆早系列占70%;亚群3 包含8 个品种,其中骨干亲本占62.05%,新陆中系列占37.5%;亚群4 包含53 个品种,其中新陆早系列占67.93%,新陆中系列占32.07%。
图3 基于Structure 分析K 值与ln(P(D))值和ΔK 值折线图Fig. 3 Lines graph of K value with ln(P(D)) value and ΔK value based on structure analysis
图4 基于73 对SSR 标记的156 份新疆陆地棉棉花品种群体遗传结构图Fig. 4 Population genetic structure of 156 Xinjiang upland cotton cultivars based on 73 SSR markers
2016—2018 年共检测到10 个与产量性状相关联的位点,表型变异解释率6.69%~9.88%,平均值为8.43%(表2)。 其中,与单铃皮棉重相关的位点有2 个:MON_DPL0024b、MON_CGR6012b,表型变异解释率分别为8.21%、7.53%;与衣分相关联的位点有8 个,表型变异解释率范围为6.69%~9.88%,平均值为8.56%,其中MON_DPL0893贡献率最高。
2016—2018 年共检测到23 个与纤维品质性状相关的位点, 表型变异解释率范围为3.73%~13.22%,平均值为7.52%(表2)。 其中,与纤维上半部平均长度相关的位点有4 个,表型变异解释率为3.73%~13.22%,平均值为6.98%,贡献率最高的位点为HAU3071a; 与断裂比强度相关的位点仅有1 个, 为HAU3071a, 表型变异解释率为11.46%;与纤维成熟度相关的位点有5 个,表型变异解释率范围为5.96%~7.66%, 平均值为6.65%,贡献率最高的位点为NAU7049a;与纤维整齐度相关的位点有6 个,表型变异解释率范围为5.71%~8.82%,平均值为7.48%,贡献率最高的位点为NAU2240b;与短纤维率相关的位点有3 个, 表型变异解释率范围为7.09%~7.81%,平均值为7.53%,贡献率最高的位点为NAU2240b;与纤维伸长率相关的位点有6 个,表型变异解释率范围为6.60%~9.35%,平均值为7.96%,贡献率最高的是BNL2449a。
表2 与产量、纤维品质性状关联的SSR 位点Table 2 SSR locus associated with yield and fiber quality related traits
表3 列出了与产量、纤维品质性状关联的等位变异、相应的效应值以及典型载体材料,鉴定出典型载体材料15 份,分别是斯字棉5A、塔什干2 号、 新陆早5 号、 新陆早22 号、 新陆早35号、新陆早58 号、司6022、新陆中3 号、新陆中4号、新陆中7 号、新陆中27 号、新陆中36 号、新陆中47 号、新陆中54 号和新陆中66 号。 通过分析关联的等位变异位点的表型效应值,发现不同位点的等位变异对应的表型效应有差异。
铃重关联的等位变异位点中,HAU2588b 和HAU4748a 均是表型效应增效的等位变异位点,其中HAU2588b 表型效应最大, 增效0.068 6 g,聚合2 个等位变异的典型载体材料都是新陆中54 号。
单铃皮棉重关联位点的等位变异位点中,HAU2481b 减效(-0.009 2 g)表型效应最大,典型载体材料是新陆早5 号;其它具有增效表型效应的典型载体材料是新陆中3 号(HAU2588b、HAU4748a)。
衣分关联的等位变异位点中,CCRI596aa 是增效(2.056 9%),表型效应最大,典型载体材料是新陆中66 号,HAU1968a 次之,对衣分增效1.065 5%, 典型载体材料是新陆早58 号;NAU4022 是减效(-2.832 5%)表型效应最大,典型载体材料是斯字棉5A,MON_DPL0504aa 次之, 对衣分减效,效应值为1.382 5%,典型载体材料是司6022;其它具有增效表型效应的典型载体材料有新陆中47 号(NAU3298a)。
纤维上半部平均长度关联的等位变异位点中,NAU6997b 是1 个对纤维上半部平均长度呈增效表型效应的等位变异, 其增效效应为0.154 mm,典型载体材料是司6022。
断裂比强度关联的等位变异位点中,MGHES31b 是增效(1.438 7 cN·tex-1),典型载体材料是新陆早22 号;MGHES31c 是减效 (-0.489 1 cN·tex-1),典型载体材料是新陆早35。
马克隆值关联的等位变异位点中,MUSS422aa 是增效(0.090 3),典型载体材料是新陆中36 号;HAU2588b 是减效(-0.013 1),典型载体材料是新陆中11。
纤维整齐度关联的等位变异位点中,NAU2240b 是增效(0.160 0%),典型载体材料是新陆中27 号;NAU4022 减效0.730 6%, 典型载体材料是新陆中4 号;其它具有减效表型效应的典型载体材料是塔什干2 号(NAU2240a)。
纤维成熟度关联的等位变异位点中,MON_SHIN-1481a,HAU2588b 均是减效,其中MON_SHIN-1481a 表型效应最大,减效0.858 0%,聚合2个等位变异位点的典型载体材料都是新陆中7 号。
短纤维率关联的等位变异位点中,NAU2240b是减效(-0.208 2%),典型载体材料是新陆中27号;MON_SHIN-1584b 和NAU2240a 都 是 减 效,典型载体材料都是塔什干2 号。
将本研究结果与已报道的与棉花产量、纤维品质相关联的位点(287 个)比较发现(表4):本研究中获得的22 个标记位点已经在前人研究中报道, 其中10 个标记位点与报道的关联性状相同,分别为NAU3774(LW,BW)、HAU2770(LP)、NBRI_HQ526730(FE)、NAU3913(FE)、BNL3031(BW,LW,FS,MV)、BNL2449(LP)、NAU3736b( LW ) 、 NAU2126 ( LW , FUHML ) 、 MON_CGR6012(FUHML)和NAU2240(FU),其余12个标记位点可能是新发现的标记位点,有待进一步研究认证。
本研究共测定新疆陆地棉品种10 个表型性状,对每个性状进行了基本参数及性状间的相关性分析, 同时对10 个性状在6 个环境中变化趋势采用boxplot 图示, 直观清晰地展示了每个性状在三年两点中的极值范围和均值的变化趋势。以上的研究结果可以检测多环境稳定的QTL,为关联分析中位点的多个性状相关提供参照,以及为后期性状和标记的关联分析中挖掘更丰富的优异等位变异奠定基础。
群体结构的评价是进行关联分析的前提条件, 由于群体结构的存在会引起关联分析假关联,合理和准确地划分群体结构将会增加群体内的遗传相似性、群体间更高的遗传分化,同时很大程度上也会降低关联分析的误差。 因此,群体结构是否合适决定了关联分析的准确性。 在本研究中,群体结构划分为4 个主群,这与群体系谱来源相吻合,群体结构分析是基于亚群能否达到Harder-Weinberg 平衡的数学模型的聚类划分,计算材料相应Q 值。 其中占89%的33 个品种来源于新疆南疆选育的中长绒陆地棉新陆中系列,塔什干2 号是陆地棉新陆早7 号的骨干亲本,新陆早7 号是早熟陆地棉推广面积之大时间之久的品种;新陆中44 号和48 号的共同亲本之一为中棉所19,而新陆早49 号和新陆早40 号的共同亲本之一是新陆早16 号。 其中新陆早6 号是新陆早22 号和新陆早31 号的共同亲本之一。 其中斯字棉5A、KK1543、岱字棉15、中棉17 及司6022作为早期陆地棉引种的主要种质,后期的骨干亲本大部分从这些种质中选择的。
表4 本研究与已报道位点的比较结果Table 4 Comparison of the association loci in this study and in previously reported
本研究基于覆盖全基因组的73 对SSR 标记,对新疆陆地棉进行了全基因组关联分析。SSR标记作为传统的标记,其分辨率高,检测方便,在棉花重要基因或QTL 的精细定位中, 仍然是主要的检测方法,在性状位点的挖掘上仍然有较强的能力,而且将这些与性状相关联的标记用于辅助育种中具有很大的实用价值。 因考虑到亲缘关系的K 对关联分析的影响,本研究采用MLM 进行性状和标记的关联分析,并且为了避免关联分析的伪关联, 本研究还采用FDR 法对获得的与性状相关联的位点进行矫正,使获得的标记位点的可靠性更高。
本研究通过对新疆陆地棉品种6 个环境下的产量和纤维品质性状关联分析, 共检测到23个与纤维品质性状相关的位点以及10 个与产量性状相关联的位点, 其中有22 个标记已经在前人研究中报道,NAU3774 在本研究中与铃重和单铃皮棉重相关联, 对表型变异的解释率为5.19%和3.98%,在郭志军[55]和王寒涛[22]的研究中也检测到该标记与这两个性状相关联。 值得关注的是,NAU2240 在本研究与纤维整齐度、短纤维率、衣分和纤维整齐度相关联,并且它是对短纤维率与纤维整齐度贡献率最高的位点,在张轲[51]、Zhang 等[52]的研究中也检测到与纤维整齐度相关联, 可以确定NAU2240 为1 个对纤维品质性状特别是纤维整齐度的重要位点。 其中BNL3031与已研究报道的具有多个相同的性状关联,说明该标记是对陆地棉经济性状具有重要贡献的QTL,具有研究和应用价值。 HAU3071 在本研究中均与纤维上半部平均长度、断裂比强度极显著相关联,并且对这2 个性状的表型贡献率是最大的,分别为13.22%和11.46%,但是在他人的研究中并没有检测到这个标记,有可能是本研究发现的1 个新标记, 有待于进一步研究证明。NAU3913、MON_CGR6012 在本研究中均与单铃皮棉重、衣分、纤维上半部平均长度、断裂比强度、短纤维率、纤维整齐度和马克隆值相关联,性状间的相关性分析结果显示,单铃皮棉重与衣分是显著正相关。 此外,结合前人报道的结果和本研究的结果发现有3 个位点与2 个及以上性状同时关联,这些多效应的位点决定了性状之间的相关性, 对于多性状的协同改良具有应用价值,如NAU3774 和BNL3031 可用于产量性状的改良,表明这些标记在后期分子设计育种中可以作为优异的种质, 也可用于精确定位标记候选区间。 结果还表明,单个关联的优异等位变异位点可与多个性状关联, 如HAU2588b 作为铃重、单铃皮棉重的增效表型效应的等位变异位点,其典型载体材料分别是新陆中54 号和新陆中3 号,以上材料和等位变异位点可以优先选用于新陆中棉花高产分子设计育种中;而携带优异等位变异位点CCRI596aa 的典型载体材料新陆中66号, 携带优异等位变异HAU1968a 的新陆早58可优先作为高衣分棉花品种选育的亲本材料;司6022、 新陆早66 号聚合了纤维上半部平均长度的优异等位变异位点, 新陆早22 号聚合了断裂比强度的优异等位变异位点、 新陆中36 号聚合了马克隆值的优异等位变异位点,以上这些材料和优异等位变异位点在棉花纤维品质育种过程中将发挥着重要作用;新陆中27 号聚合了纤维整齐度的最大增效表型效应的等位变异和短绒率的减效表型效应的等位变异位点,在棉花分子育种中,可以作为亲本选育综合性状优异的品种。
本研究中检测到较多与产量和纤维品质相关联的标记位点,发掘到的这些优异等位变异位点,可在以下几个方面中得到应用:(1)杂交后代的标记辅助选择:根据育种目标性状,选择与该性状相关联的位点作为辅助选择标记,对后代进行选择,提高选择效率。 (2)棉花分子设计育种:利用棉花全基因组关联分析获得具有优异等位变异位点,将聚合以上优异等位变异基因位点的典型材料开展精准的棉花分子设计育种。
通过对6 个环境下新疆陆地棉品种关联分析,获得与产量性状相关的等位变异位点99 个、与纤维品质性状相关的等位变异位点188 个。2016—2018 年共检测到23 个与纤维品质性状相关的位点, 表型变异解释率范围为3.73%~13.22%, 平均值为7.52%;10 个与产量性状相关联的位点, 对表型变异解释率范围为6.69%~9.88%,平均值为8.43%。 本研究获得的稳定存在的、与前人研究相同的QTL 值得进一步研究,为相关基因的精细定位提供参考。