王帮太,杨美丽,郭 华,王 静,王志红,鹿红卫,程建梅,秦贵文,陈甲法
(1.鹤壁市农业科学院,河南鹤壁 458031;2.河南省玉米良种培育工程技术研究中心,河南鹤壁 458031;3.河南农业大学生命科学院,河南郑州 450002)
玉米是世界上主要的粮饲作物之一,优质的青贮玉米具备较高的淀粉、蛋白质含量和较低的纤维含量等特征[1]。玉米茎秆占整株产量的50%以上,是玉米个体的重要器官。青贮玉米茎秆营养品质性状主要包括中性洗涤纤维(NDF)、酸性洗涤纤维(ADF)、粗蛋白(CP)、脂肪含量(FAT)、消化率(IVDMD)和可溶性糖(WSC)等主要指标。
1997 年,LÜBBERSTEDT 等[2]利用测交群体开始对青贮玉米主要营养品质性状进行QTL 定位研究,检测到4 个粗蛋白产量和10 个粗蛋白含量QTL信息,可解释表型变异在48.3%~85.3%;MÉCHIN等[3]在青贮玉米重组自交系群体中定位到28 个与中性洗涤纤维、酸性洗涤木质素和消化率等性状的QTL,分布在1、4、6、7 号染色体上,可解释9.8%~13.9%变型变异;CARDINAL 等[4]同样以重组自交系群体在玉米叶鞘和茎秆中定位到31 个和23 个与NDF、ADF 含量相关的QTL;BARRIÈRE 等[5-7]重点对木质素含量QTL 进行研究,发现其主要分布在bin1.02(76~80 cM)、bin1.07(228~230 cM)和bin8.07(134~142 cM)区域,在bin2.04 区域发现解释表型变异43%的真实性木质素QTL;随着玉米全基因组关联分析技术在性状显著性发掘和应用,WANG等[8]以368 份自交系作为关联群体,利用全基因组关联分析技术,检测到73 个ADF 显著性SNP、41 个NDF 显著性SNP 和82 个IVDMD 显著性SNP,解释变异4.2%~6.2%,筛选到56 个候选基因与青贮品质相关。李灿[9]以338 份玉米自交系为材料,对ADF、NDF、IVDMD 和CP 等主要营养品质性状进行关联分析,发掘4 个ADF、10 个NDF、3 个CP 和3 个IVDMD 显著性SNP,并在显著位点附近筛选到12 个相关性状候选基因。李坤[10]在7 个环境条件下,以368 份玉米自交系为材料,检测到64 个和69个分别与细胞壁组分和消化品质性状显著关联位点,并在关联的候选基因中发现了ZmC3H2 与多个性状显著关联,直接参与木质素合成途径。林淼等[1,11]以341 份玉米自交系为材料,分别对青贮玉米秸秆消化率和中性洗涤纤维含量进行全基因组关联分析,检测到153 个IVDMD 显著性SNP,69 个NDF显著性SNP,共发掘38 个和IVDMD 关联的候选基因,10 个和NDF 关联的候选基因,主要涉及细胞生长发育、胁迫应答和信号转导等生物学功能。前人对玉米茎秆营养品质性状进行全基因组关联分析研究多集中在一年时间和固定生育期,还未见两年时间和多个生育周期研究报道。
本研究以381 份玉米自交系组成自然群体,遗传基础丰富,采用基因型与玉米茎秆营养品质相关性状表型数据进行关联分析,在不同年份玉米不同生育期中找到控制玉米茎秆营养品质相关性状的显著SNP 信息,进而挖掘出相关候选基因,以期为培育优质的青贮玉米品种提供理论参考。
选择381 份玉米自交系组成供试群体材料,包含国内骨干自交系和国际主要的优势群,群体材料由墨西哥国际玉米小麦改良中心(CIMMYT)收集提供。381 份材料含有普通玉米自交系235 份、爆裂玉米自交系58 份、糯玉米自交系材料88 份。2016 年、2017 年两年时间,将381 份群体材料种植于鹤壁市农业科学院试验园区,采用随机区组设计,每个自交系材料种植2 行,行长5.0 m,行距0.6 m,株距0.2 m,3 个重复,田间生长按照正常农业生产进行管理。
在玉米抽雄期、灌浆期、成熟期对茎秆营养品质性状中性洗涤纤维(NDF)、酸性洗涤纤维(ADF)、消化率(IVDMD)进行测定,编号分别为2016 年NDF(16NDF1)、灌浆期(16NDF2)、成熟期(16NDF3),2016 年、2017 年其他性状编号类同。每份供试自交系各生育期选取生长一致的3 棵植株,在第3 节上下茎节处剪断取样后在105 ℃鼓风干燥箱内进行杀青30 min,65 ℃烘至恒重,用锤式粉碎机混合粉碎样品,过0.5 mm 网筛,存放备用。利用近红外光谱分析仪(BRUCK FT-NIR)对样品NDF、ADF 和IVDMD进行测定,将样品放于直径50 mm 的样品测定杯中,每份样品扫描3 次,取平均值。采用Excel 2007、DPS 7.05 软件进行数据统计相关分析及遗传力计算。利用R 语言“CMplot”软件包进行相关性状关联图的绘制(https://github.com/YinLiLin/CMplot)。
2021 年,挑选储存于-80 ℃超低温冰箱中群体材料叶片236 份,采用磁珠法提取基因组DNA,完成DNA 浓度、纯度和完整性检测。由河北渥太华公司利用Maize SNP50 基因芯片进行基因分型,该芯片包括500 000 个SNP 标记,质控后获得461 053 个高质量SNP 标记进行全基因组关联分析(图1)。
图1 包含461 053 个SNP 标记的染色体密度图Figure 1 The chromosome density map with 461 053 SNP markers
为充分挖掘玉米茎秆营养品质性状显著性SNP信息,筛选更为真实性显著SNP 位点,在考虑群体结构和亲缘关系的情况下,利用TASSEL V5.0 软件[12]的广义线性模型(GLM)和混合线性模型(MLM)2 种模型对不同年份玉米不同生育期茎秆营养品质性状NDF、ADF 和IVDMD 进行关联分析,以群体结构-主成分分析(principle component analysis,PCA)为固定效应,亲缘关系(kinship)作为随机效应。根据发表的相同关联群体[9-11]Bonferroni 校正阈值GLM 模型选择P<0.05/n,MLM 模型选择P<1/n,n=标记数量[13],因此,本研究的阈值GLM 模型阈值为P<1.08×10-7,MLM 模型阈值为P<2.17×10-6。
以公共数据库MaizeGDB(https://www.maizegdb.org/genome/)B73 参考基因组(B73 RefGenv4)序列信息为参考,获取显著关联SNP 的上、下游1 kb 范围内基因作为玉米第3 节茎秆相关性状候选基因。在Uniprot 蛋白质数据库对候选基因进行注释和功能预测(https://www.uniprot.org/uniprotkb/)。
2016 年和2017 年玉米不同生育时期茎秆营养品质性状基本描述统计和频率分布图见表1、图2~图7。由表1、图2~图7 可知,各性状变异范围较大,变异系数除16IVDMD3 和17IVDMD2 外均小于15%,表型多样性较为丰富。各性状偏度和峰度绝对值均小于1,结合性状分布频率直方图,基本呈现正态分布态势,符合典型的数量性状特征。不同年份各生育期玉米茎秆营养品质性状的广义遗传力除16NDF 外均大于40%,说明这些性状主要受遗传因素影响。结合方差分析结果可知,年度内不同性状之间存在极显著差异,各性状也受部分环境因素的影响。
表1 年份间玉米不同生育时期茎秆营养品质性状统计分析Table 1 Statistical analysis of maize stem nutritional quality traits in different growth stages between years
图2 2016 年茎秆营养品质性状(ADF)频率分布图Figure 2 Frequency distribution of stem nutritional quality traits(ADF)in 2016
图3 2016 年茎秆营养品质性状(NDF)频率分布图Figure 3 Frequency distribution of stem nutritional quality traits(NDF)in 2016
图4 2016 年茎秆营养品质性状(IVDMD)频率分布图Figure 4 Frequency distribution of stem nutritional quality traits(IVDMD)in 2016
图5 2017 年茎秆营养品质性状(ADF)频率分布图Figure 5 Frequency distribution of stem nutritional quality traits(ADF)in 2017
图6 2017 年茎秆营养品质性状(NDF)频率分布图Figure 6 Frequency distribution of stem nutritional quality traits(NDF)in 2017
图7 2017 年茎秆营养品质性状(IVDMD)频率分布图Figure 7 Frequency distribution of stem nutritional quality traits(IVDMD)in 2017
利用Tassel 5.0 软件对测序的236 份玉米自交系两年不同生育期的茎秆营养品质性状分别进行全基因组关联分析,绘制曼哈顿图和QQ 图(图8、图9),利用GLM 模型分别对两年不同生育期玉米茎秆营养品质性状进行分析,2016 年在玉米10 条染色体上共检测出207 个显著关联的SNP 位点,第1 号~第10 号染色体分别检测出31、7、20、11、1、17、92、9、10 和9 个。检测到的显著性SNP 数ADF 为61 个(ADF1:60 个,ADF3:1 个)、NDF 为35 个(NDF1:35 个)、IVDMD 为111 个(IVDMD1:110 个,IVDMD3:1 个),表型变异解释率9.69%~17.23%,其中表型解释率最高的位点为8 号染色体的115 738 055,与IVDMD1 显著关联。2017 年在玉米10 条染色体上共检测出185 个显著关联的SNPs 位点,第1 号~第10 号染色体分别检测出36、15、13、24、6、13、45、15、7 和11 个。检测到的显著性SNP 数ADF 为39 个(ADF1:30 个,ADF2:9 个)、NDF 为85 个(NDF1:85 个)、IVDMD 为61 个(IVDMD1:59 个,IVDMD2:1 个,IVDMD3:1 个),表型变异解释率10.40%~17.34%,其中表型解释率最高的位点为1 号染色体的78 928 972,与IVDMD1 显著关联。
图8 利用GLM 模型2016 年、2017 年玉米茎秆营养品质性状曼哈顿图和QQ 图Figure 8 The Manhattan map and QQ map of maize stem nutritional quality traits with GLM model in 2016 and 2017
利用MLM 模型(PCA+K)对两年不同生育期玉米茎秆营养品质性状进行关联分析,2016 年在玉米10 条染色体上共检测出11 个显著关联的SNPs 位点,分布在第1、4、5、6、7、9 号染色体上,检测到的SNP 个数ADF 为2 个(ADF1:1 个,ADF3:1 个)、NDF 为2 个(NDF1:1 个,NDF3:1 个)、IVDMD 为7 个(IVDMD1:1 个,IVDMD2:4 个,IVDMD3:2 个),表型变异解释率9.82%~11.94%,其中表型解释率最高的位点为1 号染色体的101 479 365,与IVDMD2 显著关联。2017 年在玉米10 条染色体上共检测出246 个显著关联的SNP 位点,第1 号~第10 号染色体分别检测出23、20、16、56、36、21、20、12、7 和35 个。检测到的显著性SNP 数ADF 为2 个(ADF1:1 个,ADF3:1 个)、NDF 为242 个(NDF1:241 个,NDF2:1 个)、IVDMD 为2 个(IVDMD1:2 个),解释表型变异为10.80%~20.20%,其中表型解释率最高的位点为6 号染色体的156 196 975,与NDF1显著关联。
利用GLM 和MLM 模型进一步分析发现,2 次以上独立关联分析检测的玉米茎秆营养品质性状显著性SNP 分别有97 个和17 个(表2),推测这些位点携带可在不同环境下稳定调控玉米茎秆营养品质性状的重要基因;相同玉米茎秆营养品质性状不同生育期发现到2 次以上独立关联分析检测到的SNP分别有9 个,推测这些位点可能携带玉米茎秆营养品质相关性状生长过程中重要基因,在多个生育期都持续表达,发挥作用;不同模型下相同玉米茎秆营养品质性状生育期发现到2 次以上独立关联分析检测到的SNP 有14 个,推测这些位点携带的候选基因更能够在玉米茎秆营养品质相关性状稳定表达。同时还发现不同玉米茎秆营养品质性状有76 个相同显著性SNP,这些位点可能为一因多效显著性位点。这些SNP 针对玉米茎秆营养品质相关性状可被多次显著关联,属于高可信度(high confidence,HC)SNP。其中,HC-SNP 位点2_61970473利用不同模型在两年间不同生育期内检测到11 次与ADF、NDF、IVDMD 显著相关,1_78928972 位点检测到7次与ADF、NDF、IVDMD 显著相关,并且检测到7_147043382~7_148071053 区段内聚集着不同模型发掘的48 个与茎秆营养品质性状显著SNP,这个区段可能为玉米茎秆营养品质性状相关基因富集区域。
表2 利用模型分析2 次以上独立关联分析检测到的显著性SNP 信息Table 2 Significant SNP information detected by more than 2 independent association analyses using model analysis
基于2 种模型关联的649 个玉米茎秆营养品质相关性状显著性SNP 位点上下游1 kb 范围内进行候选基因的筛选预测,结合基因功能注释共鉴定出159 个候选基因(表3),其中有43 个候选基因被2 次以上重复检测到,这些基因可能为玉米茎秆营养品质性状的高可信度关联基因。利用GLM 模型共获得77 个候选基因,它们大多数编码酶类、信号转导蛋白和转录因子。利用MLM 模型共获得82 个候选基因,其中与GLM 模型候选基因重合的有10 个,它们大多数编码产物为合成蛋白、激酶参与无机离子的转运与代谢。同时本研究还发现29 个未知功能基因为 Zm00001d026565、Zm00001d023185、Zm00001d024649、Zm00001d024650、Zm00001d023970、Zm00001d023676、Zm00001d048287、Zm00001d008080、Zm00001d009180、Zm00001d021293、Zm00001d019026、Zm00001d019024、Zm00001d019023、Zm00001d019013、Zm00001d001384、Zm00001d001641、Zm00001d001606、Zm00001d014857、Zm00001d014501、Zm00001d013952、Zm00001d054036、Zm00001d027026、Zm00001d053669、Zm00001d027025、Zm00001d050766、Zm00001d041952、Zm00001d000471、Zm00001d005084、Zm00001d029912。
利用2 种模型共有43 个候选基因被2 次以上重复检测到,其中,Zm00001d021261 在多个位点发现31 次与不同年份ADF、NDF 和IVDMD 相关联,其编码产物为ATP 结合蛋白,叶绿体传感器激酶,在成熟期叶片中表达量最高;Zm00001d021255 在2 个位点发现10 次与玉米茎秆营养品质性状相关联,其编码产物为富半胱氨酸受体样蛋白激酶25,只在发育节间和雌穗中表达;Zm00001d029606 在位点1_78912383 发现6 次与玉米茎秆营养品质性状相关联,其编码产物为激酶类,参与MAPK 通路细胞信号调节作用,与病原体攻击和其他应激的反应有关;Zm00001d021291 在位点7_148071053 发现6 次与玉米茎秆营养品质性状相关联,其为调节器APRR9 响应基因;Zm00001d026568,Zm00001d02-6569 同时在位点10_148732794 发现5 次与玉米茎秆营养品质相关性状相关联,其编码产物为三角状五肽重复的蛋白质和酰胺激酶,在叶片中表达量最高。Zm00001d041780,Zm00001d000617 同时在位点3_137592942 发现4 次与玉米ADF 和NDF性状相关联,其编码产物为锌指同源域蛋白4;Zm00001d039507 在位点3_6124686 发现4 次与玉米茎秆营养品质性状相关联,其编码产物为富半胱氨酸受体样蛋白激酶26;Zm00001d033937 在位点1_279122467 发现4 次与玉米茎秆营养品质性状相关联,在玉米胚乳中表达量最高。
采用GLM 和MLM 两种模型关联到包括98 个HC-SNP,通过比较国内外玉米茎秆相关性状遗传定位结果进行比较分析。李灿[9]在位点2_61856982、10_132526605 关联到玉米茎秆ADF 性状与本研究在位点2_ 61970473、10_136566105 关联到两年玉米茎秆ADF 性状位点相近;李坤[10]在位点4_212042636、5_214950148、9_154310517 与本研究在位点4_223568479、5_209142766、9_157236166 关联到的玉米茎秆ADF 性状位点相近,在位点1_289067501、4_238963925、5_208726501、6_11214-0579、6_165811525、7_15004700 与本研究在位点1_286593168、4_239700521、5_209142766、6_10295-0077、6_167554233、7_15377961 关联到的玉米茎秆IVDMD 性状位点相近,在位点1_210484552、4_150890717、5_151630980、5_179270149、6_14896-1496、6_155653406、6_159384518 与本研究在位点1_212493921、4_153166802、5_155920231、5_18313-8128、6_151315534、6_155681347、6_160117741 关联到的玉米茎秆NDF 性状位点相近;林淼等[11]在位点1_253292068、2_192262471、5_168240423 与本研究在位点1_253671539、2_199745298、5_164599381 关联到的玉米茎秆NDF 性状位点相近;WANG 等[12]在位点6_155653406、4_104075114 关联到的玉米茎秆NDF 与本研究在位点6_155681347、4_100978305 关联到的玉米茎秆NDF 性状位点相近;本研究中定位到的玉米茎秆营养品质性状显著性SNP 区间与以往前人研究的相关性状有较多的重合,这证明定位到的玉米茎秆营养品质相关性状的结果可靠性较高,适合进一步对玉米茎秆相关性状关键基因的挖掘[13]。另外,本研究检测到的与以往研究不同的新的显著性SNP 位点,特别是一些高可信度显著SNP 位点以及表型解释率在15%以上的高效显著SNP,对于发掘出玉米茎秆营养品质相关性状新的显著性位点,进而挖掘一些新的关联基因具有重要意义。
在本研究中,IVDMD 的遗传力估计值相对较高,两年均大于50%,揭示了IVDMD 性状的强大遗传基础。2016 年,ADF 与NDF 之间存在极显著的正相关(r=0.97),ADF、NDF 与IVDMD 之间存在极显著负相关(ADF:r=-0.93,NDF:r=-0.90),2017 年,ADF 与NDF 之间存在极显著的正相关(r=0.92),ADF、NDF 与IVDMD 之间存在极显著负相关(ADF:r=-0.89,NDF:r=-0.90),这表明高纤维含量的基因型种质材料将难以消化[14]。
中性洗涤纤维组成成分包括全部的半纤维素、纤维素、木质素及少量硅酸盐等杂质[15],酸性洗涤纤维组成成分包括全部的纤维素、木质素和少量的酸不溶灰分等成分[16],纤维素是植物细胞壁主要成分,而细胞壁作为一种复杂的基质,多种酶家族会直接影响细胞壁物质代谢和合成[17],另外,脂肪酸代谢和脂质代谢可能也会影响细胞壁合成。细胞壁结构还受动态的细胞骨架和细胞壁聚合物多种运输途径的调节和组织影响[18]。玉米茎秆构成主要有纤维素,还有少量糖类、无机盐和水分,茎的侧生分生组织开始分裂,束中形成层生长分化,茎秆开始加粗和伸长[19]。
本研究显著性SNP 标记重复关联到的高可信度候选基因Zm00001d017867、Zm00001d048496、Zm00001d053713、Zm00001d0537、Zm00001d017867、Zm00001d038950、Zm00001d019075、Zm00001d038-570、Zm00001d016492 在前人的研究中都得到验证,与茎秆营养品质性状相关,参与调控代谢物质、细胞壁形成和物质运输等,进一步可影响茎的分化和皮层发育。另外,本研究还发现了一些与茎秆相关性状关联的新的基因信息,在维持组织细胞结构、参与根茎的生长调节因子和辅酶家族的调控,特别提出的是Zm00001d029606 基因编码产物为激酶类,参与MAPK 通路细胞信号调节作用,该蛋白激酶与对病原体攻击和其他应激的反应有关[20];Zm00001d021291 基因为调节器APRR9 响应基因[20-25];Zm00001d041780,Zm00001d000617 基因编码产物为锌指同源域蛋白4[26-27]。
本研究利用461 053 个高质量SNP 对236 份玉米自交系茎秆营养品质相关性状ADF、NDF 和IVDMD 进行全基因组关联分析。两年环境下采用GLM 和MLM 两种模型分别关联到392 个和257 个茎秆营养品质相关性状显著性SNPs,表型变异解释率为9.69%~20.20%。其中,2 种模型分别有97 个和17 个位点相同性状各生育期发现到2 次以上独立关联分析显著SNP,属于HC-SNP。发现位点7_147043382~7_148071053 区段内聚集着不同模型发现的48 个与茎秆营养品质性状显著SNP,该区段属于茎秆营养品质相关性状关联基因富集区域。结合基因功能注释共鉴定出159 个候选关联基因,其中有43 个候选基因被2 次以上重复检测到。采用GLM和MLM 两种模型可以快速、有效地关联到与茎秆营养品质相关性状显著性位点,通过重复性显著位点筛选出HC-SNP,进而挖掘出关联基因富集区域。