刘易雪,蔚 睿,吴建辉,韩德俊,苏宝峰
刘易雪1,2,3,蔚 睿4,5,吴建辉4,5,韩德俊4,5,苏宝峰1,2,3※
(1. 西北农林科技大学机械与电子工程学院,杨凌 712100;2. 农业农村部农业物联网重点实验室,杨凌 712100; 3. 陕西省农业信息感知与智能服务重点实验室;4. 西北农林科技大学农学院,杨凌 712100; 5. 西北农林科技大学旱区作物逆境生物学国家重点实验室,杨凌 712100)
为了实现田间条件下小麦抗冻性状相关的数量性状基因座(quantitative trait locus, QTL)分析,该研究针对4个试验地491份小麦核心种质资源的抗冻性状,基于无人机多光谱遥感提出了一种高通量表型方法。首先通过光谱植被指数对小麦抗冻性状进行评估,基于机器学习分类算法使用16个光谱植被指数特征构建了小麦冻害评价模型,并完成了光谱特征相关性分析及对评价模型的贡献率分析。对比随机森林(random forests,RF)、分布式梯度增强(extreme gradient boosting,XGBoost)、梯度提升决策树(gradient boosting decision tree,GBDT)及支持向量机(support vector machine,SVM)算法建立的小麦冻害等级评价模型,结果表明,使用XGBoost建立的评价模型准确率最高,达67.94%;16个光谱特征相关性及其对评价模型的贡献率分析表明,简化冠层叶绿素含量指数(simplified canopy chlorophyii content index, SCCCI)对小麦抗冻表型鉴定的贡献率最大。其次,使用SCCCI作为小麦抗冻表型,结合通过全基因组关联分析检测小麦抗冻相关QTL,检测到3个已被证明与抗冻性状相关的QTL,证明了基于无人机获取的光谱特征可以作为小麦抗冻表型定性定量分析指标,可提供小麦抗冻性状遗传解析必需的表型信息。小麦冻害的无人机遥感高通量表型方法的提出促进了小麦抗冻基因功能解锁。
低温胁迫是小麦在越冬期遇到的最大生存阻力,小麦能否成功越冬主要受抗冻性基因调控[7-9]。小麦抗冻性相关基因位点的定位工作依赖于小麦田间受低温胁迫后冻害表型分析,过去主要由育种专家长期的田间调查完成[10-12],数百种基因型数据的田间调查工作需要几天的时间才能完成,并且表型数据会受到变化的环境条件(风,太阳角,温度,湿度)以及昼夜节律的影响[13],存在效率低且数据质量难以保证的问题[5,14-17]。田间表型平台可以代替人工调查,提高效率[11]。尽管目前已有表型平台投入到实际应用中,仍无法保证数据质量。例如,ANDRADE-SANCHEZ等[12]的研究发现,在5 h的过程中经过干旱胁迫的棉花的归一化差异植被指数(normalized difference vegetation index, NDVI)下降了21%,而未经处理的棉花也下降7%。
从2020年以来,已有研究开始尝试结合基于遥感的植物高通量表型方法和全基因组关联分析(genome-wide association study, GWAS)方法挖掘单核苷酸多态性标记(single nucleotide polymorphism, SNP)[23-25]。例如,SANTINI等[26]基于无人机遥感开发了一种半自动的地中海白松冠层分割方法,并利用分割结果进行GWAS找到了相关基因组区域。COUPEL-LEDRU等[27]基于近地遥感获取苹果的冠层结构相关参数,基于GWAS筛选相关基因组区域找到了参与每个性状相关途径的候选基因。针对基于无人机遥感的小麦SNP挖掘,HASSAN等[24]基于无人机遥感获取田间小麦株高,验证了以往通过人工测量方式获取到的表型鉴定到的相关基因组区域;CHEN等[9]基于无人机遥感观察冬小麦的越冬能力并根据视觉算法结果基于GWAS找到了相关基因组区域。虽然这些研究验证了无人机遥感可以替代人工田间调查,证明了基于无人机遥感的田间高通量表型方法服务全基因组关联分析的可能性,但由于表型特征信息不足,导致在基因功能挖掘结果方面没有突破进展。而JIANG等[28]基于无人机遥感影像构建水稻抗旱指数等3种动态性状,通过全基因组关联分析检测到111个与干旱胁迫显著相关位点,其中30.6%在之前研究未检测到。这表明了结合无人机遥感以及机器学习算法在表型特征上的创新为突破目前植物基因功能解锁贡献了主要动力。然而,这部分工作在小麦抗冻性的基因功能挖掘方面还留有空白,如何分析并解释表型特征与基因型的关系,以挖掘更多性状相关功能位点仍然是目前亟待解决的问题。
针对上述问题,本文提出一种基于无人机遥感的小麦抗冻高通量表型方法,以自然条件下受到低温胁迫的小麦为研究对象,结合遥感技术、计算机视觉算法以及机器学习提出田间高通量小麦冻害等级评价方法,使用GWAS处理表型分析结果检测与小麦抗冻性相关QTL(quantitative trait locus),拟为分析小麦抗冻性的关键遗传因素提供参考。
表1 试验地气候环境对比
1.2.1 无人机遥感影像
无人机遥感影像采集系统由Matrice 100(深圳DJI)和Micasence Rededge Camera(美国西雅图MicaSense Inc.)组成。Matrice 100搭载MicaSence Rededge相机用于快速获取小麦冠层的多光谱图像。MicaSence Rededge多光谱相机分辨率为1 280×960像素,包括蓝光(Blue)、绿光(Green)、红光(Red)、红边(Red edge)和近红外(NIR)5个波段,它们的中心波长分别为475、560、668、717和840 nm,其带宽分别为20、20、10、10和40 nm。
在小麦越冬期(播种后90 d左右),在晴天10:00至12:00进行小麦冠层的无人机多光谱图像采集,飞行高度为15 m,飞行路径覆盖整个试验区,同时将飞行路径纵向重叠率设置为80%,横向重叠率设置为75%。每次飞行任务执行前后,使用Micasence校正白板获取参照图像用于反射率校准(校正参数Blue为0.57,Green为0.58,Red为0.58,Red edge为0.58,NIR为0.53)。
1.2.2 人工田间调查
依据气象情况,在2019年1月15日,中国北方地区大面积遭受一次寒流,于2019年1月19日到1月22日分别前往4个试验地进行田间调查并记录小麦受低温胁迫后冻害发生的具体情况。人工调查时间平均为2 d,每个试验地的调查间隔最长不超过2 d。在无人机采集小麦冠层多光谱图像数据的同一时间,参照中华人民共和国农业行业标准《NY/T 1301-2007》对4个试验地鉴定小麦受低温的胁迫情况,并将小麦受冻害情况分为5个等级,分级标准如表2所示。
表2 小麦冻害等级分级标准
1.2.3 SNP获取
采用Affymetrix公司开发的小麦660 K SNP芯片对491份品种材料进行基因型检测,分型工作主要由博奥晶典生物技术有限公司(北京,http://www.capitalbiotech.com)完成。基于贝叶斯系统发育法对种群结构进行聚类分析,计算微等位基因频率(micro allele frequency, MAF)、遗传多样性和多态性信息含量(polymorphism information content, PIC)。为保证基因分型数据的准确性,利用R语言包对标记进行质量控制,过滤缺失率大于20%的标记、显著偏分离的标记以及微等位基因频率低于0.05%的标记[31]。
图1 技术路线图
1.3.1 单个品种冠层植被指数特征提取
使用Pix4D Mapper软件处理无人机多光谱图像,经几何校正、辐射校正、图像拼接及指数计算后,生成杨凌、洛阳、南阳和宿迁4个试验地对应的光谱植被指数地图。
低温胁迫对小麦生长的影响主要体现在含水量、光合作用以及渗透物质含量等方面。小麦受到低温胁迫后,主要表现为叶尖发黄、光合作用停滞、叶片枯死、分蘖冻死[32],推测冠层植被覆盖度或反应叶绿素水平的光谱特征可能与小麦受低温胁迫后的表型相关。因此,小麦抗冻性鉴定模型的输入特征包括5个波段(Blue、Green、Red、Red edge及NIR)和由这5个波段计算得出的与冠层覆盖度、叶绿素相关的16个植被指数[33-46](表2)。
表2 光谱特征及其计算式
注:R、R、R、R、R分别代表了Blue、Green、Red、Red edge、NIR正射影像的灰度值。
Note:R,R,R,R,Rrepresent the gray value of blue, green, red, red edge and NIR orthophoto respectively.
1.3.2 冠层光谱特征与低温胁迫的相关性分析
整合4个试验地491种不同基因型的小麦品种的16个植被指数特征构建数据集,一共包括1 964个样本,每个样本有16个输入特征,同时以人工田间调查结果为参照作为实际标签。随机抽取数据集的20%作为测试集,剩余的数据作为训练集,测试集不参与分类器训练。
本文使用随机森林[47](random forests,RF)、分布式梯度增强[48](extreme gradient boosting,XGBoost)、梯度提升决策树[49](gradient boosting decision tree,GBDT)及支持向量机[50](support vector machine,SVM)分类算法进行训练。XGBoost是在Boosting框架下的前向迭代模型,训练弱学习器的同时引入列采样和学习率,使用节点递归分裂的贪心准则来实现树的生成,同时使用稀疏感知策略来应对缺失值。XGBoost通过融合随机森林算法中列采样,对每次节点分裂前进行随机采样提升抗噪能力,同时在树模型的参数化过程中加入了正则项控制模型的复杂度防止过拟合[47-49]。设置RF分类器的弱学习器的最大迭代次数为10,子结点上的最小样本数量为2;设置XGBoost分类器学习率为0.1以二分类逻辑回归为目标函数训练分类器;设置GBDT分类器学习率为0.1,每棵子树的深度为2,子结点上的最小样本数量为2;设置SVM分类器的核函数为径向基函数。使用Python3.8.8在配备 Intel i7-9700 3.00 GHz CPU、16 GB 内存和 Nvidia GeForce GTX 3090 显卡、运行 Win10 操作系统的工作站上实现小麦冻害评价模型的建立。
1.3.3 全基因组关联分析
利用GEMMA软件采取合适的模型进行全基因组关联分析,值的阈值基于有效标记的数量(=1/N,N为有效SNP标记数量)。显著性关联标记通过软件R 3.0.3绘制的曼哈顿图(Manhattan plot)来挖掘,通过GCTA软件进行显著性关联标记对表型贡献率的评估。使用分位数图对关联分析结果进行可视化。
2.1.1 分类算法对比结果与分析
由表3可知,XGBoost分类器的分类性能优于SVM、RF及GBDT,准确率达67.94%,各个冻害等级的F1分数均超过了0.5(表4),这个试验结果表明使用无人机多光谱图像基于XGBoost建立的小麦冻害评价模型能够替代人工田间调查作为田间高通量表型获取方法。在本研究中,对于任一个试验地,专家田间调查560个种植小区,评估小麦冠层受低温胁迫情况,并鉴定冻害等级,至少需要8 h以上,然而,无人机执行一次飞行任务仅需要15 min,结合本文所提全自动的表型分析方法分析,研究基于无人机遥感的小麦田间高通量表型方法将为育种技术的发展提供一大助力。
表3 不同分类器预测性能
图2 不同分类器在测试集上的预测结果与实际标签的混淆矩阵
表4 基于XGBoost不同冻害等级分类结果评估
2.1.2 光谱特征重要性分析
图3 小麦冠层16个光谱特征对冻害鉴定的贡献率排序
通过全基因组关联分析发现在小麦的21条染色体上,共有3个位点出现了超出阈值(﹣lg=4)且连续分布的显著SNP,分别位于位点2B、3A与5A(图4a)。从图4b中看出,当- lg<4时,值的分布和均匀分布的结果集中在一条直线上,表示确定与抗冻表型性状不关联的位点,这些位点的值观测值与期望值一致;当-lg>4时,值的分布和均匀分布的结果出现快速分离的情况,特别是值越低的时候分离程度就越高,说明这些位点的效应超过了随机效应,位点2B、3A与5A是潜在与抗冻表型性状相关的候选位点。对2B短臂上显著SNP注释发现他们位于编码一个Cor14b蛋白的基因上,该蛋白已被证明在大麦和二倍体小麦中参与对逆境胁迫的响应[56];同样在5A长臂的位点与前人定位研究的Fr1与Fr2重合,Fr1与Fr2是两个重要的抗冻(frost tolerance, FroT)位点,即抗冻1(FR-A1)和抗冻2(FR-A2),拥有Fr1与Fr2的小麦具有耐冻性和冬季抗冻性,其中Fr1与VRN-A1基因紧密相连,他们共同作用参与到小麦耐冻调控的通路上[57-58]。3AL上的位点很可能与近期挖掘的一个小麦抗冻QTL一致[59]。
图4 SCCCI的曼哈顿图与QQ Plot图
1)本文对4个试验地的491份小麦种质材料进行了人工田间调查,同时获取4个试验地的无人机多光谱遥感影像并生成16个光谱植被指数特征,对比分析了XGBoost、GBDT、RF及SVM 4种方法建立的小麦冻害评价模型,结果表明,使用XGBoost建立的评价模型准确率最高,可达67.94%。同时,并以信息增益作为评估标准评估了16个不同光谱特征对评价模型分类性能的影响,结果表明简化冠层叶绿素含量指数(simplified canopy chlorophyii content index, SCCCI)是对小麦冻害鉴定贡献最大的特征。
High-throughput phenotyping for different genotype wheat frost using UAV-based remote sensing
LIU Yixue1,2,3, YU Rui4,5, WU Jianhui4,5, HAN Dejun4,5, SU Baofeng1,2,3
(1.712100,; 2.712100,; 3.712100; 4.712100; 5.,712100,)
Wheat (triticum aestivum l.) breeding technology can face a great challenge on the long cycle, low efficiency, and narrow genetic background. An important breakthrough can be combining the high-throughput phenotyping of in-field wheat and genome-wide association, thereby revealing the genetic variation in dynamic response to environmental stress. Fortunately, the unmanned aerial vehicle (UAV) remote sensing and machine learning can be expected to bridge the genotype–phenotype gap of the wheat in the breeding process. Among them, frost tolerance is an important phenotype target, particularly with the winter survival of wheat in various environments. It is a high demand for the rapid and cost-effective assessment of frost tolerance from the UAV multi-spectral imagery using machine learning. In this study, a genome-wide association study (GWAS) was assessed for the quantitative genomic analysis of wheat frost tolerance. A bi-parental wheat population consisting of 491 doubled haploid lines was also used in four study sites. 491 wheat core materials with a relatively consistent growth stage were selected to obtain their high-density genotype data with the 660 K single nucleotide polymorphism (SNP). The UAV-based multi-spectral imagery of the wheat canopy was collected at the overwintering stage at four experimental sites. At the same time, the wheat in-field phenotypes of frost tolerance were investigated by the wheat breeding experts at the same time. The image pre-processing was performed on the features generation of 16 spectral vegetation indices, including image mosaic, geometric correction, radiometric correction and index calculation. Image segmentation was utilized to obtain the features of the wheat canopy using unsupervised clustering. The features correlation analysis and importance analysis were implemented to compare with the in-field investigation, in order to identify quantitative trait loci (QTL) underlying frost tolerance. A comparison was then made on the evaluation models of wheat freezing injury established by random forests (RF), extreme gradient boosting (XGBoost), gradient boosting decision tree (GBDT), and support vector machine (SVM). The results showed that significantly high accuracy was achieved up to 67.94% of the classifier in the XGBoost, compared with the in-field investigation. The correlation and importance of features were also analyzed during this time. The importance of 22 spectral features to the prediction performance of the classifier was evaluated using the information gain brought by the feature, when the sub node of the classifier split. The results showed that there was the most important for the prediction performance of the classifier in the simplified Canopy Chlorophyll content index (SCCCI) among the 16 spectral features of the wheat canopy. Three QTLs were also closely related to the frost resistance detected by the genome-wide association analysis. The three loci of 2B, 3A, and 5A on chromosome 21 of wheat presented a significant SNP, even exceeding the threshold (-lg=4). The SNPs were continuously distributed. Therefore, the spectral features using UAV remote sensing can be expected to serve as the wheat frost resistance QTL. The UAV-enabled phenotyping can be an effective, high-throughput, and cost-effective approach to understanding the genetic basis of wheat frost tolerance in genetic studies and practical breeding. This finding can also provide a fast way for the high-throughput phenotyping of wheat frost tolerance for wheat winter survival in the field.
UAV; remote sensing; wheat frost; multispectral; GWAS; machine learning
刘易雪,蔚睿,吴建辉,等. 不同基因型小麦冻害无人机遥感高通量表型[J]. 农业工程学报,2023,39(5):128-136.doi:10.11975/j.issn.1002-6819.202206279 http://www.tcsae.org
LIU Yixue, YU Rui, WU Jianhui, et al. High-throughput phenotyping for different genotype wheat frost using UAV-based remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(5): 128-136. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202206279 http://www.tcsae.org