吴静珠 张 乐 李江波 刘翠玲 孙晓荣 余 乐
(1.北京工商大学食品安全大数据技术北京市重点实验室, 北京 100048;2.北京农业智能装备技术研究中心, 北京 100097)
随着机械化的提升,玉米播种方式从传统的“一穴多粒”逐渐转变为单粒精量播种[1]。而单粒精量播种技术的关键核心之一是高质量种子的筛选。根据GB 4404.1—2008,水分是我国农作物种子质量四大必检项目之一[2]。当玉米种子含水率高于14%时会导致种子呼吸增大、养分消耗过多、引起种子活力下降[3]。因此单粒玉米种子水分检测对于单粒精量播种技术具有重要的实际意义。传统的种子水分检测方法如烘干法等,虽然检测精度较高,但存在试样破坏性、耗时长以及无法进行单粒检测等弊端。近年来高光谱技术以其“图谱合一”的技术优点,在单粒种子水分快速、无损检测领域表现出极大的应用潜力[3-9]。
我国在2010年发布了GB/T 24900—2010[10]用于玉米种子批水分测定,表明近红外光谱技术在玉米种子批水分检测领域具有实际应用可行性。田喜等[11]在波长1 000~2 500 nm范围内分别提取了玉米籽粒全表面结构和胚结构区域的高光谱信息,采用竞争性自适应重加权变量选择算法、遗传算法、连续投影算法筛选特征波段,建立并比较偏最小二乘回归模型对水分含量的预测效果。结果表明,提取玉米籽粒胚结构的图谱信息较全表面光谱信息更高效。COGDILL等[12]在波长750~1 090 nm范围内建立了一种基于高光谱成像预测单粒玉米种子的水分和油脂含量的模型。采用偏最小二乘回归和主成分回归作为建模算法,并比较了标准正态变换、去趋势项、多元散射校正、遗传算法和不经过预处理对模型预测性能的影响。结果表明,基于主成分回归的水分预测模型性能远优于偏最小二乘回归法,最佳交叉验证标准误差为1.20%,相对性能决定因子为2.74。
上述研究表明高光谱技术检测单粒玉米种子水分具有较好的理论基础和可行性,但是由于现有的光谱检测模型大都为单一模型,模型易受光谱采集引入的噪声、样本表面差异带来的光谱信息偏差,以及水分检测结果异常等敏感样本扰动,模型缺乏稳健性。集成学习是通过组合多个弱监督模型来得到更全面的强监督模型[13]的一种代表性机器学习方法,可以有效提升模型的稳健性。因此本文重点探索将高光谱检测技术与集成学习相结合建立预测精度高、稳健性好的单粒玉米种子水分检测模型,以期为玉米精量播种技术提供高效的种子质量检测方法。
玉米种子品种为郑单958,去掉虫蛀孔洞、霉变、破损颗粒,选取完整饱满的种子,100粒为一份样本,共80份样本,均分为A、B、C、D 4组。为了扩大样本含水率范围,将样本放入高温(40~50℃)、高湿(相对湿度100%)实验箱中,并在第0、1、2、3天后分批次取出,再分别对每份样本晾晒0、2、4、6、8 h,充分混合、密封后放置在冷柜内保存。
采用芬兰Specim公司的SisuCHEMA高光谱成像系统,相机型号为SWIR。高光谱成像系统参数设置如下:波长范围为968.05~2 575.05 nm;空间分辨率384像素/行;波段数288个;帧频39.06 Hz;曝光时间1.89 ms。将样本排列整齐,尖端方向一致,保证行列对齐。由于玉米种子组织结构在种子表面两侧存在明显差异,且高光谱成像系统采用的是反射式,为建立精细化的种子水分预测模型,分别采集了种子胚朝上、胚朝下的高光谱图像,并分别建立种子水分模型进行分析比较。
依据GB/T 10362—2008《粮油检验 玉米水分测定》[14]中“整粒试样”方法对样本进行含水率测定,以质量分数表示,计算式为
(1)
式中S——玉米含水率,%
m2——干燥前质量,g
m1——干燥后质量,g
1.4.1数据预处理
利用Evince软件进行黑白板校正,对原始光谱图像上所有像素点光谱矩阵进行主成分分析,图1为原始高光谱图像PCA分布图,由于背景像素点和种子样本像素点的光谱具有显著差异,因此在主成分空间存在完全不同的分布聚集。选择主成分空间中的种子像素点,将背景剔除以减小干扰,如图2所示,得到单粒玉米种子RGB图像,从而获得单粒玉米种子的平均光谱信息。
图1 原始高光谱图像PCA分布图Fig.1 PCA distribution of raw hyperspectral image
图2 通过PCA获取单粒玉米种子RGB图像Fig.2 RGB image of single maize seed by PCA
采用合适的光谱预处理方法可以提取有效的光谱信息,提升光谱质量[15]。多元散射校正可以有效消除近红外漫反射光谱中由于样品的镜面反射及不均匀造成的噪声[16],消除光谱的基线漂移现象及光谱的不重复性,经过散射测试后得到的光谱数据可以有效地消除散射的影响, 增强了与成分含量相关的光谱吸收信息。因此本研究采用多元散射校正(Multiplicative scatter correction,MSC)方法对单粒玉米种子的光谱进行预处理。
1.4.2集成学习
集成学习通过组合多个弱监督模型以得到一个更全面的强监督模型,弥补了单一模型受敏感样本扰动大,缺乏稳健性的缺陷。集成学习分为两类:bagging和boosting[17]。其中bagging代表算法是随机森林(Random forest,RF),boosting特点是自适应加权,代表算法是AdaBoost。
RF采用Bootstrap抽样的方式保证了每棵决策树的训练集不同且具有随机性,使得RF模型不易陷入过拟合,并且具有较好的抗噪能力,比单个模型具有更稳定的预测能力[18]。最终将所有决策树的预测结果取均值后作为模型的输出,但是由于训练集通常不平衡,对某些贡献度较大的样本数据,通常需要有小的训练误差,某些对集成模型贡献度较大的决策树无法发挥更大的作用。
AdaBoost根据弱学习器误差率的表现自适应地更新训练样本的权重,最后通过集合策略整合[19],提高模型的精度。与RF不同的是,AdaBoost每一轮训练集相同,容易受敏感样本的扰动。
结合RF的Bootstrap抽样,以及AdaBoost自适应加权的特点对随机森林的预测模块进行改进,改进RF模型总体流程如图3所示。
图3 改进RF流程图Fig.3 Improved random forest flow chart
对待测的单粒玉米种子水分含量进行预测的具体步骤如下:
(1)首先根据欧氏距离公式计算待测的单粒玉米种子样本光谱与随机森林模型中第i棵决策树样本集光谱中心的距离di,计算式为
(2)
式中PX——待测样本的光谱信息
(2)根据欧氏距离确定在待测单粒玉米种子样本时每棵决策树的权重,第i棵决策树的权重ai为
(3)
式中N——样本个数
(3)对步骤(2)的每棵决策树的权重进行加权,输出待测单粒玉米种子样本水分含量的预测值Y,即
(4)
式中yi——第i棵决策树对待测单粒玉米种子样本水分含量的预测值
80份单粒玉米种子样本胚朝上、胚朝下的光谱数据如图4所示,图像数据如图5所示。可以看出,玉米种子的近红外光谱分布较宽,胚朝上和胚朝下的光谱趋势基本一致,波长1 190、1 450、1 940 nm附近有明显的特征峰。水分子由2个氢原子和1个氧原子结合而成的结构使得水分子具有多个原子键振动能级,其中波长1 190 nm处的特征峰为氢氧键伸缩振动的一级倍频和合频,1 450 nm处的特征峰主要为氢氧键伸缩振动的一级倍频,1 940 nm处的特征峰也为氢氧键伸缩振动的合频[20],这些特征峰均明显地反映了玉米种子中的水分子对不同波长的近红外光的吸收程度。
图4 样本光谱数据Fig.4 Sample spectral data
图5 样本高光谱图像数据Fig.5 Sample hyperspectral image
将A、B、C组作为训练集,共60份样本;D组作为测试集,共20份样本。表1为模型数据集的含水率统计信息。训练集和测试集的含水率整体分布较为合理,保证了建模样本具有较好的代表性,满足了建立定量分析模型的条件。
表1 玉米种子含水率统计信息Tab.1 Corn seed moisture content
利用Matlab 2018b软件对单粒玉米种子样本的胚朝上和胚朝下的原始光谱数据进行多元散射校正,处理后的光谱如图6所示,可以看出,原始光谱曲线的噪声、基线漂移、共线性现象消除效果较好。
图6 经多元散射校正预处理后的样本光谱Fig.6 Spectra of sample pretreated by MSC
利用Pycharm软件,基于偏最小二乘回归(Partial least squares regression,PLSR)、决策树建立的单一模型与RF、AdaBoost和改进RF 3种集成学习算法分别对原始光谱数据以及经过多元散射校正后的数据进行建模分析,根据经验及多次实验,确定RF和改进RF模型中ntree、mtry均分别取10和2。以相关系数R和训练集均方根误差(Root mean square error of correction set,RMSEC)、测试集均方根误差(Root mean square error of prediction set,RMSEP)作为模型性能评价指标,模型性能统计结果见表2和图7,并观察单一模型(决策树)以及集成模型(改进RF模型)测试集RMSEP随着运行次数增加的变化情况,结果见图8。
从表2和图7可以看出,光谱经过多元散射校正处理后,模型的预测结果更好,进一步证明多元散射校正有效地提升了单粒玉米种子样本的光谱质量。
表2 基于单一模型与不同集成学习算法的定量模型性能比较Tab.2 Comparison of quantitative models based on different ensemble learning algorithms
图7 MSC处理后的光谱数据集成模型预测效果Fig.7 Prediction effects of spectral data integration model after MSC processing
图8 基于决策树和改进RF模型预测效果Fig.8 Prediction effect of decision tree and improved RF model
从图8可以看出,相比基于决策树建立的单一模型,基于改进RF算法建立的集成模型不仅显著提升了预测准确性,并且具有更好的稳定性。证明集成学习通过构建多个学习模型的方法在处理单粒玉米种子含水率回归问题上具有可行性,比单一模型具有更强的稳健性。
在3种集成模型中,基于AdaBoost建立的模型在训练集上效果最好,通过自适应地改变训练样本的权重,学习多个模型,并将这些模型进行线性的组合,提供了预测精度。但是在测试集上AdaBoost的表现却最差,这是因为AdaBoost每轮训练时样本集相同,对异常样本敏感,异常样本在迭代中可能获得较大权重,影响强学习器的预测准确性,新数据集样本间的差异性将很难保证。而RF采用Bootstrap抽样的方式反复地进行模拟原小样本数据集,用重复的计算提升小样本的精度,构建满足分析与建模需要的新数据集。因此在测试集上RF比AdaBoost预测效果好。
改进RF结合了RF的Bootstrap抽样以及AdaBoost的自适应权重策略,并考虑到光谱信息的波长变量之间的相关性,在胚朝上、胚朝下的训练集和测试集上预测效果都较好,其中利用胚朝上光谱信息建立的模型测试集R达到0.881,在RF基础上提升了11.7%;RMSEP为0.404%,在RF基础上降低了5.39%。
利用单粒玉米种子胚朝上的光谱信息建立的改进RF模型训练集R为0.969,RMSEC为 0.094%,测试集R为0.881,RMSEP为0.404%;利用单粒玉米种子胚朝下的光谱信息建立的改进RF模型训练集R为0.966,RMSEC为0.100%,测试集R为0.793,RMSEP为0.544%。比较分析可知,使用胚朝上光谱信息建立的含水率检测模型效果优于使用胚朝下建立的含水率检测模型。由于玉米种子的胚部处于整个种子的凹面,当扫描胚朝上时,种子表面凹凸不平,使得光谱反射信息更加丰富,当扫描胚朝下时,种子表面较为光滑平整,光谱反射率差异性小,说明单粒玉米种子的含水率与胚部区域光谱关系显著。
(1)分别采集了单粒玉米种子胚朝上和胚朝下的高光谱图像并提取单粒种子平均光谱信息,采用多元散射校正法消除单粒种子采集高光谱时由于颗粒形态等引起的噪声干扰,然后对随机森林算法进行了改进,利用加权策略取代传统集成算法常用的取多个弱学习器的平均值,使与被测样本光谱波长变量相关性更大的决策树能够对模型起到更关键的作用,使得集成模型的准确率有了大幅提升。
(2)建立并比较了基于PLSR、决策树的单一模型和基于RF、AdaBoost、改进RF的集成模型针对单粒玉米种子水分含量的检测效果。使用胚朝上光谱信息建立基于改进RF模型性能最优,训练集R为0.969,RMSEC为0.094%,测试集R为0.881,RMSEP为0.404%。实验结果表明:相比单一模型,集成学习有效提升了模型的稳健性,受敏感样本扰动小。利用胚朝上的光谱信息相比胚朝下的光谱信息对检测单粒玉米种子含水率更高效。基于Bootstrap抽样和自适应加权的改进RF对单粒玉米种子含水率检测效果较好,有助于提升单粒玉米种子水分高光谱快速无损检测实际应用可行性,有望为玉米精量播种技术的推广和发展提供可行的检测手段。