张 航,姚传安,蒋梦梦,姬豫航,李华杰
(1.河南农业大学机电工程学院,河南郑州 450002;2.西安电子科技大学数学与统计学院,陕西西安 710126)
小麦为我国北方主要粮食作物,其产量丰欠关系国计民生,种子对产量的影响可达40%以上[1]。因此,小麦种子的鉴别分类对粮食生产意义重大[2]。随着计算机技术和识别算法的发展,具有快速无损检测特点的机器视觉技术、近红外光谱分析技术和高光谱图像技术在种子检测中得到了广泛的应用[3-5]。
高光谱图像技术具有图像和光谱信息合一的特点,在种子检测中其图像信息可以显示种子外部形态的特征,光谱信息可反映种子内部蛋白质、淀粉、含氢基团等物质含量,因而可利用该技术快速实现种子的鉴别和分类[6]。如在少波段下融合光谱与图像特征信息,运用多次递进无信息变量消除算法和偏最小二乘投影分析法(MP-UVE-PLS)建立分类识别模型,实现了单粒水稻种子的识别[7],但较少的波段可能会丢失一部分光谱信息,影响分类精度;以不同波段下图像的熵作为分类特征,通过偏最小二乘判别分析法(PLS-DA)实现了多类玉米种子的纯度识别[8];应用支持向量数据描述方法(SVDD)可较好解决玉米种子新类别样本的识别问题[9-10];通过全波段和特征波长分别建立偏最小二乘判别分析(PLS-DA)模型,实现了水稻种子活力分级[11];利用最小二乘支持向量机(LS-SVM)和最小二乘判别分析法(PLS-DA)算法对单粒小麦高光谱图像中的光谱信息建立分类模型,实现了单粒小麦在强筋与弱筋、强筋与中筋不同类型的二分类识别,并且还发现小麦胚区域的光谱信息用于分类效果较好[12],但其仅实现了强筋、中筋、弱筋3个单籽粒小麦类型之间的分类,没有实现多种小麦种子多籽粒之间的分类。
本研究基于小麦种子的近红外(NIR)波段,本着尽量利用全波段光谱信息的原则,在NIR条件下对多种各自堆叠摆放的光谱信息,建立两种种子摆放方式下用于小麦种子分类识别的PCA-SVM模型,并从三个品种分类开始不断优化改进模型,再扩展到四个品种、六个品种等多类种子分类,以期实现多种小麦种子多籽粒的便捷高效分类识别。
实验小麦种子选取河南地区主要种植的品种,由国家小麦工程技术研究中心提供,包括矮58、淮麦0360、开麦20、中优9507、周麦27、周麦22等6个品种以及实验备用小麦品种洛麦18。每种小麦种子去除残粒、过于干瘪粒和杂质,并保证大小正常。每类小麦种子纯度均达到98%。将实验种子分别装在标记好的密封小塑料袋中置于5摄氏度恒温空间中保存。
高光谱采集仪器采用芬兰SPECIM公司的SisuCHEMA高光谱成像工作站,其主要包括显示器、暗箱和线性位移平台,线光源为SPECIM特制扩散线性光源单元(Dolan JennerIndustries Inc.Finland),SPECIM PFD-65-V10E 成像光谱仪(Spectral Imaging Ltd.Oulu,Finland)、C-mount 成像镜头OLES30(Specim,Spectral Imaging Ltd.Oulu,Finland)以及内置光谱采集存储软件。其中线性平台为全黑背景平台,可采集的最大样品尺寸为200 mm×300 mm×45 mm(W×L×T),光谱分辨率为3 nm。为保证高光谱图像采集合适,经过多次调试将物镜高度设置为 21 cm,曝光时间设置为300 ms,平台移动速度设置为3 cm·s-1。高光谱图像用ENVI4.8软件进行处理,后期数据处理以及模型建立采用MATLAB2012b软件。
采集高光谱图像时,由于暗电流、光源光强波动以及环境的影响会对高光谱实验数据的采集带来一定的干扰,为了减除噪声带来的误差影响,每次高光谱数据采集后都进行黑白板校正[13]。
为了解种子摆放方式对分类的影响,采集高光谱数据时设置两种种子摆放方式:整齐式和堆叠式。整齐式是将小麦种子整齐排列,鉴于载物移动平台的尺寸,为保障数据有效,种子摆放排列成12行,每行7粒,共计84粒种子,种子间间隔5 mm左右;堆叠式是将大约300粒左右种子尽量不重叠地聚拢摆放在移动平台上形成一个半径5 cm左右的圆形。对两种摆放方式分别采集VNIR(400~1 000 nm)和NIR(900~1 700 nm)两种高光谱数据。摆放方式如图1所示。
选择小麦种子感兴趣区域(region of interest,ROI),采集高光谱图像数据。对高光谱图像中每粒种子靠近胚乳部位提取20个像素点(4×5)的矩形ROI作为一个实验样本。其中,整齐式每类种子采集84个样本,堆叠式每类种子遵从五点采样原理共采集100个ROI样本。ROI提取如图1和图2所示。
在NIR下光谱数据共有224个波段,每粒样本种子提取20个像素点的ROI。将每个波段作为一个列向量,每个像素点作为一个行向量,生成各个像素点在每个波段下的光谱反射率值矩阵。每个像素在全部波段下共产生244个光谱反射率值,则每粒种子提取的感兴趣区域光谱反射率值共有20×224个。
图1 两种采样摆放方式及ROI提取
图2 4×5矩形ROI的提取示意图
整齐式摆放的每类小麦种子提取84个样本的感兴趣区域,可生成一个1 680×224的光谱反射率值矩阵。堆叠式摆放的每类小麦种子提取100个样本的感兴趣区域,可生成一个2 000×224的光谱反射率值矩阵。对每粒种子的20个像素点在各个波段下分别求平均值,则整齐和堆叠两种摆放方式下每类种子的高光谱数据可分别压缩成为84×224与100×224两个矩阵,将整齐式和堆叠式样本感兴趣区域光谱反射率平均值各自累计到一个矩阵中则分别转换成504×224和600×224的矩阵。由于这两个矩阵行数明显大于列数,因而适用于PCA降维。
对堆叠摆放方式和NIR条件下6个小麦品种在提取ROI平均光谱降噪后进行主成分分析(PCA)[14]。由表1可看出,前四个主成分累计贡献率达到97.37%,可以近似代替原224个波段变量所表示的光谱反射信息。因此,本研究采用前四个主成分来作为分类模型输入量。
支持向量机(SVM)是基于统计学习理论和结构风险最小化的新型机器学习算法,具有很强的范化性能,可避免过拟合现象[15]。SVM是针对二分类任务设计的,可以推广到多分类任务中。其基本原理是建立一个分类超平面作为决策曲面,使得正反例间隔最大化。将输入变量通过核函数变换映射到某个高维空间中,然后在变换空间中求解最优分类面,以获得决策函数,从而获得全局最优解[16]。
设PCA后得到的训练样本为(xi,yi),i=1,2,3…,n,xi∈R4,yi{1,-1},n为样本个数,xi为PCA降维后提取的四个主成分。
当样本线性可分时,假设线性分类器为wTx+b=0,w为超平面的法向量,b为位移项。假设超平面(w,b)能将训练样本正确分类,满足
(1)
s.t.yi(wTxi+b)≥0,i=1,2,…,n
(2)
当原始样本空间线性不可分时,可将样本映射到高维的特征空间。令φ(x)表示将x映射后的特征向量,于是划分超平面表示为
f(x)=wTφ(x)+b
(3)
引入松弛因子ξi≥0,设惩罚因子为c,式(2)可重写为
(4)
ξi≥0,i=1,2,…,n
利用拉格朗日乘子法得到式(4)的对偶问题为
(5)
0≤αi≤c,i=1,2,…,n
定义核函数为k(xi,xj)=φ(xi)Tφ(xj),式(5)可重写为
(6)
0≤αi≤c,i=1,2,…,n
由式(6)解出α后,求出w和b可得到划分超平面
f(x)=wTφ(x)+b
(7)
经过不断验证,用径向基函数作为分类模型的核函数时分类效果最好。径向基函数形式为:
(8)
另外,算法中的SVM分类模型通过MATLAB中的libsvm插件实现。
表1 主成分贡献率及累计贡献率Table 1 Contribution rate and cumulative contribution rate of the top four principal components %
分类模型中有两个不定参数:第一个是惩罚因子c,其表示对误差的宽容度,c越大,说明越不能容忍出现误差,容易过拟合,即训练集准确率可能很高而测试集准确率不高,c越小,容易欠拟合;第二个是核函数参数g,其间接地决定了数据映射到新特征空间后的分布状况,g越大,支持向量越少,可能会造成过拟合;g越小,支持向量越多,可能出现大的平滑效应,无法在训练集上得到特别高的准确率,影响最终测试集的分类准确率(即测试样本正确分类个数与总测个数的比值)。因此,c与g的选择需要维持一种动态平衡,不仅要有较高的测试集分类准确率,而且还要保证分类器的通用性、泛化性等性能。
本研究主要采用交叉验证和网格化寻优方法确定SVM分类模型中参数c与g的最佳值。具体做法是先让c和g在[20,210]范围内进行取值,对于确定的c和g,把训练集作为原始数据并利用K-CV(K-fold Cross Validation)交叉验证方法得到在此组c和g下训练集验证分类准确率。而在交叉验证的基础上对参数c和g在选定范围内进行网格划分,从网格中进行c和g参数点的取值,最终得到训练集验证分类准确率最高的那组c和g作为最佳参数。并且当多组c和g都对应同一个最高分类准确率时,选取第一组出现的参数c最小的那一组c和g作为最佳参数。
第三,加强社会主义核心价值观教育,注重职业精神培育。独立学院培养的人才不仅要具备较高的物质基础,还要有更高的精神追求,要将社会主义核心价值观教育融入本科教育中,培养的毕业生除了具有专业知识和职业技能外,还要有较高的职业道德素养,要培养追求职业精神、敬业爱岗的社会主义劳动者。
本实验的分类模型最佳参数分为两种:第一种是在一组确定的几种小麦种子进行分类时的最佳参数,用上述寻参的交叉验证和网格化寻优方法得到。第二种是某分类类型的小麦种子分类模型的最佳参数,比如小麦种子的三分类(即3个品种种子分类)模型为例,小麦种子的三分类模型的最佳参数建立在第一种参数确定的多组三种小麦种子分类最佳参数c和g的基础上,通过确定三分类的多组小麦种子的参数c与g来大致确定第二种适合整个三分类模型的参数范围,在该范围内按照一定步长进行取值,找到使得这些组别的测试集准确率平均水平最高的参数c和g值,以此作为三分类模型的整体最佳参数。需要明确的是,某组的三分类最佳参数不一定是所有组别三分类的最佳参数;而整体最佳参数不一定是某一组的最佳参数,但一定是使得所有三分类中平均识别率最高的参数。为保证分类模型的通用性,本研究主要用第二种参数作为模型的最佳参数。
以矮抗58为例,从VNIR与NIR两种波段下的平均光谱反射曲线(图3)可以看出,VNIR下在500~1 000 nm波段曲线较为平缓,缺少特征峰,并且在400~550 nm波段下噪声比较明显,易受外界影响。在NIR下光谱反射率曲线有明显的特征峰且噪声相对较低,比较适合用于种子分类。在堆叠采样模式下,品种间NIR光谱反射谱线有明显差异(图4),理论上可以用于种子分类。
由于高光谱实验采样平台原因,整齐式每类种子采集了84个样本,而堆叠式每类种子提取了100个样本。为保证条件一致,随机选取同类品种堆叠式100粒样本中的84粒作为分类样本,将其与整齐式在NIR波段下进行分类准确性比较。选取每类样本的四分之三即63粒作为训练集,剩余四分之一即21粒作为测试集。分别对两种摆放方式的数据进行PCA降维处理,提取的前四个主成分累计贡献率均达到85%以上,所以分别用前四个主成分作为模型输入量。对SVM分类模型在经验基础上选取采用径向基函数作为核函数且参数c取2,g取1,模型输入量进行归一化处理,以消除不同量纲的影响。对两种摆放方式在上述模型中选取三组三类小麦组合进行分类识别分析。由表2可知,两者分类准确率相差无几,但堆叠式采样更贴合实际应用,因此采用堆叠式种子高光谱数据来探究小麦多品种种子分类。
图3 矮抗58在VNIR和NIR条件下平均光谱反射曲线
图4 小麦种子NIR波段下堆叠摆放平均光谱反射曲线
表2 两种摆放方式的种子分类准确率对比Table 2 Comparison of the accuracy of the two placement methods
以矮抗58、淮麦0360、开麦20三类小麦种子为例,说明三分类参数寻优的方法与过程。提取三类种子样本的前四个主成分作为分类模型输入量。每类种子100粒样本中任选80粒作为模型的训练集,剩余20粒作为测试集。对分类模型SVM中的参数c和g确定最佳值,分别让参数c与g在适当的范围[20,210]内进行交叉验证和网格化寻优,得到本组三类小麦种子三分类模型中最佳参数c为0.707,g为16(图5)。
最佳参数确定后,对模型输入量归一化和不归一代处理的分类结果进行比较,发现归一化后60个测试集样本中有4个被错分,不进行归一化分类时测试集样本分类仅有1个被错分(图6)。这说明不用归一化有助于提升分类准确率。
图5 交叉验证和网化寻优最佳参数c和g
图6 数据归一化和不归一化的分类准确率比较
按照上述方法从矮抗58、淮麦0360、开麦20、中优9507、周麦27、周麦22等6个小麦品种中任选3个品种,对其NIR光谱数据进行主成分分析,确定分类模型SVM的输入量。模型的径向基函数参数c取1,g取8,模型输入量不进行归一化处理。
由表3可以看出,第10、16、19、20四组三分类种子在总计60粒小麦种子的测试集中错分的籽粒分别为14、13、13、15粒,分类准确率低于80%。其余种子分类准确率平均在95%以上,其中第5和11组分类准确率达到100%,在实际应用中符合种子分类精度要求。
第10、16、19、20组分类准确率低的原因可能是模型选取参数主要考虑对于整体组别合适,而参数c和g取值不是该四组的最佳参数。对于该四组分别采用最佳参数c与g进行分析,结果(表4)表明,模型分类识别准确率没有太大变化,其中第16组由于过拟合,准确率反而下降。因此,排除分类准确率低是由于参数不佳的原因。
进一步发现,上述四组都包含周麦27与周麦22,因而推测分类识别准确率低的原因可能是由于这两品种间存在极大相似关联性。经查阅文献[17-18]发现,周麦27与周麦22血缘较近。如图4在NIR波段下堆叠摆放的平均光谱曲线所示,周麦27和周麦22谱线大概位于图中曲线中间位置,并且两条曲线接近重合,NIR波段下的光谱信息没有太大的差别。这两个品种血缘关系较近,种子遗传性状相似,内部所含物质含量也相似,可能会造成在NIR波段下光谱信息类同,进而使得分类准确率较低。
表3 任意3个小麦品种分类准确率Table 3 Classification accuracy of any three wheat varieties
选取上述6个小麦品种中的任意4个小麦品种进行四分类实验,用上文所述的实验最佳条件即NIR波段下小麦种子堆叠摆放,模型整体最佳参数c取16,g取5。从分类结果(表5)可以看出,分类准确率虽均在80%以上,但准确率有所下降。
对6个小麦品种矮抗58、淮麦0360、开麦20、中优9507、周麦27、周麦22在上述最佳实验条件下进行六分类实验,参数寻优后最佳参数c为5.65,g为16,结果为120粒测试集中错分48粒,准确率为60%。考虑到周麦27、周麦22的血缘关系较近,故将周麦27置换为备用品种洛麦18,结果为错分40粒,准确率66.67%,分类准确率虽有提升,但依然不高。
从整个实验结果看,所建立的多种小麦种子分类模型基本能满足三种和四种小麦种子的分类要求,但还存在着血缘较近小麦种子的分类能力差和随着小麦种子分类种类的增加,模型分类准确率不断下降的问题。其下降的原因可能是:血缘较近品种内部的蛋白质、淀粉以含氢基团等物质相似性较大,使得反射光谱信息较为相近和不易区分;随着分类小麦品种的增多,品种间光谱反射率相似性也会提高。针对模型分类精度低的问题,下一步研究需要从两个方向上寻求解决:第一,丰富光谱波段的种类,比如提取一部分VNIR可见近红外波段下的某些特征光谱,增加分类识别模型的特征输入量;第二,利用一部分高光谱图像数据中的图像特征信息来增加分类模型的特征输入量。
表4 最佳参数下的分类准确率Table 4 Classification accuracy under optimal parameters
表5 四组四分类识别结果Table 5 Recognition results of four groups of four classification
本研究利用高光谱图像技术和建立的PCA-SVM分类识别模型,在3个小麦品种之间除个别近源属性外,能实现三个品种的分类识别,准确率平均在95%以上。4个小麦品种种子的分类准确率在80%左右,6个小麦品种种子的分类准确率相对较低,仅有66%左右。综上所述,通过探究分类实验的最佳条件,在多种小麦种子各自堆叠式摆放、尽量多的利用NIR谱段光谱信息、整体最佳参数模型等条件下,所建立的PCA-SVM分类模型对于3个或4个小麦品种种子多籽粒间相互区分的识别分类具有一定应用价值,对6个小麦品种种子分类有一定的参考价值,同时也为高光谱图像技术对多籽粒小麦种子鉴别分类提供了一种思路方法。