高光谱成像的机采籽棉杂质分类检测

2021-11-11 05:23常金强张若宇庞宇杰张梦芸

光谱学与光谱分析 2021年11期

常金强，张若宇，庞宇杰，张梦芸，扎亚

石河子大学机械电气工程学院/农业农村部西北农业装备重点实验室，新疆石河子 832003

引言

近年来棉花全程机械化生产比例增加，机采籽棉需要在后续加工过程中进行多道清理工艺，但是清理机械会对棉花纤维造成损失，降低加工所得皮棉的品质，影响最终产品价格和经济效益。因此对棉花杂质进行检测，并将杂质进行分类判别，为调整棉花清理机械加工参数和工序提供参考依据，对提升皮棉品质具有重要实际生产价值和意义。

由于皮棉中异纤含量对价格影响较大，国内的研究主要集中在异性纤维检测[1-2]。张志峰等[3]提出了一种基于改进的自适应迭代阈值法皮棉疵点快速检测方法；张林等[4]采用LED与线激光的双光源一次成像方法，可以检测出各种颜色的异性纤维；张成梁等[5-6]、王昊鹏等[7]提取机采籽棉可见光图像中杂质的颜色、形状和纹理特征，对各类植物杂质进行分类检测；倪超等[8]采用深度学习方法对短波近红外高光谱图像中的地膜进行检测。

国外的研究主要集中在植物性杂质的检测，Wang等[9]采用基于自动视觉检测系统的伪异性纤维检测方法，提高了棉花中异性纤维的分类精度。Fortier等[10]建立棉花中植物杂质的近红外光谱库，进行杂质光谱分类识别。Li等[11-15]基于高光谱成像技术，采用反射、透射和荧光等成像方式，应用降维、特征波段选择、分类判别算法等分析方法，对皮棉中多种植物和异纤杂质进行检测。

上述研究对象主要是皮棉，由于皮棉经过杂质清理和轧花去籽处理，杂质含量小，棉层均匀易于图像中杂质的检测；而机采籽棉中不仅含有较多杂质，且棉籽导致棉层不均匀，使得图像检测难度增大，使用传统的检测方法无法有效检测各类杂质。

基于高光谱成像检测技术，根据棉花和各类杂质的光谱特征，针对机采籽棉中存在的植物和残膜杂质建立分类判别模型；并充分利用光谱图像的空间信息，实现对机采籽棉各类杂质的像素等级分类判别，为棉花加工设备提供快速信息反馈。

1 实验部分

1.1 样本的制备

共取样籽棉10 kg，其中籽棉取自棉花加工企业，地膜取自采收后的棉花地。将籽棉和杂质手动混合均匀，每个样本(30±0.5)g，使用电子天平称重(量程1 000 g，分度值0.01 g)，共120个籽棉样本。样本中检测的杂质有棉叶，棉枝，铃壳(内和外)和地膜共5种杂质，如图1所示。

图1 机采籽棉和主要杂质

1.2 高光谱成像系统和图像采集

高光谱图像采集系统如图2所示，由成像光谱仪(Imspectral V10E-QE，Finland)、CCD相机(C8484-05G, Hamamatsu Photonics，Japan)、镜头、光源(150 W卤素灯，China)、电动位移平台(PSA200-11-X，Zolix)和电动位移平台控制器(CS300-1A，Zolix)、暗箱、PC计算机等组成；在PC上用Spectral软件进行图像采集软件控制。高光谱成像系统光谱范围为360～1 000 nm，光谱分辨率为2.7 nm，采集的图像有256个波段。

图2 高光谱图像采集系统

为保证视野足够，调节镜头和样本的间距为25.5 cm；为矫正速度不匹配带来的空间畸变，使用一张打印有一个圆圈的A4纸调试平台的速度，转速设定为940 pulses·s-1；曝光时间为3.5 ms。

将样本置于内部大小为15 cm×20 cm×3 cm的样本盒中，分布均匀，将样本盒固定于移动平台上进行图像采集。样本盒覆盖有黑色背景纸，有利于后期掩膜去除背景以及后续处理。

为减少光源光强分布不均匀导致的图像信息噪声影响，使用的高光谱成像系统在采集图像之前需要进行黑白校正。扫描聚四氟乙烯白板获得白校正图像；镜头拧上镜头盖并关闭光源采集黑校正图像，该图像包含有相机暗电流噪声信息。图像采集后用软件SpecView(V2.9.2.7)按式(1)进行校正

(1)

其中：I为原始图像，Ib为黑校正图像，Iw为白校正图像，Ia为获取校正后的图像。

1.3 机采籽棉数据分析和杂质多分类模型

使用PCA(principal component analysis，PCA)对平均光谱数据进行分析，将成百个相互高度相关波段数据降维至少数个新的主成分变量上，用来代替原来数据的大部分信息，并通过绘制分布散点图体现原光谱数据的分类识别可行性。

采用LDA，SVM和ANN三种有监督的分类判别分析方法建立机采籽棉杂质多分类判别模型。模型训练的过程为：首先将提取的平均光谱数据按照7∶3的比例，随机划分为训练集和测试集；然后根据不同模型的参数特点和数据特性，使用训练集采用5折交叉验证，确定最佳的模型参数, 并使用测试集对模型结果进行评估。

2 结果与讨论

2.1 高光谱图像光谱曲线数据提取与分析

2.1.1 平均光谱曲线提取与变化规律

经过黑白校正后的图像，在可见至近红外波段上，共有256个波段。意味着在空间域上每个像素具有256个特征，这些特征组成该像素对应的光谱曲线。因高光谱图像中存在噪声，单一像素对应的光谱曲线可能在噪声的影响下，表现出较大的变化。因为光谱成像仪的特性，高光谱图像在首尾的波段图像噪声较大，有用信息较少，所以将这些波段剔除，即去除395 nm以前和970 nm以后的光谱图像波段，将395～970 nm区间共226个光谱波段的数据作为后续分析数据。

从每幅图像中提取10条平均光谱曲线，共1 200条光谱曲线，其中棉叶、残膜、铃壳外、铃壳内、棉枝和棉花分别为457，173，88，193，63和226条。绘制机采籽棉中具有代表性的棉花和各类杂质的平均光谱曲线，如图3所示：各类物质在430 nm处附近反射率均为最小，吸收最强；棉花的反射率较其他物质在大部分波段范围高；残膜整体上和棉花变化趋势一致，但是数值比棉花低，验证了从图像上检测残膜的难度较大；铃壳内的反射率在750 nm前低于棉花和残膜，但是在750 nm后超过了棉花和残膜；棉叶、棉枝和铃壳外在趋势和数值上都比较相似，但是棉叶在680 nm处出现了吸收峰，此现象对应了叶绿素的吸收波段。从630 nm开始到近红外波段范围内，铃壳外的反射率比棉叶和棉枝都高。

图3 机采棉和各类杂质平均光谱曲线

综上所述，虽然棉花和各类杂质的光谱曲线趋势相同，但还是体现出不同的吸收和反射特性。不同种类物质(棉花、化学纤维和植物)之间的差异大于同类物质之间的光谱差异，同种物质之间的差异不能通过单个波段进行判别，所以需要进行数据分析和建模。

2.1.2 机采籽棉光谱曲线PCA分析

对提取的平均光谱曲线进行PCA变换，如图4所示，前2个主成分的累计贡献率达到了97.2%，前6个主成分的累计贡献率达到了99.9%，能够代表原始光谱数据的大部分信息。PCA前两个主成分的散点图如图5所示，6类物质光谱变换后的新变量分布于整个空间中。由图可知，棉花、残膜和铃壳外与其他三类相比，有较好的聚集性和可分性，但是由于棉叶、铃壳内和棉枝三类的物质组成(纤维素和木质素)相似性较高，光谱特征相似，导致相互叠加在一起，空间分布存在严重交叉，无法有效区分类别。由于PCA为无监督降维方法，无法有效利用分类信息，因此需要使用有监督的数据建模方法，对光谱分类数据进行学习拟合，实现对杂质类别的准确识别。

图4 前6个主成分的特征值和累计贡献率

图5 前2个主成分分类散点图

2.2 机采籽棉杂质光谱多分类模型

2.2.1 线性判别分析(LDA)模型

线性判别分析(linear discriminant analysis, LDA)是将原始数据投影到更低的维度上，减少特征之间的线性相关性导致的特征冗余问题。通过LDA进行降维，可以达到提升分类准确率的目的。

与PCA中的分布相比，图6(a)中棉花、残膜和铃壳外有更好的聚集性和可分性，表明有监督的LDA模型降维方法变换后的数据具有更好的可分性；但是棉叶、铃壳内和棉枝这三类还是相互叠加在一起，空间分布存在严重交叉，无法有效区分类别。因此针对该三类重新进行了LDA降维，见图6(b)中的棉叶、铃壳内和棉枝表现出了较高的可分性，验证了LDA模型在机采籽棉多分类上的可行性。

图6 LDA前两个特征的类别散点图

因LDA易出现过拟合，因此在LDA模型构件中采用正则化防止过拟合，建立分类模型，得到训练集准确率为86.4%，测试集准确率为86.2%，其差值较小，未出现过拟合现象。

2.2.2 支持向量机(SVM)模型

支持向量机(support vector machine, SVM)广泛应用于建立分类判别模型。在SVM分类模型构建中采用RBF径向基函数构建了分类模型，对gamma(g)和cost(C)两个参数进行寻优，将Lg(g)和-Lg(c)参数区间设置为[0，10]。由图7可知，在C=105、gamma=0.1时，交叉验证集的准确率最高达到95.19%。根据最优参数模型得出训练集准确率为83.42%，测试集准确率为83.40%，两者差值较小，未出现过拟合现象。

图7 SVM模型寻优结果

2.2.3 人工神经网络(ANN)模型

人工神经网络(artificial neural network，ANN)是一种影响强、分类效果好的神经网络分类算法，在解决非线性问题上具有较强能力。在ANN分类模型构建中，设置隐含层层数区间为[1，10]，隐含层神经元个数区间为[1，18]，激活函数选择Relu函数进行参数寻优。由图8可知，在隐含层层数为2，隐含层神经元个数为17，交叉验证集的准确率达到最高为73.92%。以寻优所得到的参数，建立ANN分类模型并输出，训练集准确率为82.9%，测试集准确率为81.8%，没有发生过拟合。

图8 ANN参数寻优结果

2.3 模型效果比较

对上述的多分类模型准确率性能进行对比，如表1所示，结果显示LDA模型的准确率高于SVM模型和ANN模型，训练集和预测集的准确率达到了86.4%和86.2%。由于高光谱波段之间有较高的相关性，分类模型无法有效筛选信息，会引起误差的产生。LDA在分类前对光谱特征进行了降维，减少了特征之间的相关性，保留了大部分类间信息，因此在多分类问题中，相较于SVM和ANN具有更好的效果。

表1 光谱曲线分类模型准确率和时间

三个模型预测效果如图9所示。在LDA模型中，地膜、铃壳(内和外)和棉花的准确率较高，均高于90%；棉叶和棉枝的准确率较低，分别为59.84%和77.08%，其中有26.77%的棉叶被识别为棉枝，9.72%的棉枝被识别为棉叶，9.72%的棉枝和8.66%的棉叶被识别为铃壳内；与LDA模型相比较，SVM模型和ANN模型的铃壳内准确率有所降低，误差类别分布一致但较高。分析认为这些识别错误的原因主要是棉叶、棉枝和铃壳内的物质成分相似度高，导致在波段范围内表现出光谱曲线相似的特点。

图9 分类模型预测集效果

2.4 像素等级杂质分类判别

根据三种算法对120个高光谱图像进行检测分类，并将运行时间进行平均，得到每个模型检测高光谱图像所需运行时间。结果如表1所示，SVM，LDA和ANN的运行时间分别为73.65，1.86和2.58 s，综合比较，LDA的分类准确率较高且运行时间少，确定LDA分类模型为最优模型。

使用训练的LDA模型对高光谱图像进行像素等级分类，分类效果如图10所示。可看出棉花识别效果较好；部分棉叶和棉枝不能有效识别；地膜虽然被检测出来，但因地膜的光谱曲线在大部分波段上和棉花相似，亮度较棉花低，所以部分棉花中表面不平导致的亮度较低的区域被识别为地膜。上述分类效果与杂质光谱的分类判别模型结果一致。

图10 高光谱图像像素等级分类识别结果

3 结论

(1)通过参数优化，建立了三种机采籽棉杂质分类判别模型。其中LDA的分类准确率较高，训练集和测试集的准确率分别为86.4%和86.2%。由于棉叶和棉枝的物质成分相似，光谱曲线相似，导致棉叶和棉枝杂质的分类准确率较低。

(2)对于像素等级杂质检测，该方法能够识别大部分杂质，检测效果明显。LDA算法需要的时间约为1.86 s，少于ANN的2.58 s，且远少于SVM的73.65 s，能够满足实际生产对于检测的需求，因此LDA为最佳模型。

(3)在后续研究中可以基于该方法，增加样本数量，选择覆盖范围更大的波段和加入纹理特征，提升棉叶和棉枝的检测效果；并根据光谱图像数据分析提取特征波段，开发多光谱成像检测系统，实现更高效率的机采籽棉杂质实时检测。