高光谱成像的非烟物质分类识别研究

2022-07-06 08:59李智慧梅吉帆李辉李嘉康卢敏瑞王芳张腾健堵劲松洪伟龄徐大勇
中国烟草学报 2022年3期
关键词:波长烟叶预处理

李智慧,梅吉帆,李辉,李嘉康,卢敏瑞,王芳,张腾健,堵劲松,洪伟龄,徐大勇*

高光谱成像的非烟物质分类识别研究

李智慧1,梅吉帆1,李辉1,李嘉康1,卢敏瑞2,王芳2,张腾健2,堵劲松1,洪伟龄3,徐大勇1*

1 中国烟草总公司郑州烟草研究院,河南郑州市高新区枫杨街2号 450001;2 福建武夷烟叶有限公司,福建南平市邵武市紫金大道1号 354000;3 福建中烟工业有限公司技术中心,福建省厦门市集美区滨水路298号 361021

【】利用高光谱成像技术和机器学习方法对烟叶中的非烟物质进行分类识别。【】使用可见—近红外高光谱成像技术,采用归一化(Normalization)、标准正态变化(SNV)、多元散射校正(MSC)、一阶导数(FD)、卷积平滑(SG)对光谱数据进行预处理,通过连续投影变换(SPA)和主成分载荷(PCA loadings)进行特征波长选择,并应用随机森林(RF)、Softmax和支持向量机(SVM)建立分类模型。【】SNV为最佳光谱预处理方法,SPA选择特征波长建立的SVM模型为最优模型,训练集和测试集正确率分别为99.82%和99.47%。【】高光谱成像技术结合SPA-SVM模型可以有效分类识别烟叶中的非烟物质。

高光谱成像;非烟物质;连续投影算法;特征波长;支持向量机;分类

非烟物质俗称杂物,指烟叶中非烟草类物质[1],通常在采收、烘烤、收购等环节混入,影响烟叶原料的使用价值和卷烟产品质量。其中,石头、金属、玻璃等非烟物质会损坏加工设备、危害操作人员身体健康,塑料,橡胶,尼龙等化工制品类非烟物质燃烧后产生有害气体,严重影响消费者身体健康[2-4]。目前,工业企业主要采用人工除杂、风选除杂、金属探测除杂和光电除杂等方法[5]去除生产中混入的非烟物质。但上述除杂方法均存在不足,人工除杂工作量大、易疲劳、受限于操作人员技术熟练程度,风选除杂和金属探测除杂只能剔除与烟叶比重相差大、有磁性的非烟物质,光电除杂不易识别颜色和质地与烟叶相似的非烟物质,如黄色纸板、其他植物叶子等[6-8]。因此,开发一种能够同时识别多种非烟物质的在线检测方法,具有重要的现实意义和应用需求。

高光谱成像技术是一种将图像和光谱结合的测量技术,以连续和窄带光谱记录目标区域的发射或者反射辐射能量,包含了像素级分辨率的空间和光谱特征信息,广泛应用于遥感、农业、食品安全、环境检测等领域[9]。高光谱图像包含了上百个波段地物特征光谱信息和空间图像信息,构成了高光谱图像的三维数据立方。采用机器学习和深度学习方法分析高光谱数据的光谱和图像空间的特征信息可以有效地进行地物识别和分类[10]。近年来,高光谱成像技术已成功应用到烟草病虫害监测[11-13]、烟叶化学成分含量分析[14-18]等方面。王梅等[19]研究了不同病害程度烟叶的高光谱特征,建立了烟叶病害程度诊断模型。Frederico等[20]采用偏最小二乘方法分析烟叶近红外高光谱数据,建立了烟叶常规化学成分含量的模型,具有良好的精度。Marcelo等[21]利用近红外高光谱成像技术,利用支持向量机判别分析开发了烤烟和白肋烟的分级系统,实现了在线判定烟叶质量。Luis Rodríguez-Cobo等[22]通过分析了烟叶中10种非烟物质的高光谱数据,建立了分层时间记忆范式的非烟物质分类方法。Conde等[23]采用光谱成像技术和神经网络方法实现了对烟叶原料混入的杂物分类。以上研究结果表明,兼具光谱波段多、高空间分辨率特点的高光谱成像技术完全能够实现非烟物质的分类和识别。

目前,国内采用高光谱成像技术进行非烟物质识别的应用研究相对较少。工业企业在打叶复烤生产线、片烟切丝前仍存在其他除杂方法无法识别的小尺寸、理化性质接近的非烟物质。本研究确定了高光谱图像数据最佳预处理方法,利用机器学习方法建立全光谱波段和特征波长的非烟物质分类模型,以识别工业生产中混入的非烟物质,提升烟叶纯净度,为开发工业非烟物质的仪器设备提供理论依据和数据支撑。

1 材料与方法

1.1 样品

供试烟叶和非烟物质样本均由福建武夷烟叶有限公司提供,烟叶品种为红花大金元,等级为C3F。生产线常见且影响较大的5种非烟物质,分别为塑料匝绳、尼龙布、麻绳、纸片、植物叶子。非烟物质样本的尺寸约为3 cm×3 cm,去除表面污渍以保证采集的像元光谱接近其真实像元光谱。

1.2 高光谱数据采集

高光谱成像系统主要包含消色差镜头(HSIA- OLE23)可见—近红外高光谱相机(GaiaField-V10E- AZ4)、电动移动平台、4个50 W的卤素灯、SpecView图像采集软件和计算机等。可见-近红外高光谱相机光谱采集范围为362~1008 nm,光谱分辨率为2.6 nm,共计256个波段,采集参数通过SpecView软件控制,设置相机曝光时间为11 ms,调节电动移动台的推扫速度为1.35 cm/s。在暗箱系统环境下进行整个高光谱数据的采集,并且采用4个50 W卤素灯调节光源强度,避免图像饱和度过高和外界环境干扰。高光谱数据采集后,需要对采集的高光谱数据进行黑白板校正,以消除光照强度和相机暗电流带来的噪声影响。通过采集99%标准校正白板获取白板标定图像,通过遮挡镜头获取黑板标定图像,由公式(1)对采集的高光谱图像进行校正。

其中,R为校正后的高光谱图像,I为原始样品高光谱图像,B为黑板高光谱图像,W为白板高光谱图像。

1.3 高光谱数据预处理

获取的高光谱图像一共包含了256个维度的烟叶、非烟物质和背景的图谱信息。首先选择高光谱图像的感兴趣区(Region Of Interest, ROI)光谱数据和对光谱数据进行预处理,降低背景信息干扰和数据处理的复杂性。ROI的选取步骤为:(1)对比样品区域和背景区域像素点的光谱值,发现751 nm波段图像的背景与样品光谱值差异最大,选取该波段图像作为掩膜数据,利用最大类间方差法进行二值化构建掩膜;(2)在掩膜图像中,样品区域变为1,而背景区域变为0。利用构造好的掩膜图像对原始高光谱图像进行掩膜,只保留样品区域信息。图1给出了700 nm、546 nm和435 nm 3个波长合成伪彩图的烟叶ROI提取过程,其中图1(c)红色部分为选择的ROI。

注:(a)伪彩图;(b)751 nm灰度图;(c)选取的感兴趣区。

高光谱数据的采集会受到仪器状态、检测环境、操作水平等因素的干扰,本实验采用归一化(Normalization)、标准正态变换(Standard Normal Variate, SNV)、多元散射校正(Multivariate Scattering Correction, MSC)、一阶导数(First Derivative, FD)和Savitzky-Golay(SG)分别对ROI的光谱进行预处理操作,降低外界环境的影响,提高数据信噪比。

Normalization预处理可以消除指标之间的量纲影响;SNV可以去除样品表面分布不均、颗粒散射而产生的噪声影响;MSC可以降低由于漫反射导致的光谱数据差异,增强与有效成分所对应的光谱信息;FD能够去除光谱曲线基线漂移,并使光谱曲线变化更加显著;SG利用平滑处理结合合适的多项式次数和平滑移动窗口数,对移动窗口内的光谱特征进行数据拟合,以消除基线漂移、倾斜等噪声,本研究中多项式次数设置为5,平滑移动窗口数设置为9。

1.4 特征波长提取

采用随机抽样的方法提取预处理后ROI内所有像素点的光谱数据,获取每类样品ROI内500个像元光谱反射率值作为500个样本,烟叶样本和5种非烟物质共计3000个样本。采用Kennard-stone法将样本以3:1的比例划分为训练集和测试集,训练集和测试集的样本数量分别为2250个和750个。

为了降低高光谱中冗余信息对数据建模的影响,避免维数灾难,进一步提高模型精度和时效性。运用主成分载荷(Principal Component Analysis loadings, PCA loadings)和连续投影算法(Successive Projections Algorithm,SPA)对测试集数据进行特征波长提取。PCA loadings可以反映主成分与原始光谱波段间的相关性,根据波长在不同主成分下的载荷系数不同,载荷系数越大,该波段对主成分的贡献率越大,选取主成分载荷系数图中的具有局部极小值、极大值的波长作为特征波[24]。SPA是一种使光谱数据矩阵冗余度最小化的前向波长选择算法,通过连续投影分析数据,选择具有最低共线性的变量组合作为特征波长[25]。

1.5 分类模型的建立与评价

随机森林(Random Forest, RF)作为一种集成学习算法,通过构建多棵决策树,组合多棵决策树的建模结果共同得出最终预测结果,具有运算速度快,对异常值和噪声有很好的容忍度,在处理大量数据表现好等优点[26]。经对比不同子树数量的性能后,本研究最终选择RF模型的子树数量为150。Softmax分类器是逻辑回归在多分类问题上的扩展,与只能进行二分类的逻辑回归分类不同,结果以概率的形式解决多分类问题[27]。Softmax作为一种有监督分类器,在分类时计算量小,速度快,可与多种浅层、深层神经网络结合。本研究对Softmax模型的正则化参数选择L2,通过网格搜索算法选择合适的损失函数优化算法和正则化系数C,其调参范围分别为{newton-cg, lbfgs, sag, liblinear}和10-5~105。支持向量机(Support Vector Machine, SVM)是通过找出最大决策边界,实现对数据进行分类的分类器,采用核函数,将数据向高维空间映射时并不增加计算法复杂性,可克服特征多、非线性、小样本的问题[28]。考虑到像素点光谱数据的非线性,本研究选择rbf作为SVM模型的核函数,通过网格搜索算法选择合适的正则化系数C和核系数γ来优化模型,正则化系数C和核系数γ的调参范围分别为10-5~105、10-5~103。

本研究分别使用RF、Softmax、SVM机器学习方法建立了不同光谱预处理方法的烟叶和非烟物质分类模型,以分类模型在训练集和测试集内部的平均正确率作为评价指标,以确定最佳预处理方法和最优分类模型。

2 结果与讨论

2.1 烟叶和非烟物质的平均反射光谱

对光谱数据信噪比进行评价,光谱范围在400 nm前和1000 nm后的数据信噪比较低,因此选取光谱范围为400~1000 nm的数据进行后续分析,共计236个波段。将每类500个样品光谱取均值得到烟叶非烟物质的平均光谱反射率。烟叶与非烟物质的平均光谱曲线如图2所示,塑料匝绳和尼龙布在590 nm处具有反射峰,故基于此可与烟叶区分。烟叶、植物叶子、纸制品和麻绳作为植物类或植物类制品有着相似的光谱波形,在420 nm处有吸收谷,500~700 nm反射率呈现上升趋势,在950 nm处有小的反射率峰存在,但是在某些波段范围反射率存在较为明显的差异,即6类别样本类间光谱特性差异较大。

图2 烟叶和非烟物质的平均反射光谱

2.2 样品主成分分析

主成分分析通过正交变换将线性相关的变量组合成新的相互无关的新变量,可获取不同类别样品的主成分得分分布,定性判断不同类别样本的可分性。对烟叶和非烟物质的反射光谱数据主成分分析可知,前3主成分的贡献率分别为80.36%,12.92%,5.83%,累积贡献率超过了99%,表明前3主成分能够包含绝大部分的原始光谱信息。6类样品在前3主成分的得分分布如图3所示。可以看出,同一类别的分布较广泛,但烟叶和非烟物质各自分别聚集在一起,进一步说明烟叶和非烟物质具有良好的可分性,可利用高光谱成像技术进行有效地识别。

图3 六类样品在前3主成分得分分布图

2.3 高光谱数据预处理结果

基于5种预处理方法的种分类模型结果如表1所示,基于不同预处理建立的烟叶和非烟物质分类模型,平均分类正确率均达到了96%,因此利用高光谱成像技术对烟叶和非烟物质进行分类识别是可行的。在几种预处理方法中,采用SNV预处理建立的分类模型在训练集和测试集的平均分类正确率均为最高,故可以得出相比原始光谱和其他预处理方法,SNV的预处理方法为最优。因此在后续的高光谱数据分析中,选择SNV预处理方法对原始光谱数据进行预处理,以降低噪声影响,提高数据的有效性。

表1 基于不同预处理光谱的模型识别结果

Tab.1 Model classification results based on different spectral pretreatments

2.4 特征波长的选择

在训练集数据利用PCA loadings进行特征波长的选择。图4为主成分1(PC1),主成分2(PC2),主成分3(PC3)的权重系数曲线图,其中的波峰、波谷表明对应的波长占主要贡献。为了确保特征波长的选择更加可靠,如果在3条曲线中占2个及以上的波峰或波谷,则选择其为特征波长。如图5所示,544 nm和582 nm在3条曲线各自都对应波峰或波谷,说明了以上2个波段能够反映6类样品光谱信息的差异;440 nm、486 nm和518 nm在PC1和PC2的权重曲线里对应有2个波峰或波谷;由于660 nm对应1个波峰,且PC2和PC3在该波段存在较大曲线斜率的变化,故选取其为特征波长;3条曲线均在803 nm后变化变小,故将803 nm作为特征波长。因此,共筛选出7个特征波长为440 nm、486 nm、518 nm、544 nm、582 nm、660 nm和803 nm。

图4 PC1,PC2和PC3的载荷系数图

利用SPA将SNV预处理后的光谱数据降低波长变量维度,选取特征波长组合的原则是均方根误差(Root Mean Square Error, RMSE)最低时对应的波长变量组合。不同变量集的RMSE值如图5所示,当波长变量小于6时,RMSE值下降趋势明显,当波长变量大于6时,RMSE值在最小值附近趋于稳定。因此,所选出的6个波长变量对应的波长即为选定的特征波长。图6展示了基于烟叶光谱曲线波长算法选择的结果,其中波长选择索引分别为46、59、75、113、158、228,对应的特征波长为513 nm、545 nm、585 nm、680 nm、796 nm、980 nm。

图5 均方根误差随SPA中特征波长数变化曲线

图6 SPA特征波长选择结果

2.5 建模结果与分析

基于PCA loadings和SPA算法筛选出的特征波长作为输入变量,采用RF、Softmax以及SVM分别建立各自的分类模型,并与全光谱数据的分类模型进行比较。以训练集和测试集各自内部的平均正确率来评价模型的优劣。

表2 各分类模型的判别分析结果

Tab.2 Discrimination results of various classification models

不同特征提取方法基于3种算法的识别精度如表2所示,根据测试集的识别结果,各模型的平均准确率均较高,分类模型准确率均在98.53%以上。基于SVM模型的测试集识别准确率均高于RF和SoftMax模型,说明基于SVM建立的识别模型为最优模型。SPA-RF、SPA-Softmax和SPA-SVM模型测试准确率均不低于PCA loadings-RF、PCA loadings-Softmax和PCA loadings-SVM,表明基于SPA筛选的6个特征波长更能反映烟叶与非烟物质的光谱信息的差异,是优于PCA loadings的特征波长选择方法。对比9种建模方法可以看出,未经变量选择的SVM分类模型性能最优,训练集正确率达到了100%,测试集正确率达到了99.6%。但是该方法输入变量多,模型相对复杂。相比经SPA变量选择后,建立的SVM模型训练集和测试集的识别正确率分别为99.82%,99.47%,识别正确率与全光谱变量建立的SVM模型差异较小,且输入变量仅为6个,减少了97.5%的变量数。采用SPA提取特征波长,去除了全光谱波长中自相关性高的波长,提高了模型的运算速度,保持判别正确率的同时降低了模型的复杂度,因此将SPA-SVM作为最优模型。

2.6 降维模型可视化检测

为了可视化待测样品分类结果,评价降维模型识别效果,利用SPA-SVM降维模型对预测图进行像素级分类,结果如图7所示。图7b中红色部分为烟叶,其绝大部分像元被正确分类,SPA-SVM降维模型将待分类对象识别为各自的类别,烟叶与非烟物质能较好的地区分,但也存在一些像元被误识别,特别是烟叶轮廓处,其原因可能是轮廓处像元是烟叶和背景的混合像元,背景和烟叶像元光谱的重合叠加导致光谱的相似性,从而导致误分类。从图2可以看出,烟叶与纸制品的平均光谱波形十分相似,并且选择的6个特征波段只有440 nm具有区分度,故导致了烟叶某些像元误识别为纸制品。麻绳一部分像素点的误识别成植物叶子可能是由于麻绳较细且形态有较大的突起,光分布不均匀和同一样本到探测器距离的变化,从而导致同一样品光谱的可变性增大,造成误识别的发生。从表3也可以看出,降维模型在测试集数据上存在将个别的烟叶像元和植物叶子判别为纸制品、麻绳判别为植物叶子,侧面解释了待测数据可视化图里出现误识别像元的原因。总体来看,可视化结果较好,基于特征波长建立的降维模型,识别烟叶和非烟物质类别具有可行性。

注:图7a为烟叶和5种非烟物质的伪彩色图像;图7b为分类结果可视化图像。

表3 SPA-SVM模型测试集混淆矩阵

Tab.3 Confusion matrix of test set based on SPA-SVM model

续表3

真实类别True labels预测类别Predicted label 植物叶子Plant leaf纸制品Paper product麻绳Hemp rope尼龙Nylon塑料匝绳Plastic rope烟叶Tobacco leaf总计total预测准确Accurate prediction准确率/%Accuracy 麻绳Hemp rope 124 124124100 尼龙Nylon 125 125125100 塑料匝绳Plastic rope 125 125125100 烟叶Tobacco leaf 123123123100 总计total12512512512512512575074699.47

3 结论

本研究利用可见-近红外高光谱成像技术,采用5种方法对光谱数据进行预处理,结果表明SNV预处理方法最好。利用PCA-loadings和SPA算法选择特征波长,基于全波长和特征波长变量建立非烟物质的RF、SoftMax及SVM分类模型,结果显示基于全光谱、PCA-loadings和SPA建立的RF,SoftMax和SVM模型的测试集和测试集均高于98.5%,说明烟叶与非烟物质具有较好的可分性。基于全光谱建立的分类模型均略优于基于PCA-loadings和SPA建立的分类模型,SPA建立模型均略优于PCA-loadings建立的分类模型。经SPA进行变量筛选后建立的SVM模型,保证较好正确率的同时极大地降低了模型运算量。同时SPA-SVM模型在验证图像数据的检测结果可视化证明,基于SPA-SVM模型对烟叶和非烟物质进行分类识别具有极强的可行性,为特征光谱成像仪器开发提供了理论基础和技术支持。

[1] 张长华,赵红枫,胡伟,等. 烟叶原料中主要非烟物质的成因分析[J]. 中国烟草科学,2013, 34(1): 90-93.

ZHANG Changhua, ZHAO Hongfeng, HU Wei, et al. Origin of impurities in tobacco leave[J]. Chinese Tobacco Science, 2013, 34(1): 90-93.

[2] 刘玉兰,熊应伟,杨生南,等. 谈低次烟叶净化的重要性[J]. 烟草科技,1986(3): 26-27.

LIU Yulan, XIONG Yingwei, YANG Shengnan, et al. On the importance of low-grade tobacco purification[J]. Tobacco Science & Technology, 1986(3): 26-27.

[3] 顾健伟. 烟叶复烤企业非烟物质控制[J]. 南方农业,2014, 8(18): 190-192.

GU Jianwei. Controlling of non-tobacco related material in tobacco redrying enterprises[J]. South China Agriculture, 2014, 8(18): 190-192.

[4] 齐永杰,李群岭,徐文兵,等. 论烟叶中非烟物质的来源与控制[J]. 农业与技术,2015, 35(13): 189-191.

QI Yongjie, LI Qunling, XU Wenbing, et al. On the source and control of non-tobacco related material in tobacco leaves[J]. Agriculture and Technology, 2015, 35(13): 189-191.

[5] 刘配文,温圣贤. 打叶复烤等环节中非烟杂物的控制措施[J]. 作物研究,2013, 27(S1): 51-53.

LIU Peiwen, WEN Shengxian. Control measures of non-tobacco related material in threshing and redrying[J]. Crop Research, 2013, 27(S1): 51-53.

[6] 杨俊杰,陶文华. 基于激光分拣技术的烟草异物剔除系统[J]. 机械制造与自动化, 2019, 48(6):214-216.

YANG Junjie, TAO Wenhua. Tobacco sorting system based on laser sorting technology[J].Electrical automation,2019, 48(6): 214- 216.

[7] Garcia-Allende P B, Conde O M, Mirapeix J, et al. Quality control of industrial processes by combining a hyperspectral sensor and Fisher's linear discriminant analysis[J]. Sensors & Actuators B Chemical, 2008, 129(2): 977-984.

[8] Mehl P M, Chen Y R, Kim M S, et al. Development of hyperspectral imaging technique for the detection apple surface defects and contaminations[J]. Journal of Food Engineering, 2004, 61(1): 67-81.

[9] Adebayo S E, Hashim N, Abdan K, et al. Application and potential of backscattering imaging techniques in agricultural and food processing[J]. Journal of Food Engineering, 2016(169): 155.

[10] Wang C, Liu B, Liu L, et al. A review of deep learning used in the hyperspectral image analysis for agriculture[J]. Artificial Intelligence Review, 2021, 54(3): 5205-5253.

[11] 乔红波,蒋金炜,程登发, 等. 烟蚜为害特征的高光谱比较[J]. 昆虫知识,2007(1): 57-61.

QIAO Hongbo, JIANG Jinwei, CHENG Dengfa, et al. Comparison of hyperspectral characteristics in tobacco aphid damage[J]. Chinese Bulletin of Entomology, 2007(1): 57-61.

[12] Qga B, Li S, Tz C, et al. Early detection of tomato spotted wilt virus infection in tobacco using the hyperspectral imaging technique and machine learning algorithms[J]. Computers and Electronics in Agriculture, 2019(167): 168-169.

[13] Prabhakar M, Prasad Y G, Desai S, et al. Hyperspectral remote sensing of yellow mosaic severity and associated pigment losses in Vigna mungo using multinomial logistic regression models[J]. Crop Protection, 2013, 45: 132-140.

[14] 李向阳,于建军,刘国顺. 利用光谱反射率预测烤烟叶片烟碱含量[J]. 农业工程学报,2008(8): 169-173.

LI Xiangyang, YU Jianjun, LIU Guoshun. Predicting leaf nicotine content of flue-cured tobacco using hyperspectral reflectance[J]. Transactions of the Chinese Society of Agricultural Engineering, 2008(8): 169-173.

[15] Sun J, Zhou X, Wu X H, et al. Identification of moisture content in tobacco plant leaves using outlier sample eliminating algorithms and hyperspectral data[J]. Biochemical and Biophysical Research Communications, 2016, 471(1): 226-232.

[16] Yu K Q, Fang S Y, Zhao Y R. Heavy metal Hg stress detection in tobacco plant using hyperspectral sensing and data-driven machine learning methods[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 245: 118-917.

[17] Jia F F, Liu G S, Liu D S, et al. Comparison of different methods for estimating nitrogen concentration in flue-cured tobacco leaves based on hyperspectral reflectance[J]. Field Crops Research, 2013, (150): 108-114.

[18] Li X Y, Liu G S, Yang Y F, et al. Relationship between hyperspectral parameters and physiological and biochemical indexes of flue-cured tobacco leaves[J]. Agricultural Sciences in China, 2007, 6(6): 665-672.

[19] 王梅. 发病烟草的高光谱特征及其病害程度诊断模型研究[D]. 山东农业大学,2013.

WANG Mei. Hyperspectral Characteristics and Diagnostic Motels of Diseases Tobacco[D]. Shandong Agricultural University, 2013.

[20] Frederico L.F. Soares, Marcelo C.A. Marcelo, Liliane M.F. Porte, et al. Inline simultaneous quantitation of tobacco chemical composition by infrared hyperspectral image associated with chemometrics[J]. Microchemical Journal, 2019, 151: 104225.

[21] Marcelo M, Soares F, Ardila J A, et al. Fast inline tobacco classification by near-Infrared hyperspectral imaging and supporting vector machines-discriminant analysis[J]. Analytical Methods, 2019(11): 19661-975.

[22] Rodriguez-Cobo, Luis & Garcia-Allende, P. Beatriz & Cobo, et al. Raw Material Classification by Means of Hyperspectral Imaging and Hierarchical Temporal Memories. Sensors Journal, IEEE. 2012(12): 2767-2775.

[23] PB García-Allende, Conde O M, Cubillas A M, et al. New raw material discrimination system based on a spatial optical spectroscopy technique[J]. Sensors & Actuators A Physical, 2007, 135(2): 605-612.

[24] Jiang J B, Qiao X J, Li H. Use of near-infrared hyperspectral images to identify moldy peanuts[J]. Journal of Foiod Engineering, 2016, 169: 284-290.

[25] 洪涯,洪添胜,代芬, 等. 连续投影算法在砂糖橘总酸无损检测中的应用[J]. 农业工程学报, 2010, 26(S2): 380-384.

HONG Ya, HONG Tiansheng, DAI Fen, et al. Successive projections algorithm for variable selection in nondestructive measurement of citrus total acidity[J]. Transactions of the Chinese Society of Agricultural Engineering, 2010, 26(S2): 380-384.

[26] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[27] 蒋怡,黄平,董秀春,等. 基于Softmax分类器的小春作物种植空间信息提取[J]. 西南农业学报, 2019, 32(8): 1880-1885.

JIANG Yi, HUANG Ping, DONG Xiuchun, et al. Spatial information extraction of spring crops based on softmax classifier[J]. Southwest China Journal of Agricultural Sciences, 2019, 32(8): 1880-1885.

[28] Tao D L, Xiao Z T, Zhang F F, et al. Cloth defect classification method based on SVM[J]. International Journal of Digital Content Technology & Its Applications, 2013, 7(3): 614-622.

Research on classification and recognition of non-tobacco related material (NTRM) based on hyperspectral imaging technology

LI Zhihui1, MEI Jifan1, LI Hui1, LI Jiakang1, LU Minrui2, WANG Fang2, ZHANG Tengjian2, DU Jinsong1, HONG Weiling3, XU Dayong1*

1 Zhengzhou Tobacco Research Institute of CNTC, Zhengzhou 450001, China;2 Fujian Wuyi Leaf Tobacco Co., Ltd., Nanping 354000, China;3 Technology Center, China Tobacco Fujian Industrial Co., Ltd., Xiamen 361021, China

The NTRM in tobacco leaves were recognized and classified using hyperspectral imaging technology and machine learning. Hyperspectral imaging system was used to collect spectral data of 400~1000 nm band tobacco leaves and NTRM. Five preprocessing methods were used to preprocess the original spectra, and standard normal variate (SNV) was selected as the best preprocessing method. Successive projection algorithm (SPA) and Principal component analysis loadings (PCA loadings) were used to screen out 6 characteristic wavelengths. Random forest (RF), Softmax and support vector machine (SVM) were employed to establish identification models based on characteristic wavelength and full spectrum. The results showed that SVM model of the full spectrum had the best recognition results, and the recognition accuracy of samples in the calibration set and test set were 100% and 99.6%, respectively. SPA method was superior to PCA loadings algorithm, and identification rates of SPA-SVM model calibration set and test set were 99.82% and 99.47% respectively. Hyperspectral imaging combined with SPA-SVM model demonstrate the efficient classification and recognition of NTRM in tobacco leaves.

hyperspectral imaging; non-tobacco related material; successive projections algorithm; characteristic wavelength; support vector machine; classification

Corresponding author. Email:xdyong@126.com

福建中烟工业有限责任公司科技项目“卷烟产品及原料高光谱特征分析与应用技术研究”(D2020248)

李智慧(1997—),硕士研究生,主要研究方向:烟草物料高光谱成像技术检测,Tel:15139486607,Email:690638340@qq.com

徐大勇(1982—),Tel:13526654802,Email:xdyong@126.com

2021-08-19;

2022-04-21

李智慧,梅吉帆,李辉,等. 高光谱成像的非烟物质分类识别研究[J]. 中国烟草学报,2022,28(3). LI Zhihui, MEI Jifan, LI Hui, et al. Research on classification and recognition of non-tobacco related material (NTRM) based on hyperspectral imaging technology[J]. Acta Tabacaria Sinica, 2022, 28(3). doi:10.16472/j.chinatobacco.2021.T0146

猜你喜欢
波长烟叶预处理
KR预处理工艺参数对脱硫剂分散行为的影响
一种波长间隔可调谐的四波长光纤激光器
求解奇异线性系统的右预处理MINRES 方法
贵州主产烟区烤烟上部烟叶质量的差异
提高烟叶预检水平的措施探讨
杯中“日出”
污泥预处理及其在硅酸盐制品中的运用
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
关于新形势下烟叶生产可持续发展的思考
基于预处理MUSIC算法的分布式阵列DOA估计