李粉粉,王爱霞,赵 晨,白 涛,毛 岚,张豹林,李生栋,宋朝鹏,王 涛,
(1.河南农业大学 烟草学院,河南 郑州 450002;2.河南中烟工业有限责任公司,河南 郑州 450016;3.云南省烟草公司曲靖市公司,云南 曲靖 655000)
烟叶分级是烟叶生产过程中重要的一环,是提高烟叶可用性的重要措施依据。在烟叶生产收购中,多以部位、外观、物理特性等因素对烟叶进行等级质量区分,其中叶位是分组的首要因素,直接决定了分组的准确性。根据烤烟散叶烘烤技术规程,烟叶采烤时应遵循同一部位烟叶同时采收的原则[1],实际生产中烟农采收时多以鲜烟叶的各项外观表征来判断烟叶的可用性,受生态条件、生产技术、品种等因素影响,不同叶位叶片在生长过程中可能表现出相似的可用性,从而存在较多部位混采现象[2],对烟叶烘烤及烤后分级造成不良影响。因此,需要一种快速、准确、无损的鲜烟叶叶位客观判别方法。
高光谱成像技术近年来被广泛应用于植物品种、品质和病虫害识别[3-6]。在烟草领域中,部分研究人员尝试利用高光谱成像技术对烟叶进行检测分析,研究结果表明,烟草光谱信息与其叶面积指数、生物量、物理特性、化学成分等指标间存在相关性[7-10]。受含水率、色素、细胞组织结构等因素影响[11-12],不同品种、不同生育期、不同部位烟叶的光谱反射率均存在较大差异[7,13]。在烟叶成熟度识别方面,李鑫等[14]比较了一阶导数、多元散射校正(Multiplicative scatter correction,MSC)、标准正态变换(Standard normal variate,SNV)等5 种数据预处理方法,利用遗传算法筛选特征波段,建立基于支持向量机(SVM)分类器的烟叶田间成熟度判别模型,结果表明,随着烟叶田间成熟度增加,光谱反射率逐渐增大,采用SNV-GA-SVM 方法构建的模型预测精度最高。在烟叶病虫害检测方面,窦玉青等[15]对健康烟株和叶斑类病害烟株叶片的高光谱反射率特征进行检测,结果表明,550 nm 和670~750 nm处的光谱反射率可以反映烟叶病害的变化程度。在鲜烟叶特征检测方面,孙阳等[16]研究了不同部位鲜烟叶高光谱特征与颜色参数的变化规律,基于高光谱特征参数建立了烟叶颜色参数回归模型,结果表明,在400~760 nm波段光谱反射率变化与色素含量密切相关,验证了利用高光谱技术预测鲜烟叶颜色参数的可行性。在烟叶分类分级方面,李士静等[17]探讨了不同光谱预处理方法和分类模型对烟叶等级分类正确率的影响,结果表明,采用MSC 预处理和SVM 分类器的模型识别效果更好,分类正确率达到了96%。张慧等[18]将连续投影算法所筛选的特征波长与灰度共生矩阵选择的烤烟质构特征归一化融合,构建烤烟分类模型,结果表明,光谱与纹理融合特征可以降低数据维度,提升模型分类正确率。在烟草领域中,对烟叶叶位的研究多采用机器学习、深度学习等基于图像的识别分类方法,采用高光谱成像技术对烟叶叶位特征的识别分类报道较少,还需进一步研究。因此,提出一种基于高光谱成像技术的鲜烟叶叶位识别方法,为实现鲜烟叶叶位的快速无损判别提供可靠的理论基础和技术支持。
试验于2021—2022 年在重庆市丰都县进行。以云烟116 和云烟87 为研究对象,选取当地管理规范的烟田具有代表性的烟株。烟株留叶数为22~24片,上部叶(X)采收位置为18~20 叶位,中部叶(C)采收位置为12~14 叶位,下部叶(B)采收位置为3~5 叶位,采收时间为打顶后15 d。每个部位各采收320 片鲜烟叶,共960 片。根据鲜烟叶所属叶位对鲜烟叶样本分类标记,下部叶标记为1,中部叶标记为2,上部叶标记为3。样本按照4∶1 的比例随机划分为校正集和预测集,其中校正集共768个样本,上部叶、中部叶、下部叶均为256 个,预测集192 个样本,上部叶、中部叶、下部叶均为64个。
试验所采用的高光谱图像采集系统如图1 所示,主要由便携式高光谱仪(GaiaField-V10E)、光源控制器、4 个200 W 卤素灯光源、黑色背景板、计算机和暗箱组成,光源分别安装于暗箱边框中部。高光谱仪所测定的波长为389.6~1 016.9 nm,光谱分辨率为2.8 nm,光谱采样间隔为2.34 nm,输出波段数为256 个,相机像素为696×658。将采收鲜烟叶放置于黑色背景板中央,通过配套软件SpecView 调整参数,以保证所采集烟叶图像的清晰度,经多次预试验确定系统最佳参数:扫描角度为-10°~10°,扫描速度为15 s/cube,物距1 m,曝光时间10 ms。
图1 高光谱成像系统Fig.1 Schematic illustration of hyperspectral imaging system
1.3.1 图像校正 为防止采集过程中采集设备或光强对高光谱图像产生噪声影响,每次测定前先进行黑白板校正。黑白板标定公式[19]:
式中,R为校正后的图像,I为原始图像,W为反射率是100%的全白标定图像,B为反射率是0 的全黑标定图像。
1.3.2 感兴趣区域提取 为快速提取与样本相关的光谱和图像数据,使用Python 3.8 编程语言,基于Anaconda 3 集成开发环境,利用灰度阈值法对481.8、562.2、651.4 nm 3 个通道下的高光谱图像进行分割,并二值化,以二值化图像为基础,对原始鲜烟叶高光谱图像进行掩膜处理,最后对掩膜后的高光谱图像进行感兴趣区域(ROI)提取,如图2d 所示,红色区域即最终提取的感兴趣区域。以整个叶片区域作为一个ROI,计算每个波段的ROI 区域平均光谱反射率作为烟叶样本的原始光谱值。
图2 鲜烟叶感兴趣区域分割Fig.2 Image segmentation of interested region of green tobacco leaves
1.3.3 光谱数据预处理 为提升所采集光谱数据的稳定性和可分离性,需要对光谱信息进行预处理,削弱或消除光谱采集过程中所产生的背景噪声、基线漂移、暗电流等随机噪声的影响。剔除信噪较低的首尾波段,对400~1 000 nm 波段范围内的鲜烟叶光谱数据进行分析与研究。采用SNV、二阶导数(2ndDerivative,2ND)、Savitzky-Golay 卷积平滑(Savitzky-Golay smoothing filter,SG)和MSC 4种光谱预处理方法对烟叶原始高光谱数据进行处理。
1.3.4 特征波段筛选 由于样本的原始光谱数据量较大,其中包含的冗余和无效信息对烟叶叶位识别模型的预测能力存在较大影响,为降低模型复杂度,提升模型的预测精度,需要对原始光谱数据进行优化,筛选与叶位识别相关的有效波长变量。本研究选用连续投影算法(Successive projections algorithm,SPA)和竞争性自适应重加权算法(Competitive adaptive reweighted sampling,CARS)进行特征波长的筛选。
1.3.4.1 SPA SPA利用向量投影分析,寻找到原始数据空间中的最小冗余光谱信息变量集。对采集到的原始烟叶样本数据n×m阶矩阵X,提取出一个n行h列的特征向量集,以验证集的交叉验证均方根误差(RMSECV)最小值对应的k(0)和N,确定最佳变量及特征波长个数[20]。
1.3.4.2 CARS CARS利用自适应重加权采样和指数衰减函数,选择所构建PLS 模型中回归系数绝对值大的波长点,利用交叉验证筛选出RMSECV最小值的子集Q,基于子集Q构建PLS 模型,获取最优光谱特征组合[21]。
偏最小二乘判别分析(Partial least squaresdiscriminant analysis,PLS-DA)、SVM 和反向传播神经网络(Back propagation neural network,BPNN)对于小样本特征分类具有识别准确度高、所需时间较短的特点,因此选用这3 种分类器构建识别模型进行鲜烟叶叶位分类。
PLS-DA 是一种用于判别分析的多变量统计分析方法[22]。在处理时,将样本判别向量转换为虚拟矩阵Yn×m,其中m为样本类别,n为样本数,将预测样本数值代入虚拟矩阵中,进行分类判别。SVM 算法在解决小样本、非线性和高维度等决策问题上有较好的分类效果[23]。本研究采用线性核函数构建SVM预测模型。
BPNN 是一种基于误差逆向传播的算法,可以通过自身对数据集的训练学习获取输入数据与输出数据间的映射关系,基于给定输入数据,实现输出数据的结果预测[24]。
针对鲜烟叶叶位光谱特征数据,采用预处理后的全波段光谱数据和特征波段光谱数据,分别构建基于PLS-DA、SVM 和BPNN 的鲜烟叶叶位判别模型,选择模型的准确率评价鲜烟叶叶位识别模型的性能。
随着烟叶着生部位的变化,烟叶的化学成分、组织结构和外观特征存在一定差异,不同叶位烟叶的叶绿素含量、组织结构、含水量等差异会影响光谱曲线波峰与波谷的产生[7,25],因此利用光谱特征可以判断鲜烟叶所属部位。图3a 为每片鲜烟叶样本的原始平均光谱曲线,可以看出,在400~800 nm 处鲜烟叶谱峰信息丰富,反射率曲线在433、486、557、658、752 nm 处出现较为明显的波峰、波谷。对烟叶原始平均光谱数据进行MSC、SNV、2ND 和SG 预处理,其中SG 滤波的窗口长度为33,多项式阶数为3。预处理后的光谱平均反射率曲线如图3b—e 所示,可以看出,预处理后的光谱曲线较原始光谱曲线相对集中,有效消除了基线漂移的问题,对重叠信息的放大和分离效果更好。
对4种预处理后的全波长光谱数据分别建立鲜烟叶叶位的PLS-DA、SVM 和BPNN 分类模型,模型分类结果如表1 所示。在鲜烟叶叶位预测模型中,采用预处理光谱信息构建的叶位识别模型预测准确率较原始光谱信息模型均有不同程度的提高,采用2ND、SG 处理建立的模型判别准确率较采用SNV、MSC 处理的模型略有提高。采用相同光谱信息处理方法所构建的模型中,基于BPNN 所构建的模型预测准确率最优,在训练集中,原始光谱的模型准确率为84.90%,MSC、SNV、2ND 和SG 基于BPNN 的模型准确率分别为86.85%、86.98%、87.24%、91.15%,分别比原始光谱模型提高了1.95、2.08、2.34、6.25 百分点。在预测集中,原始光谱的模型准确率为81.77%,MSC、SNV、2ND 和SG 基于BPNN 的模型准确率比原始光谱高3.13、4.17、4.69、8.86百分点。在训练集和预测集中,SG 预处理方法的模型分类结果均表现最优,对鲜烟叶叶位分类效果最好,因此,选用SG 处理后的光谱进行后续数据处理和分析。
表1 基于全波段的模型分类结果Tab.1 Classification results of different models based on full band
鲜烟叶原始光谱数据包含了400~1 000 nm 波段间共256个波段信息,为降低数据维度,提升模型预测准确度和模型效率,采用SPA 和CARS 筛选特征波长。
在SPA 鲜烟叶叶位特征波段筛选中,波长数N范围设定为1~50,以RMSECV最小值对应的变量个数作为波长个数。在CARS鲜烟叶叶位特征波长筛选中,蒙特卡罗采样次数设定为50,以RMSECV最小值对应的变量个数作为波长个数。SPA 和CARS筛选的特征波长结果如图4 所示。SPA 共筛选了8个 特 征 波 长,分 别 为430.79、644.09、747.50、757.50、805.20、820.29、853.40、922.79 nm。CARS 共筛选了38 个特征波长,分别为414.70、426.20、442.39、444.70、488.89、495.89、500.60、507.70、510.00、543.09、547.90、550.29、557.40、559.79、564.59、566.90、574.09、581.29、588.50、590.90、593.29、595.70、610.09、629.50、661.09、707.79、717.70、780.00、825.40、833.00、835.59、879.00、891.79、899.50、902.09、941.00、943.59、959.20 nm。
图4 SPA和CARS选取的特征波段Fig.4 The characteristic wavelengths selected using the SPA and CARS algorithm
利用SPA 和CARS 方法筛选的鲜烟叶叶位特征波长变量分别建立SVM、PLS-DA 和BPNN 分类模型。PLS-DA 模型的主成分数、SVM 模型的核函数参数以及BPNN 模型的隐含层网络节点个数,均采用遍历优化法进行筛选。不同特征波长筛选方法的鲜烟叶叶位模型分类结果如表2 所示。可以看出,在鲜烟叶叶位预测模型中,训练集和预测集对鲜烟叶叶位误判现象多集中于中部叶。CARS 方法可以有效地筛选鲜烟叶叶位相关特征波长,采用CARS 筛选的特征波段所构建的模型与采用SPA 筛选的特征波段所构建的模型相比,模型预测结果较好。采用特征波段所构建的PLS-DA 和BPNN 模型的识别准确度高于采用SG 预处理后全波段光谱所构建的模型准确度。所构建的SVM、PLS-DA 和BPNN模型中,预测集中采用CARS筛选的特征波段较采用SPA 筛选的特征波段所构建的模型预测准确 率 分 别 提 高 了0.51、1.04、1.56 百 分 点,其 中CARS-BPNN 模型的预测结果最优,训练集和预测集中预测准确率达到了93.23%和92.19%。
表2 基于不同特征波长的模型分类结果Tab.2 Model classification results based on different characteristic wavelengths
表3为不同模型的识别结果混淆矩阵。可以看出,在不同的烟叶叶位识别模型中,误分情况都集中于相邻部位的判别,其中中部叶误分率较高,上部叶与下部叶间的误分样本数较少。与SG-BPNN相比,SG-CARS-BPNN 的相邻部位识别准确率有显著提升。
表3 模型识别结果混淆矩阵Tab.3 Confusion matrix of model identify result
针对目前鲜烟叶部位特征语言描述模糊性和误差性较高,判别依赖人工经验等问题,本研究提出一种基于高光谱成像技术的鲜烟叶叶位检测方法,可实现对鲜烟叶所属叶位快速无损判别。以不同叶位烤烟鲜烟叶为研究对象,利用高光谱成像系统采集烟叶样本数据,基于400~1 000 nm 波段光谱数据,对比分析了SNV、MSC、2ND 和SG 4 种不同的光谱预处理方法和SVM、PLS-DA 和BPNN 3种不同建模方法的鲜烟叶叶位判别结果。结果表明,采用预处理光谱信息构建的叶位识别模型的预测准确率较原始光谱信息模型均有不同程度的提高,其中SG预处理方法的模型分类结果均表现最优,能够较好地消除基线漂移、噪声、固体颗粒大小、杂散光等对光谱信息的影响。采用SG 预处理的训练集和预测集中BPNN 模型的识别效果最好,SG-BPNN 的模型准确率分别为91.15%和90.63%,比原始光谱-BPNN 模型的准确率高6.25、8.86 百分点。比较了利用SPA 所筛选的8 个特征波长和CARS 所筛选的38 个特征波长结合3 种建模方法对鲜烟叶叶位判别结果。结果表明,采用CARS 所筛选的特征波长所建立的BPNN 模型最优,训练集和预测集中预测准确率达到了93.23%和92.19%,模型误分主要为相邻部位烟叶误识。
综上,利用高光谱成像技术可以快速无损提取鲜烟叶叶位特征信息,对鲜烟叶所属部位进行判别。与基于彩色图像所提取的鲜烟叶叶位特征相比,本研究所提出的基于SG 预处理和CARS 筛选后的特征光谱信息,能够较好地表征鲜烟叶叶位特征,可有效降低相邻部位鲜烟叶叶位的误判率。本研究仅对重庆烟区云烟116 和云烟87 两个品种进行了判别研究,实现鲜烟叶采收叶位的数字化精准识别,还需完善高光谱图像采集系统,采集不同烟区不同品种的鲜烟叶数据,进一步提升烟叶叶位分类模型的精确性和适用性。