邓建强,王大彬,乾艳,尹忠春,彭五星,李富强,任晓红*
基于高光谱成像技术的烤烟上部烟叶成熟度光谱特征分析及判别模型构建应用研究
邓建强1,王大彬2,乾艳1,尹忠春1,彭五星1,李富强1,任晓红1*
1 湖北省烟草公司恩施州公司,湖北 恩施 445000;2 中国农业科学院烟草研究所,农业农村部烟草质量安全风险评估实验室 青岛 266101
【目的】研究不同成熟度上部烟叶的高光谱特征及智能化判别的可行性。【方法】运用便携式高光谱仪采集3种成熟度(尚熟(SS)、成熟(CS)、过熟(GS))上部烟叶的高光谱图像并提取光谱数据。运用相关性分析、主成分分析以及方差分析等方法分析光谱特征并构建5种模型(支持向量机(SVM)、K近邻(KNN)、随机森林(RF)、LightGBM和XGBoost)用于成熟度判别评价。【结果】(1)可见光(400~720 nm)与近红外(750~1000 nm)内部各波段之间相关性较强,而两个区域之间相关性较弱;(2)5个特征值大于1的主成分(PC1~PC5)几乎包含了所有的光谱信息,且主成分方差分析结果表明不同成熟度上部烟叶的光谱反射特征在可见光、红边以及部分近红外区域(950~1000 nm)统计学差异显著;(3)5种模型中SVM性能最优,2021年度样品的判别精确率、召回率和F1分数均在0.95以上,而2022年度以及2021+2022年度样品分别在0.93和0.92以上。【结论】上部烟叶高光谱存在多重共线性,具有很好的降维效果,且不同成熟度的光谱反射特征存在显著差异。SVM判别性能在不同年度间具有很好的稳定性,可用于上部烟叶成熟度判别。
便携式高光谱仪;上部烟叶;成熟度;光谱特征;模型构建及应用
烟叶采收成熟度对烤后烟叶品质有重要影响[1-2]。烤烟上部烟叶占整株烟叶总产量的30%~40%,优质上部烟叶具有烟气浓度高、香气量足等特点,是高档卷烟的重要原料来源[3]。上部烟叶在成熟过程中发生一系列复杂的生理生化反应,导致其烟叶内含物质组成发生变化,进而影响上部烟叶品质[4],因此研究上部烟叶成熟过程中代谢物变化规律对于指导上部烟成熟采收具有重要意义[5-7]。然而,上述研究采用的生理生化指标检测方法,存在经济成本高、时间周期长等问题,无法在生产中大范围推广。目前技术人员主要通过叶片颜色、叶脉特征、茎叶夹角等外观特征进行成熟度判断,但此过程依赖于主观经验,对从业人员的经验积累有一定要求,且个体之间主观感受存在差异。因此发展一种快速检测技术用于指导烟叶成熟采摘具有重要现实意义。
高光谱成像技术是一种三维检测技术,通过对目标物进行二维平面扫描可以给出每一个像素单元完整的光谱反射曲线,具有光谱波段多、分辨率高、图谱合一等特点[8]。高光谱既能反映目标物的外观特征,又能探测内部的化学成分信息,目前在农产品品质检测方面已有相关研究报道[9-11],而成熟度是其中一个重要研究领域,如小白杏[12]、油茶果[13]以及玉米种子[14]等。在烟草领域,目前有关高光谱成像技术的研究亦有相关报道。李智慧等[15]利用高光谱成像技术和机器学习方法对烟叶中的非烟物质进行分类识别,训练集和测试集正确率分别为99.82%和99.47%。张慧等[16]基于高光谱和纹理融合的方法实现了烤烟的有效无损分类。张龙等[17]基于高光谱成像技术实现了烟叶和杂物的分类,总体分类精度达到99.92%。在烟叶成熟度研究方面,李鑫等[18]基于高光谱成像技术构建了中部烟叶成熟度的判别模型,并取得了理想效果,但缺少对不同成熟度烟叶光谱特征的深入分析。因此本研究拟基于高光谱成像技术探究不同成熟度上部烟叶的光谱特征,在此基础上构建不同模型用于上部烟叶成熟度判别,最终为上部烟叶成熟度智能化检测技术开发提供启示和借鉴。
试验于2021—2022年在湖北省恩施州宣恩县椒园烟叶种植区(E 29.9751°,N 109.3915°,海拔1050 m)进行,供试品种为云烟80,土壤类型为山地黄棕壤,烟田土壤的基础理化性质如下:土壤pH 6.20,全氮1.85 g/kg,有机质27.65 g/kg,碱解氮149.36 mg/kg,速效磷30.08 mg/kg,速效钾224.96 mg/kg。
高光谱成像系统(北京易科泰生态技术有限公司)包括:便携式高光谱仪(Specim IQ,空间分辨率为512×512像素,光谱分辨率7 nm,波段数204)、卤素灯光源、三脚架、校正白板、黑色幕布等。
从7月下旬烟草成熟期开始,每隔7 d左右由专业技术人员采摘代表尚熟(SS)、成熟(CS)和过熟(GS)的上部烟叶样品进行高光谱图像扫描(曝光时间大约为220 ms)。2021年度共采集样品91份,其中SS样品30份、CS样品30份、GS样品31份。2022年度共采集样品184份,其中SS样品62份、CS样品61份、GS样品61份。
由于图像中的每个像素点包含一条光谱曲线,利用ENVI软件将整个叶片作为感兴趣区域(Region of Interest, ROI),将ROI中所有像素点的光谱反射率的平均值作为该片烟叶的光谱反射数据,最终得到代表不同成熟度所有烟叶样品的高光谱数据。图1展示了2021年度3个成熟度所有上部烟叶样品的高光谱反射曲线。
注:(a)SS、(b)CS以及(c)GS。
Note : (a) SS, (b) CS and (c) GS.
图1 2021年度烤烟上部烟叶所有样品的高光谱反射曲线
Fig. 1 Hyperspectral reflection curve of upper tobacco leaf samples in 2021
1.5.1 数据集划分
首先将不同成熟度的上部烟叶样品按照7:3的比例随机划分为训练集和测试集,且彼此之间样品不重叠。其中,训练集用于模型构建,并且在模型训练过程中采用了5折交叉验证的方法,测试集用于评价模型的泛化性能。
1.5.2 算法介绍
本研究采用支持向量机(SVM)、K近邻(KNN)、随机森林(RF)、LightGBM和XGBoost等算法对不同成熟度上部烟叶样品数据集进行建模。SVM是一种对数据进行二元分类的广义线性分类器,其决策函数由少数的支持向量确定,是一个具有稀疏性和稳健性的分类器,通过引入核函数可实现非线性分类。KNN是数据挖掘分类中最简单的方法之一,其核心思想是如果一个样本在特征空间中的K个最相邻样本大多属于某一个类别,则该样本也属于这个类别,并具有这个类别中样本的特性。RF是Breiman等提出的一种基于决策树的集成算法,对数据噪声容忍度好,具有人工干预少、运算速度快等优点。LightGBM是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率,支持分布式可以快速处理海量数据等优点。XGBoost是基于Boosting框架的一个算法工具包,可以用于并行计算效率、缺失值处理以及预测性能等方面。
1.5.3 模型评价指标
1.5.3.1 混淆矩阵
表1为混淆矩阵,包括真正例(True Positive,TP)、假正例(False Positive,FP)、假反例(False Negative,FN)和真反例(True Negative,TN)4种情况。根据测试集中每个样品预测的正确与否,把整个测试集的全部数据,分别放到这4个格子的相应位置。
表1 混淆矩阵表现形式
1.5.3.2 准确率(Accuracy)
准确率表示分类正确的样本占总样本的比例,公式(1):
1.5.3.3 精确率(Precision)
精确率又叫查准率,表示预测结果为正例的样本中实际为正样本的比例,公式(2):
1.5.3.4 召回率(Recall)
召回率又被称为查全率,表示预测结果为正例的样本中实际正例数量占全样本中正例样本的比例,公式(3):
1.5.3.5 F1分数
F1分数是综合了精确率和召回率的一个判断指标,F1分数取值范围为0到1,1是最好,0是最差,F1分数越高,说明模型越稳健,公式(4):
本研究使用ENVI软件提取烟叶样品的高光谱数据,使用 R语言进行高光谱数据的特征分析,使用Python进行判别模型构建。
2.1.1 不同成熟度上部烟叶高光谱反射特征
图2展示了上部烟叶成熟过程中高光谱反射曲线的变化。总体上,上部叶片的高光谱曲线呈现典型的绿色植物光谱特征,即在400~500 nm和600~700 nm之间形成吸收波谷,在550 nm处形成反射峰,在680 nm附近反射率急剧上升,进入近红外区域后逐渐达到平台,反射率大约在0.7左右,在680~750 nm之间反射率急剧上升的区域就是所谓的“红边”。上部烟叶的光谱反射率在可见光区域差异显著且随成熟度增加而上升(GS>CS>SS);在红边位置,上部烟叶的光谱反射率随成熟度同样呈上升趋势;在近红外区域不同成熟度高光谱反射曲线视觉上差异不明显。值得注意的是,在950 nm附近,所有叶片都有一个明显的吸收峰,这是由叶片中水分子吸收导致的[8]。
图2 三个成熟度烤烟上部烟叶的平均光谱曲线
2.1.2 不同成熟度上部烟叶高光谱相关性分析
图3绘制了不同成熟度上部烟叶高光谱的相关性。如图3所示,400~720 nm波段之间存在正相关性,750~1000 nm波段之间同样具有正相关性,而400~720 nm与750~1000 nm两个区域之间相关性较弱,甚至某些波段间呈现负相关。
注:蓝色代表正相关,红色代表负相关,颜色越深表示相关性越强,反之相关性越弱。
Note: Blue represents positive correlation, red represents negative correlation. The darker the color, the stronger the correlation, and vice versa, the weaker the correlation.
图3 不同成熟度上部烟叶高光谱各波段间的相关性矩阵
Fig. 3 Correlation matrix among various bands of hyperspectral data for upper tobacco leaves at different maturity levels
2.1.3 不同成熟度上部烟叶高光谱主成分分析及其方差分析
为探究不同成熟度上部烟叶高光谱特征差异,需对高光谱波段进行比较分析,然而高光谱波段数量多,对其全部波长进行差异性分析工作量十分庞大,若仅分析比较少数波段则缺乏代表性,因此对其降维处理减少变量个数是进行差异分析的必要条件。相关性分析结果表明不同成熟度上部烟叶各波段之间存在较高的相关性,因此它们的光谱数据特别适合利用主成分分析进行降维处理。表2列出了上部烟叶高光谱数据主成分特征值及其贡献率,共提取得到5个特征值大于1的主成分,它们的方差累积贡献率达到0.99,表明以上5个主成分能够全面地反映烤烟上部叶片的光谱信息。
表2 烤烟上部烟叶高光谱主成分特征值及贡献率
各主成分在400~1000 nm波段上的载荷系数如图4a所示。其中 PC1在400~740 nm附近具有较高的载荷系数,PC2在740~1000 nm范围内载荷系数较高,PC3在980 nm附近载荷系数达到最大值,约为0.4,在其它波段上载荷系数较小,PC4在400 nm时载荷系数约为0.5,此后随着波长增加,载荷系数相对较低,PC5的载荷系数在680~750 nm之间存在一个明显的峰值,最大值在0.3左右,在其它波段上载荷系数较低。载荷系数越大意味着各主成分包含该波段上的光谱信息越多,因此PC1主要包括绝大部分可见光信息、部分红边信息,PC2主要包含绝大部分近红外信息、部分红边信息,PC3主要包含950~1000 nm范围内部分近红外信息,PC4主要包含部分紫色光(400~430 nm)信息,PC5主要包含部分红边信息。
在此基础上,本研究进一步分析比较了不同成熟度烤烟上部叶5个主成分的差异性(图4b~4f)。对于PC1,3个成熟度得分平均值排序为GS>CS>SS,且三者之间存在统计学极显著差异(<0.01)。对于PC2,3个成熟度得分均值排序为CS>SS>GS,且三者之间统计学差异不显著(>0.05)。对于PC3,3个成熟度得分均值排序为GS>CS>SS,其中SS极显著低于CS和GS(<0.01),而CS和GS之间差异不明显(>0.05)。对于PC4,3个成熟度得分均值排序为GS>CS>SS,且SS同样极显著低于CS和GS(<0.01),而CS和GS之间差异不明显(>0.05)。对于PC5,3个成熟度得分均值排序为GS>CS>SS,且三者之间差异极显著(<0.01)。
注:abc代表差异显著(<0.05),ABC代表差异极显著(<0.01)。
Note: abc represents significant difference (<0.05), ABC represents extremely significant difference (<0.01).
图4 不同成熟度上部烟叶各主成分载荷系数变化曲线(a)以及各主成分箱线图和方差分析结果(b~f)
Fig. 4 Curves of loading coefficients of principal components derived from upper tobacco leaves at different maturity levels (a) and boxplots and variance analysis of principal components (b-f)
2.2.1 5种模型优化评价
将2021年度训练集中上部烟叶的高光谱数据输入到SVM、RF、KNN、LightGBM和XGBoost 5种模型中,使用网格搜索并采用5折交叉验证的方法得到各个模型的最优超参数组合(表3)。
表3 5种模型的最优超参数组合
续表3
方法Methods超参数Hyperparameters搜索空间Search Space KNNn_neighbors7 p3 weightsdistance LightGBMlearning_rate0.01 max_depth-1 min_child_samples2 num_leaves3 reg_alpha0 XGBoosteta0.01 eval_metricmlogloss max_depth1 gamma0.0001
将以上具有最优超参数组合的5种模型应用到2021年度测试集中上部烟叶成熟度判别,通过分析比较各项性能指标,进而确定最优模型(图5)。如图5a所示,SVM的判别准确率最高,达到95%以上,其余4种模型的判别准确率相同,均在90%以上。5种模型对测试集样品判别的混淆矩阵结果如图5b~5f所示,在SVM中有一个SS样品被误判为CS,而其它4个模型中有两个SS样品被误判为CS。
注:a,模型准确率;b,SVM;c,RF;d,KNN;e,LightGBM;f,XGBoost。
Note: a, accuracy of models; b, SVM; c, RF; d, KNN; e, LightGBM; f, XGBoost.
图5 5种模型判别测试集上部烟叶成熟度的准确率以及混淆矩阵结果
Fig. 5 Accuracy of the five models in classifying the maturity of upper tobacco leaves from test set and the results of confusion matrix
基于混淆矩阵的结果,本研究计算了5种模型对不同成熟度上部烟叶判别的精确率、召回率以及F1分数等指标(表4)。对于SS样品,5种模型的精确率均为100%,SVM的召回率(89%)和F1分数(94%)最高,其它4种模型相同(78%、88%);对于CS样品,SVM的精确率(86%)和F1分数(92%)最高,5种模型的召回率均为100%;对于GS样品,5种模型的精确率、召回率和F1分数均为100%。由此可见,SVM对SS和CS样品的判别性能优于其它4种模型,5种模型对GS样品的判别性能一致。5种模型对所有成熟度上部烟叶判别的精确率、召回率以及F1分数的结果如图6所示,SVM的精确率、召回率以及F1分数均大于0.95,优于其它4种模型,因此选择SVM作为上部烟叶成熟度的最优判别模型。
表4 5种模型判别上部烟叶成熟度的精确率、召回率以及F1分数
图6 5种模型判别上部烟叶成熟度的精确率、召回率以及F1分数的平均值
2.2.2 SVM模型应用验证
为验证SVM模型对不同年度间上部烟叶成熟度判别应用的稳定性,本研究利用2022年度以及2021+2022年度上部烟叶样品的训练集对SVM模型进行重新训练构建,然后利用测试集进行应用验证(图7)。对于2022年度上部烟叶(图7a),SS样品中有1个被误判为CS,CS样品中有1个被误判为SS,GS样品中有2个被误判为CS;对于2021+2022年度样品(图7b),SS中有3个样品被误判为CS,CS中有1个被误判为SS,GS中有3个被误判为CS。
注:a,2022年度样品;b,2021+2022年度样品。
Note: a, Samples from 2022; b, Samples from 2021+2022.
图7 SVM判别不同年度上部烟叶成熟度的混淆矩阵结果
Fig.7 Confusion matrix results of SVM in classifying the maturity of upper tobacco leaves across different years
基于混淆矩阵结果,本研究分别计算了SVM对2021和2021+2022年度上部烟叶成熟度判别的精确率、召回率和F1分数(表5)。对于2022年度,SS、CS和GS样品的精确率为94%、86%和100%,召回率为94%、95%和91%,F1分数为94%、90%和95%,3项指标在所有成熟度上的平均值均为93%。对于2021+2022年度,SS、CS和GS样品的精确率为97%、82%和100%,召回率为90%、97%和90%,F1分数为93%、89%和95%,3项指标的平均值分别为93%、92%和92%。
表5 SVM判别不同年度上部烟叶成熟度的精确率、召回率和F1分数
绿色植物的高光谱反射特性是由内部组织结构形态和化学成分决定的。在可见光范围内,色素是影响植物光谱吸收的主要因素,其中叶绿素所起的作用最大,此外叶红素和叶黄素以及花青苷在可见光波段也有吸收[8]。当植物开始成熟衰老时,叶片中色素含量降低,进而导致叶片的高光谱反射特性发生变化[8]。在近红外波段,植被的光谱反射特性主要受植物叶片内部构造以及-C-H、-N-H和-O-H等化学基团的影 响[8]。在可见光与近红外之间,反射率急剧上升,形成所谓“红边”,这是绿色植物高光谱反射曲线最为明显的特征[8]。在本研究中,烤烟上部烟叶成熟过程中叶绿素等色素含量逐渐减少导致了可见光区域的光谱反射率逐渐上升,这与李鑫等[18]的研究结果一致,而在近红外区域,叶片成熟过程中内部构造以及化学基团的变化对上部烟叶的光谱反射率影响较小。相关性分析表明,上部烟叶在可见光和近红外两个区域之间的高光谱波段相关性较弱,说明两个区域之间相对独立,内在关联性较小,而两个区域内部各自波段之间相关性较强,内在关联性强,具有很好的降维潜能。
主成分分析共提取得到5个主成分,它们的累积方差贡献率达到0.99,表明上部烟叶高光谱的204个波段可被压缩为5个主成分变量,极大简化了数据的复杂程度,同时也进一步说明上部烟叶高光谱存在严重多重共线性。对于不同成熟度上部烟叶高光谱特征的差异性,根据各主成分的载荷系数以及方差分析结果可知,总体上不同成熟度上部烟叶在可见光区域具有显著性差异,而在近红外区域差异不明显。950~1000 nm近红外区域内包含叶片含水量信息,根据PC3方差分析结果可推知上部烟叶水分含量随成熟度增加而降低[19],且SS水分含量与CS、GS存在极显著差异,而CS和GS之间差异不明显。在400~430 nm紫色光区域,SS与CS、GS的光谱反射率差异极显著,而CS和GS之间反射率差异不显著。在红边位置,不同成熟度上部烟叶差异同样显著。以上结果表明不同成熟度上部烟叶的高光谱反射特征存在明显差异,这为判别模型构建奠定了理论基础。
以上5种模型中SVM具有最优判别性能,与李鑫等[18]研究结果一致,可能原因是烟叶成熟是一个渐进演化的过程,成熟度判别实质上是在两个相邻类别之间找到一个合适的临界状态,而SVM分类原理同样是在两个类别之间找到一个最优超平面,因此SVM的工作原理特别适用于烟叶成熟度判别。对于其它4种模型,KNN算法是基于距离度量的依据K个最近邻样本属性进行分类的算法,RF是基于集成学习的思想将多棵决策树进行集成的算法,根据每棵决策树的结果取其平均值实现分类,而LightGBM和XGBoost是基于GBDT思想框架下的两种不同算法,以上4种模型无法在两个成熟度类别之间找到一个临界状态,因而可能影响了判别性能[20]。此外,本研究进一步考察验证了SVM模型对不同年度间上部烟叶成熟度判别性能的稳定性,2022年度以及2021+2022年度上部烟叶判别的精确率、召回率和F1分数的平均值均在92%以上,与2021年度的判别结果近乎一致,表明SVM模型可用于不同年度间上部烟叶成熟度判别。此外,SVM对CS样品的判别性能弱于SS和GS,原因可能是CS分别与SS、GS之间存在临界状态增加了SVM寻找最优超平面时的难度,使得SVM在判别CS与SS以及CS与GS时可能会发生误判,从而增加了CS误判的概率。
本研究基于高光谱成像技术探究了不同成熟度烤烟上部叶的光谱特征并构建了成熟度判别模型。不同成熟度上部烟叶高光谱波段存在多重共线性,且光谱反射特征在可见光、红边以及部分近红外区域(950~1000 nm)差异显著。5种判别模型中SVM性能最优且在不同年度间具有很好的稳定性,可用于烟叶生产中成熟度判别。本研究为将来烟叶成熟度智能化判别提供了理论和技术支持。
[1] 左天觉. 烟草的生产、生理和生物化学[M]. 上海:上海远东出版社,1993.
ZUO Tianjue. Production, physiology, and biochemistry of tobacco plant[M]. Shanghai: Shanghai Far East Publishers,1993.
[2] 宫长荣. 烟草调制学[M]. 北京:中国农业出版社,2003.
GONG Changrong. Tobacco curing[M]. Beijing: China Agriculture Press, 2003.
[3] 朱尊权. 提高上部烟叶可用性是促“卷烟上水平”的重要措施[J]. 烟草科技,2010(6): 5–9, 31.
ZHU Zunquan. Improving usability of upper leaves, an important measure for accelerating up-grading cigarette quality[J]. Tobacco Science & Technology, 2010(6): 5–9, 31.
[4] 贾中林,郑庆霞,戴华鑫,等. 烤烟上部叶成熟过程中代谢组的差异分析[J]. 烟草科技,2023, 56(1): 1-10.
JIA Zhonglin, ZHENG Qingxia, DAI Huaxin, et al. Differential analysis of metabolome of upper flue-cured tobacco leaf during ripening process[J]. Tobacco Science & Technology, 2023, 56(1): 1-10.
[5] 贾中林,尹启生,戴华鑫,等. 烤烟上部烟叶成熟生理特性研究进展[J]. 烟草科技,2022, 55(7): 99-112.
JIA Zhonglin, YIN Qisheng, DAI Huaxin, et al. Research progress on physiological characteristics of mature upper leaves of flue-cured tobacco[J]. Tobacco Science & Technology, 2022, 55(7): 99-112.
[6] 孙皓月,李文刚,俞世康,等. 上部叶脂质代谢与烟叶褐变的关系研究[J]. 中国烟草学报,2022, 28(04): 31-38.
SUN Haoyue, LI Wengang, YU Shikang, et al. Study on the relationship between lipid metabolism and browning of upper tobacco leaves[J]. Acta Tabacaria Sinica, 2022, 28(04): 31-38.
[7] 孙光伟,陈振国,王玉军,等. 烤烟上部叶采收时SPAD值与鲜烟组织结构、生理指标及烤后烟叶内在质量的关系[J]. 中国烟草学报,2019, 25(05): 63-69+104.
SUN Guangwei, CHEN Zhenguo, WANG Yujun, et al. Relationships of SPAD value with tissue structure, physiological index and internal quality of flue-cured tobacco upper leaves[J]. Acta Tabacaria Sinica, 2019, 25(05): 63-69+104.
[8] 童庆禧,张兵,郑兰芬,等. 高光谱遥感[M]. 北京:高等教育出版社,2006.
TONG Qingxi, ZHANG Bing, ZHENG Lanfen, et al. Hyperspectral remote sensing[M]. Beijing: Higher Education Press, 2006.
[9] 吴永清,李明,张波,等. 高光谱成像技术在谷物品质检测中的应用进展[J]. 中国粮油学报,2021, 36 (5): 165-173.
WU Yongqing, LI Ming, ZHANG Bo, et al. Application progress of hyperspectral imaging technology in grain quality inspection[J]. Journal of the Chinese Cereals and Oils Association, 2021, 36 (5): 165-173.
[10] 李江波,饶秀勤,应义斌. 农产品外部品质无损检测中高光谱成像技术的应用研究进展[J]. 光谱学与光谱分析,2011, 31 (8): 2021-2026.
LI Jiangbo, RAO Xiuqin, YING Yibin. Research progress of hyperspectral imaging technology in nondestructive testing of agricultural products[J]. Spectroscopy and Spectral Analysis, 2011, 31 (8): 2021-2026.
[11] 何馥娴,蒙庆华,唐柳,等. 高光谱成像技术在水果品质检测中的研究进展[J]. 果树学报,2021, 38 (9): 1590-1599.
HE Fuxian, MENG Qinghua, TANG Liu, et al. Research progress of hyperspectral imaging technology in fruit quality detection [J]. Journal of Fruit Science, 2021, 38 (9): 1590-1599.
[12] 刘金秀,贺小伟,罗华平,等. 基于高光谱成像技术的小白杏成熟度判别模型[J]. 食品研究与开发,2022, 43(15): 158-165.
LIU Jinxiu, HE Xiaowei, LUO Huaping, et al. Prunus Armeniaca maturity discrimination model based on hyperspectral imaging technology[J]. Food Research and Development, 2022, 43(15): 158-165.
[13] 胡逸磊,姜洪喆,周宏平,等. 高光谱成像技术检测油茶果成熟度[J]. 食品科学,2022, 43(16): 324-331.
HU Yilei, JIANG Hongzhe, ZHOU Hongping, et al. Detection of Camellia oleifera fruit maturity by hyperspectral imaging [J]. Food Science, 2022, 43(16): 324-331.
[14] 杨小玲,由昭红,成芳. 高光谱成像技术检测玉米种子成熟度[J]. 光谱学与光谱分析,2016, 36(12): 4028-4033.
YANG Xiaoling, YOU Zhaohong, CHENG Fang. Detection of corn seed maturity by hyperspectral imaging [J]. Spectroscopy and Spectral Analysis, 2016, 36(12): 4028-4033.
[15] 李智慧,梅吉帆,李辉,等. 高光谱成像的非烟物质分类识别研究[J]. 中国烟草学报,2022, 28 (3): 81-88.
LI Zhihui, MEI Jifan, LI Hui, et al. Classification and identification of non-smoking substances by hyperspectral imaging [J]. Acta Tabacaria Sinica, 2022, 28 (3): 81-88.
[16] 张慧,张文伟,张永毅,等. 基于高光谱与纹理融合的烤烟分类方法研究[J]. 中国烟草学报,2022, 28 (3): 72-80.
ZHANG Hui, ZHANG Wenwei, ZHANG Yongyi, et al. Study on classification method of flue-cured tobacco based on hyperspectral and texture fusion [J]. Acta Tabacaria Sinica, 2022, 28 (3): 72-80.
[17] 张龙,马啸宇,王锐亮,等. 高光谱成像技术在烟叶和杂物分类中的应用[J]. 烟草科技,2020, 53 (8): 72-78.
ZHANG Long, MA Xiaoyu, WANG Ruiliang, et al. Application of hyperspectral imaging technology in classification of tobacco leaves and sundries[J]. Tobacco Science and Technology, 2020, 53 (8): 72-78.
[18] 李鑫,汤卫荣,张永辉,等. 基于高光谱成像技术的烟叶田间成熟度判别模型[J]. 烟草科技,2022, 55 (7): 17-24.
LI Xin, TANG Weirong, ZHANG Yonghui, et al. Evaluation model of tobacco field maturity based on hyperspectral imaging technology[J]. Tobacco Science and Technology, 2022, 55 (7): 17-24.
[19] 刘辉. 贵阳烟区烟叶成熟度对其质量香韵影响[D]. 北京:中国农业科学院,2020.
LIU Hui. Effect of tobacco maturity on quality and aroma note in Guiyang tobacco area[D]. Beijing: Chinese Academy of Agricultural Sciences, 2020.
[20] Degtyarev V V, Tsavdaridis K D. Buckling and ultimate load prediction models for perforated steel beams using machine learning algorithms[J]. Journal of Building Engineering, 2022, 51: 104316.
Spectral characteristics analysis and discriminating model construction of flue-cured upper tobacco leaves with different maturity based on hyperspectral imaging technology
DENG Jianqiang1, WANG Dabin2, QIAN Yan1, YIN Zhongchun1, PENG Wuxing1, LI Fuqiang1, REN Xiaohong1*
1 Enshi Tobacco Company of Hubei Province, Enshi, Hubei, 445000, China;2 Laboratory of Quality & Safety Risk Assessment for Tobacco, Ministry of Agriculture, Tobacco Research Institute of Chinese Academy of Agricultural Sciences, Qingdao, 266101, China
The purpose of this study was to investigate the hyperspectral characteristics of upper tobacco leaves at different-maturity levels and the feasibility of intelligent discrimination.In this study, a portable hyperspectral instrument was used to collect the hyperspectral imagines of upper tobacco leaves of three different-maturity levels (pre-maturity (SS), maturity (CS) and post-maturity (GS) ) and extracted their spectral data. Their spectral characteristics were studied by using correlation analysis, principal components analysis and variation analysis, and 5 models (SVM, KNN, RF, LightGBM and XGBoost) were constructed for evaluating their discriminant performances of tobacco leaf maturity.The results showed that: (1) there was a strong correlation among the bands within the visible light (400-720 nm) or the near infrared (750-1000 nm) regions, while the correlation between the two regions was weak. (2) the 5 principal components (PC1-PC5) with eigenvalues greater than 1 almost contained all the hyperspectral information. The spectral reflectance characteristics of upper tobacco leaves with different maturity levels showed significant difference in visible light, red edge and part of near infrared region (950-1000 nm). (3) Among the 5 models, SVM has the best evaluation, with precision, recall and F1 scores for the samples in 2021 above 0.95, and for the samples in 2022 and 2021+2022 above 0.93 and 0.92 respectively.The hyperspectral data of the upper tobacco leaves exhibit multicollinearity, which has excellent dimensionality reduction effects. Moreover, there are significant differences in spectral reflectance characteristics at different maturity levels. The SVM discriminant performance has good stability across different years and can be used for determining the maturity of upper tobacco leaves .
portable hyperspectral imager; upper tobacco leaf; maturity; spectral characteristics; model construction and application
. Email:370926566@qq.com
湖北省烟草公司科技项目“基于高光谱成像的中棵烟长势长相及上部烟成熟度判别技术研究”(027Y2021-025)
邓建强(1984—),博士,高级农艺师,主要研究方向:植烟土壤资源利用与烟叶质量提升,Email:djq1djq2@sina.com
任晓红(1979—),农艺师,主要研究方向:烟叶栽培与质量评价,Email:370926566@qq.com
2023-02-10;
2023-08-01
邓建强,王大彬,乾艳,等. 基于高光谱成像技术的烤烟上部烟叶成熟度光谱特征分析及判别模型构建应用研究[J]. 中国烟草学 报,2024,30(1). DENG Jianqiang, WANG Dabin, QIAN Yan, et al. Spectral characteristics analysis and discriminating model construction of flue-cured upper tobacco leaves with different maturity based on hyperspectral imaging technology[J]. Acta Tabacaria Sinica, 2024,30(1). doi:10.16472/j.chinatobacco.2023.T0014