梅吉帆,李智慧,李嘉康,苏子淇,徐 波,堵劲松,徐大勇*,李华杰
(1.中国烟草总公司郑州烟草研究院 烟草工艺重点实验室,河南 郑州450001;2.福建中烟工业有限责任公司,福建 厦门361021)
配方烟丝是叶丝、梗丝、膨胀丝、薄片丝等组分按配方比例均匀掺配后得到的产品。梗丝、膨胀丝、薄片丝的掺配,对降低卷烟成本、降焦减害、改善感官质量有重要意义[1-4]。因此,快速准确地测定各组分在产品中的比例,对于保持产品质量、考查各组分的配方设计目标值、稳定烟丝混合工艺质量及同质化生产具有重大意义[5]。目前,有关各组分比例测定的研究已有较多报道,林慧等[6]利用膨胀丝在无水乙酮中的漂浮率远高于其他组分,提出一种基于乙酮比重法的膨胀丝组分比例测定方法;李斌等[7]通过建立烟丝梗丝含量与热解曲线突变温度区间的拟合模型,实现了烟丝中梗丝含量的预测;胡立中等[5]利用近红外光谱技术,建立了梗丝、薄片丝在烟丝中比例的预测模型。但这些技术都存在对测试样品具有破坏性、测试周期长、时效性差等不足。因此,研究一种快速、无损、准确的配方烟丝组分判别方法极其重要。
高光谱成像技术(Hyperspectral imaging,HSI)结合了传统计算机视觉与光谱分析技术的特点,将传统二维成像技术和光谱技术有机结合,可以同时获取样品的详细光谱信息和图像信息[8]。目前近红外高光谱技术在食品安全和质量无损检测领域的研究逐年增多。赵冬娥等[9]利用主成分分析法提取3种类别垃圾的参考光谱,使用光谱角度填图法和Fisher判别方法,实现了纸质、塑料、木质垃圾的准确分类,分类准确度可达99%。冯朝丽等[10]通过提取全波段感兴趣区域的玉米平均相对反射光强作为分类特征,结合偏最小二乘判别(PLS-DA)分类模型实现了玉米品种的分类。李江波等[11]基于高光谱成像技术,结合主成分分析法和波段比算法对溃疡果进行分类识别,准确率可达95.4%。
本研究拟通过近红外高光谱成像技术进行配方烟丝组分判别的可行性考察,探索建立面对像素的配方烟丝4种组分的支持向量机判别模型及结果可视化,并建立面对样本的配方烟丝4种组分支持向量机和K近邻定性判别模型,以期为后续利用判别结果进行组分比例测定提供支撑。
实验研究对象为某品牌某一批次产品的配方烟丝组分(叶丝、梗丝、薄片丝、膨胀丝),于掺配生产线上获取。在进行高光谱数据采集前,将烟丝样品平摊放置于托盘内,置于70%环境湿度,25℃环境温度的恒温恒湿室内平衡48 h,以降低水分对近红外光谱的影响。
(1)面对像素的烟丝组分判别实验:每次取样40 g,作为1个样本,均匀平铺在35 cm×20 cm内径的托盘内,厚度大于5 mm。建模集样品A1~D1分别为40 g的叶丝、梗丝、薄片丝和膨胀丝。预测集样品A2:32 g叶丝8 g梗丝,样品B2:32 g叶丝8 g薄片丝,样品C2:32 g叶丝8 g膨胀丝。分别于光谱通道的首、中、尾部选取一通道合成红绿蓝三通道合成图(Red-green-blue,RGB),因以第1、第100、第204通道(分别代表1 000.07、1 541.55、2 178.77 nm)合成的RGB图对4种组分有很好的辨识力,所以选取此三通道合成的RGB图展示样品。图1为建模样品的RGB图。
图1 建模样本的RGB图Fig.1 RGB images of modeling samples
(2)面对样本的烟丝组分判别实验:每次取样10 g,作为1个样本,置于120 mm内径的培养皿内,厚度大于5 mm。每种组分样本数均为100,共计400个样品。图2给出了4种组分样品的RGB图。按照3∶1的比例划分建模集和测试集,建模集和预测集的样本数分别为300个和100个。
图2 4种配方烟丝组分的RGB图Fig.2 RGB images of four components in formula tobacco
本实验的高光谱数据由图3所示的高光谱成像系统获取。整个系统由成像镜头(OLES30,Finland)、短波高光谱相机(Image-λ-N25E-HS)、电动载物台、4个50 W的卤素灯和计算机等组件构成。光谱采集范围为1 000~2 500 nm,光谱分辨率为5.4 nm,图像分辨率为384×893。
1.2.1 图像采集与校正将样品放置在电动载物台上,使电动载物台以1.2 cm/s的速度带动样本经过相机视场进行线阵扫描,完成整个烟丝样本的数据采集。选定的载物台移动速度应保证提供横轴和纵轴相等的空间分辨率,并避免图像尺寸失真且需适合设定的相机曝光时间[12]。图像采集过程由系统配有的Spec View软件控制。为了校正来自相机暗电流的原始图像I,提高信噪比,在与样品图像采集相同的系统参数下,首先扫描反射率为99%的标准白色校正板得到全白的标定图像W;然后通过内置的黑板得到全黑的标定图像B。最后根据公式(1)计算得到校正后的图像R。
1.2.2 感兴趣区的选取及光谱数据的提取主成分分析(Principal component analysis,PCA)是高光谱数据常用的一种高维数据降维方法,可将高维数据线性变换到一个新的坐标系统,以增强信息含量、降低噪声[13]。基于此,对获取的校正后图像进行PCA,选取第一主成分图像作为感兴趣区选取对象,再通过直方图阈值的方式选取感兴趣区(Region of interest,ROI)。
提取样本ROI所有像素点光谱数据作为面对像素的组分判别研究数据,以兴趣区内所有点的像素平均光谱作为面对光谱的组分判别研究数据。获取的光谱波长范围为1 000~2 500 nm,对此区域光谱数据的稳定性进行分析,其中2 200 nm之后的数据噪声较大,先行剔除。选取1 000~2 200 nm范围内的数据进行后续分析,获取的数据有217个光谱维度。研究中所有的高光谱数据采集、校正均基于Spec View软件平台,感兴趣区的选取、光谱数据的提取及后续的数据预处理、特征波长选择、分类模型的建立均基于Python3.7软件。
连续投影算法(Successive projections algorithm,SPA)是一种有效的前向循环特征波长提取方法,在光谱分析领域得到了广泛应用[14-15]。SPA能够从光谱信息中充分寻找含有最低限度冗余信息的波长组合,以代表样品最大信息量[16]。
二阶导数法(Second derivative,SD)通过数学模拟,计算不同波段下的二阶导数值[17]。由于二阶导数光谱具有更加尖锐、明显的波峰和波谷,而波峰波谷往往对应着某类化学物质,且不同物质在此位置的差异也会更明显,因此通过对二阶导数光谱的波形进行分析,能迅速确定光谱变化明显的波长位置,选择的特征波长具有很好的可解释性。
为了可视化配方烟丝4种组分间的差异性,对4种组分建模集样品A1、B1、C1、D1(分别代表叶丝、梗丝、薄片丝、膨胀丝)的点光谱数据进行主成分分析。从4个样品中共提取402 368个点光谱数据,对其进行二阶导数和11点0阶萨维茨基-戈莱平滑(SG)滤波处理,将得到的数据作为后续分析光谱数据。主成分分析得到的分数通常可显示样品的内在信息[18],获取的前5个主成分(PCs)的累积方差贡献率达95.21%,解释了大多数的光谱变量。图4A为4种组分样品点光谱数据在前3个主成分下的3D主成分得分分布图。由图可知,尽管不同组分间的得分分布相互重叠,但同一组分内的分布更加集中,形成不同的区域。因此,虽然可以获得较为直观的分类结果,但建立面对像素的4种组分的同时判别模型较难实现,需要进行更深入的研究。为简化模型,考察了实际应用中最常见的叶丝中掺配某一组分的情况,即叶丝与梗丝、叶丝与薄片丝、叶丝与膨胀丝的判别,其光谱数据得分图见图4B~D。由得分分布可知,叶丝与梗丝、叶丝与薄片丝面对像素的判别可行性很高,叶丝与膨胀丝则可行性较低。
图4 面对像素数据在主成分上的3D主成分得分图Fig.4 Pixel-wise 3D PCA scatter plots of PCs
基于以上研究,以建模集样品的点光谱数据建立叶丝与梗丝、叶丝与膨胀丝、叶丝与薄片丝的支持向量机(SVM)判别模型,并用建立的模型来判别预测样本A2、B2、C2中的烟丝分布情况。图5为实际分布与分类结果图,对比可知,叶丝与梗丝(图A1、A2)、叶丝与薄片丝(图B1、B2)虽然在叶丝的边缘区域存在少量误分情况,但整体上很好地完成了叶丝与梗丝、叶丝与薄片丝的判别任务。而叶丝与膨胀丝的实际分布图(图C1)和分类分布图(图C2)显示:两者的误分情况较前两种判别结果明显增多,建立的SVM模型判别率较低。综上可知,建立的叶丝与梗丝、叶丝与薄片丝的SVM分类模型很好地完成了组分判别任务,叶丝与膨胀丝的SVM分类效果不佳,该结果也验证了基于3D主成分得分分布图得出的结论,即基于点像素数据进行叶丝与梗丝、叶丝与薄片丝的组分判别较易实现,通过后续的模型优化,可以得到更加可靠稳健的判别模型;而基于点像素数据进行叶丝与膨胀丝的组分判别较难实现,需要深入的研究。
图5 预测样本中的实际分布(A1、B1、C1)与分类结果(A2、B2、C2)的对比图Fig.5 Comparison image of actual distribution(A1,B1,C1)and classification results of predicting samples(A2,B2,C2)
在面对样本的研究中,分析及分类的数据为样品的平均光谱。
2.2.1 不同配方烟丝组分的原始光谱及二阶导数光谱特征图6为不同配方烟丝组分的平均光谱图,不同组分的烟丝样品有着相似的光谱模式,在1 190、1 470、1 940 nm处均存在明显吸收峰;不同组分的烟丝样品在某些波段上的反射率存在着较为明显的差异,证实了基于近红外高光谱技术进行组分判别的可行性。
图6 梗丝、叶丝、薄片丝、膨胀丝样本的平均光谱曲线Fig.6 Average spectral curve of cut stem,cut lamina,reconstituted tobacco and expanded tobacco samples
虽然4种组分的平均原始光谱数据呈现出较好的可分性,但因样品不均匀及光谱数据基线偏移带来的误差,导致建立的模型不稳定。本研究拟通过结合滤波的二阶导数对光谱数据进行预处理。该方法能在一定程度上消除样品表面不均匀及光谱数据基线偏移带来的影响,同时可将原始光谱的扩展最大值分解为许多尖锐而不重叠的峰,获得更多隐藏在原始光谱中的重要光谱细节和光谱特征主要变化的定位点,从而使得光谱的解释比原始光谱更容易[19]。图7为4种组分预处理后得到的二阶导数光谱。由图可知,相对于原始光谱,二阶导数光谱具有更加尖锐、明显的吸收峰和吸收谷,便于确定吸收峰和吸收谷位置对应的波长。二阶导数光谱的对应波峰和波谷位置与原始光谱不完全一致,而是分布在原始光谱波峰波谷所在区间内,说明二阶导数光谱可以揭示隐藏在原始光谱内的光谱细节,从而更准确地提取对配方烟丝的组分判别最有效的特征波长。
图7 梗丝、叶丝、薄片丝、膨胀丝样本的平均二阶导数光谱曲线Fig.7 Average second derivative spectral curve of cut stem,cut lamina,reconstituted tobacco and expanded tobacco samples
2.2.2不同方法提取特征波长比较采用特征波长可降低高光谱数据的高维性,并使分类的判别模型更加可靠。分别通过连续投影算法和二阶导数法获取特征波长。
(1)连续投影算法在连续投影算法中,将数据分为建模集和验证集,通过建模集选取特征波长建立多元回归模型,计算预测集的均方根误差(RMSE),选取含最小RMSE的特征波长组合。本研究中,设定的波段数目范围为4~10,当选取的波长数为6时,达到最小的RMSE(0.072 61)。选取的6个特征波长为1 408、1 608、1 658、2 013、2 084、2 151 nm。
(2)二阶导数法选取二阶导数光谱上对烟丝组分分类有较强判别力的波峰波谷(1 391、1 441、1 880、1 913 nm)位置作为特征波长。
2.2.3 配方烟丝4种组分的判别模型基于二阶导数光谱全波段数据及不同特征提取方法提取的特征波长,建立K近邻(KNN)和SVM模型,其组分判别模型结果如表1所示。以训练集十折内部交叉验证得到的平均判别正确率和测试集判别正确率对判别模型进行评估。基于二阶导数光谱全波段数据建立的两种判别模型的训练集和测试集的正确判别率均为100%,表明利用二阶导数光谱可以很好地执行配方烟丝中4种组分的判别任务;以SPA算法选出的特征波长建立的KNN和SVM判别模型,测试集准确率达到90%,训练集准确率达到100%。以二阶导数法选取的特征波长建立的KNN和SVM模型,训练集准确率达到95%以上,测试集准确率达到86.97%。建立的模型都较好地完成了组分判别的任务,且降低了模型的复杂度和工业应用成本;SVM模型可以避免KNN模型的过拟合现象,后续选取SVM模型作为本研究的最佳分类器。
表1 基于二阶导数光谱数据及特征波长对配方烟丝4种组分的判别结果Table 1 Results of classification models using second derivative spectral data and the selected wavelengths for discriminating four components
2.2.4 最佳波段选择在上述研究中,利用特征波长提取算法筛选出了对配方烟丝4种组分具有较高判别力的特征波长组合,应用中可采用多光谱仪器进行数据的获取。为了进一步探究降低工业应用成本的可行性,尝试在上述选取的特征波长组合中挑选出具有高判别力的特征波长,建立单波长的判别模型。将二阶导数法和SPA法提取出的各特征波长结合SVM建立单变量模型,每个单波长在测试集上的准确率如图8所示。可以看出,大部分特征波长的判别效果较好,其中1 441、1 608、1 658、1 880、2 151 nm的组分判别准确率均达到90%以上,证实了基于单波长进行面对样本的配方烟丝组分判别的可行性,同时也为配方烟丝4种组分检测仪器的开发提供了理论支持。
图8 基于单一特征波长的组分判别率Fig.8 Discrimination rates based on the single characteristic wavelength
本研究利用近红外高光谱成像技术开展了面对像素、面对样本的配方烟丝4种组分(叶丝、梗丝、薄片丝、膨胀丝)的判别研究,采用二阶导数法结合萨维茨基-戈莱平滑滤波对光谱数据进行预处理。在面对像素的组分判别研究中,通过点像素的主成分分析,证实了基于此技术对叶丝与梗丝、叶丝与薄片丝进行组分判别的可行性,以前5主成分数据建立的支持向量机判别模型的可视化结果证明了这一点。在面对样本的组分判别研究中,通过二阶导数光谱建立的支持向量机和K近邻模型都达到了100%的组分判别率,为降低工业应用成本,通过二阶导数法和连续投影算法筛选出特征波长,建立的特征波长组合和单波长的支持向量机模型的判别正确率达86.97%。