近红外光谱技术识别烤烟香气风格的研究

2014-08-08 04:01张秋菊田旷达李祖红吕亚琼熊艳梅闵顺耕
现代仪器与医疗 2014年4期
关键词:最小二乘支持向量机辛香焦香

张秋菊++田旷达++李祖红++吕亚琼++熊艳梅++闵顺耕

[摘要]目的:研究烤烟香气风格中焦香、辛香、甜香等香韵的识别技术。方法:采用近红外光谱技术结合最小二乘支持向量机(LS-SVM)模式识别方法。烟叶粉末的近红外漫反射光谱经过波长范围选择和多种预处理优化后输入模型,使用k折交互验证和多层网格法优化LS-SVM模型参数,建立三种香韵识别模型。结果:焦香、甜香、辛香的识别准确率CR分别为94.7%、88.9%、 94.8%,ROC曲线下面积AUC分别为0.99、0.99、1.00。结论:说明使用近红外光谱技术结合LS-SVM方法可有效识别烤烟香气风格。

[关键词]近红外;最小二乘支持向量机;香气风格;焦香;辛香;甜香

中图分类号:O657文献标识码:A文章编号:2095-5200(2014)04-066-03

DOI:10.11876/mimt201404021

A study of recognition of tobacco aroma style using near infrared spectroscopy ZHANG Qiu-ju1,TIAN Kuang-da2,LI Zu-hong1,LYU Ya-qiong1,XIONG Yan-mei2,MIN Shun-geng2.(1. Qujing Tobacco Company, 655000, China;2. China Agricultural University, 100193, China)

[Abstract]A method combined with near infrared (NIR) spectroscopy and least squares–support vector machine (LS-SVM) was applied to study identification technology of tobacco aroma styles. The NIR spectrum of the tobacco powder were preprocessed by a wavelength selection technique and several pretreatment methods including smoothing, multiplicative scatter correction and standard normal variate transformation. The LS-SVM identification models for three kinds of tobacco aroma styles were built, after optimizing parameters by k–fold cross validation and multilayer grid search. The values of accuracy rate of burnt aroma, spice aroma and sweetness aroma model were 94.7%, 88.9% and 94.8%, respectively. And the area under AOC curve were 0.99, 0.99 and 1.00, respectively. The overall results show that NIR spectroscopy combined with LS-SVM can be efficiently utilized for rapid and accurate identification of tobacco aroma styles.

[Key words]near infrared;least squares-support vector machine;tobacco aroma styles;empyreumatique;spicier前言

烟草的风格特征包括香型、香韵、香气状态、烟气浓度和劲头。焦香、辛香、甜香等香韵是烤烟香气风格的重要指标,是卷烟企业配方设计、原料采购的参考依据,主要依靠评吸人员抽吸燃烧烟叶产生的烟气进行感官评定。烟叶的香气风格是其所含化学成分在烟气特征上的表现,化学成分与感官评吸关系已得到充分研究[1-2]。由于近红外光谱携带有机物分子含氢基团(C-H、N-H、O-H等)伸缩振动的倍频与合频信息,使用近红外光谱技术(NIR)分析烟草香气风格从理论上可行。近红外光谱结合化学计量学的分析技术具有快速、无损、多组分同时分析的优势[3]。支持向量机(SVM)[4]基于统计学习理论,通过核函数将非线性求解转化为在高维空间中线性求解,能够解决线性和非线性分类问题。最小二乘支持向量机(LS-SVM)[5]是SVM的扩展算法,使用误差的二范数作为损失函数,将二次规划问题转为线性规划,大幅简化运算,具有收敛快、稳定、推广性强的优点。本文研究目的是探究NIR结合LS-SVM方法建立分类模型以准确识别烤烟焦香、辛香、甜香等香气风格特点的可行性。

1实验部分

1.1试剂与仪器

167个烟叶样品采集自云南省曲靖市烟区。质量评吸数据来自云南瑞升烟草技术有限公司。近红外光谱仪为布鲁克公司的MATRIX-I(Bruker Optics, Bremen, Germany)。

1.2实验过程

按照标准YC/T 31-1996,烟叶经过烘干、研磨制备成粉末样品。将烟叶粉末装入样品杯,摇匀后压实,放置在MATRIX-I旋转采样台上。漫反射积分球收集样品近红外光谱,使用内置的陶瓷片作为参比。谱区采集范围为10000-4000cm-1,光谱分辨率为8cm-1,扫描次数为64。

使用模式识别方法研究烟叶的近红外光谱数据与评吸结果中香气风格(焦香、甜香、辛香)评分的统计关系。划分校正集和验证集,选择光谱波长范围,挑选合适的预处理方法,分别建立焦香、甜香、辛香的LS-SVM分类模型,交互验证法优化模型参数,评价模型的预测性能。数据处理使用MATLAB 7.0(The Math Works, Natick, USA)。

2结果与讨论

2.1样品挑选与波长选择

图1所示为167个烟叶粉末样本的近红外漫反射光谱。图2是烟叶评吸结果中的焦香、辛香、甜香得分数据统计,三种香韵的评分范围分别是0~1,0~4,0~3。由于评吸数据的主观性强,精确度低,近红外光谱与感观数据无法建立准确的定量关系。按评分的高低,将烟草样本划分为香型明显和香型不明显两类,从模式识别角度研究烟草样本是否具有焦香、辛香或甜香特征,分类标准见表1。

受测试环境和仪器状态影响存光谱中存在异常样本,为提高模型预测性能,使用主成分分析和马氏距离结合的PCA-MD方法找出杠杆指大于平均值3倍的样本。8个样本的光谱判断为异常数据并剔除,占样本总量的5%。

图1中水蒸气峰在5500cm-1和7300cm-1附近引起光谱波动,通过2阶导数光谱对噪声的放大作用找出水蒸气峰的准确位置:5150cm-1~5570cm-1,7000cm-1~7400cm-1。波长8750cm-1以下仪器的检测器灵敏度较低,并且该区域是有机分子的4倍频吸收,光谱信噪比低。选择这些区域以外的波长范围作为模式识别模型的光谱输入数据。

endprint

固体粉末的近红外漫反射光谱通常受到光的散射效应的影响,光谱曲线基线出现漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和标准正态变量变换(SNV)消除散射。平滑1、2阶求导和标准化变换也是常用的光谱预处理方法。尝试使用多种预处理方法及其组合处理原始光谱数据和波长选择后的光谱数据,选择使得回归模型性能最佳的预处理方案。

识别模型使用K折交叉验证的平均预测准确率(CR)和ROC曲线下面积(AUC)作为评价标准。ROC曲线由所评价模型的不同阈值对应的真正率和假正率构成,曲线下积分面积作为模型优劣的指标。

2.2LS-SVM模式识别

2.2.1焦香识别模型Kennard-Stone(K-S)[6]方法从71个焦香样本(焦香得分1)和72个非焦香样本(焦香得分0)中各选择最具代表性的30个样本组成校正集,其余的83个样品组成验证集。首先由10折交互验证的预测准确率(CR)选定最优预处理方法,部分预处理方法的模型预测结果如表2所示。对于焦香识别模型,标准化处理对模型最为有效,CR为0.9354。

表2焦香、辛香、甜香LS-SVM模型光谱预处理效果

Preprocess CR(%)1) CR(%)2) CR(%)3)

Original4) 0.9065 0.8415 0.8795

None 0.9157 0.8620 0.9362

MSC 0.8791 0.8995 0.9100

SNV 0.8543 0.8732 0.9399

autoscaling 0.9354 0.8752 0.9420

SG smoothing 0.9079 0.8921 0.9245

SG 1st derivative 0.8816 0.8852 0.9111

SG 2nd derivative 0.9035 0.8751 0.9045

MSC + SG smoothing 0.9120 0.8573 0.9414

SNV+SG 1st derivative 0.8289 0.9025 0.9517

注:1) 焦香模型识别准确率;2)甜香模型识别准确率;3)辛香模型识别准确率;4)未做波长选择的原始光谱,其余均为波长选择后的处理。

正则化参数λ优化、核函数选择和核函数参数优化是LS-SVM的三个关键问题。由于RBF核的紧致性和计算复杂度的考虑,选用RBF核作为LS-SVM模型核函数,使用网格搜索结合10折交叉验证同时优化正则化参数λ和核宽σ2。设置多层搜索网格,λ和σ2初始优化范围由经验值确定,均设置成e-5 ~ e25,每层网格节点个数19×19,评价函数采用10折交叉验证的均方根误差(MSE),相邻层网格最优MSE差值小于10-4时迭代收敛,最大迭代网格层数为3。

LS-SVM模型通过2层网格搜索即得到最优参数λ(e13.28)和σ2(e16.76)。建立最终的焦香识别LS-SVM模型,验证集的预测准确率CR为0.9474,ROC曲线下面积AUC为0.9910。

2.2.2甜香识别模型甜香(评分2.5、3、3.5)和非甜香(评分0、1)样本各有43个和33个,使用K-S方法从两类中各选择最具代表性的20个样本作为校正集,其余共36个样本作为验证集。预处理结果如表2所示,先SNV处理再求SG一阶导数,模型的交叉验证识别准确率最高,为0.9025。

使用网格搜索结合10折交叉验证优化λ和σ2。λ和σ2初始优化范围均为e0 ~ e15,每层网格节点数15×15,评价函数为10折交叉验证结果的均方根误差(MSE),收敛判据为MSE差值小于10-4,最大迭代网格层数为3。

LS-SVM模型经过两层网格搜索得到最优参数λ为e11.30,σ2为e4.48。建立最终的甜香识别LS-SVM模型,CR为0.8889,AUC为0.9900。

2.2.3辛香识别模型K-S方法从42个非辛香样本(评分0, 1)和46个辛香样本(评分2, 2.5)中分别选择最具代表性的25个作为校正集,其余共38个样品作为验证集。预处理效果如表2所示,选择先做SNV处理再求SG一阶导数作为光谱预处理方法建立辛香的LS-SVM分类模型。

λ和σ2初始范围设置为e0 ~ e15,网格节点数19×19。LS-SVM模型经过3层网格搜索得到最优参数λ为e8.65,σ2为e13.60。使用这些参数建立最终的辛香识别LS-SVM模型,验证集的预测准确率为0.9483,ROC曲线下面积AUC为0.9971。

3结论

本文研究了烟草评吸中焦香、甜香、辛香三种香气风格的近红外光谱识别方法。选择光谱波长范围,优化预处理方法,建立LS-SVM分类模型。最终焦香的识别准确率CR为94.7%,ROC曲线下面积AUC为0.99;甜香识别模型的CR为88.9%,AUC为0.99;辛香识别模型的CR为94.8%,AUC为1.00。说明使用近红外光谱技术结合LS-SVM方法快速、准确地识别烤烟香气风格特征是可行的。

参考文献

[1]李洪勋,潘文杰,李建伟,等.烤烟内在化学成分分析与感官评吸指标的关系分析[J].湖北农业科学,2013,52(8):1837-1841.

[2]张燕,马林,孔留艳,等.卷烟香气风格特征聚类分析[J].食品工业,2012,33(8): 152-155.

[3]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社.2011:23.

[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.

[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.

[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.

endprint

固体粉末的近红外漫反射光谱通常受到光的散射效应的影响,光谱曲线基线出现漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和标准正态变量变换(SNV)消除散射。平滑1、2阶求导和标准化变换也是常用的光谱预处理方法。尝试使用多种预处理方法及其组合处理原始光谱数据和波长选择后的光谱数据,选择使得回归模型性能最佳的预处理方案。

识别模型使用K折交叉验证的平均预测准确率(CR)和ROC曲线下面积(AUC)作为评价标准。ROC曲线由所评价模型的不同阈值对应的真正率和假正率构成,曲线下积分面积作为模型优劣的指标。

2.2LS-SVM模式识别

2.2.1焦香识别模型Kennard-Stone(K-S)[6]方法从71个焦香样本(焦香得分1)和72个非焦香样本(焦香得分0)中各选择最具代表性的30个样本组成校正集,其余的83个样品组成验证集。首先由10折交互验证的预测准确率(CR)选定最优预处理方法,部分预处理方法的模型预测结果如表2所示。对于焦香识别模型,标准化处理对模型最为有效,CR为0.9354。

表2焦香、辛香、甜香LS-SVM模型光谱预处理效果

Preprocess CR(%)1) CR(%)2) CR(%)3)

Original4) 0.9065 0.8415 0.8795

None 0.9157 0.8620 0.9362

MSC 0.8791 0.8995 0.9100

SNV 0.8543 0.8732 0.9399

autoscaling 0.9354 0.8752 0.9420

SG smoothing 0.9079 0.8921 0.9245

SG 1st derivative 0.8816 0.8852 0.9111

SG 2nd derivative 0.9035 0.8751 0.9045

MSC + SG smoothing 0.9120 0.8573 0.9414

SNV+SG 1st derivative 0.8289 0.9025 0.9517

注:1) 焦香模型识别准确率;2)甜香模型识别准确率;3)辛香模型识别准确率;4)未做波长选择的原始光谱,其余均为波长选择后的处理。

正则化参数λ优化、核函数选择和核函数参数优化是LS-SVM的三个关键问题。由于RBF核的紧致性和计算复杂度的考虑,选用RBF核作为LS-SVM模型核函数,使用网格搜索结合10折交叉验证同时优化正则化参数λ和核宽σ2。设置多层搜索网格,λ和σ2初始优化范围由经验值确定,均设置成e-5 ~ e25,每层网格节点个数19×19,评价函数采用10折交叉验证的均方根误差(MSE),相邻层网格最优MSE差值小于10-4时迭代收敛,最大迭代网格层数为3。

LS-SVM模型通过2层网格搜索即得到最优参数λ(e13.28)和σ2(e16.76)。建立最终的焦香识别LS-SVM模型,验证集的预测准确率CR为0.9474,ROC曲线下面积AUC为0.9910。

2.2.2甜香识别模型甜香(评分2.5、3、3.5)和非甜香(评分0、1)样本各有43个和33个,使用K-S方法从两类中各选择最具代表性的20个样本作为校正集,其余共36个样本作为验证集。预处理结果如表2所示,先SNV处理再求SG一阶导数,模型的交叉验证识别准确率最高,为0.9025。

使用网格搜索结合10折交叉验证优化λ和σ2。λ和σ2初始优化范围均为e0 ~ e15,每层网格节点数15×15,评价函数为10折交叉验证结果的均方根误差(MSE),收敛判据为MSE差值小于10-4,最大迭代网格层数为3。

LS-SVM模型经过两层网格搜索得到最优参数λ为e11.30,σ2为e4.48。建立最终的甜香识别LS-SVM模型,CR为0.8889,AUC为0.9900。

2.2.3辛香识别模型K-S方法从42个非辛香样本(评分0, 1)和46个辛香样本(评分2, 2.5)中分别选择最具代表性的25个作为校正集,其余共38个样品作为验证集。预处理效果如表2所示,选择先做SNV处理再求SG一阶导数作为光谱预处理方法建立辛香的LS-SVM分类模型。

λ和σ2初始范围设置为e0 ~ e15,网格节点数19×19。LS-SVM模型经过3层网格搜索得到最优参数λ为e8.65,σ2为e13.60。使用这些参数建立最终的辛香识别LS-SVM模型,验证集的预测准确率为0.9483,ROC曲线下面积AUC为0.9971。

3结论

本文研究了烟草评吸中焦香、甜香、辛香三种香气风格的近红外光谱识别方法。选择光谱波长范围,优化预处理方法,建立LS-SVM分类模型。最终焦香的识别准确率CR为94.7%,ROC曲线下面积AUC为0.99;甜香识别模型的CR为88.9%,AUC为0.99;辛香识别模型的CR为94.8%,AUC为1.00。说明使用近红外光谱技术结合LS-SVM方法快速、准确地识别烤烟香气风格特征是可行的。

参考文献

[1]李洪勋,潘文杰,李建伟,等.烤烟内在化学成分分析与感官评吸指标的关系分析[J].湖北农业科学,2013,52(8):1837-1841.

[2]张燕,马林,孔留艳,等.卷烟香气风格特征聚类分析[J].食品工业,2012,33(8): 152-155.

[3]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社.2011:23.

[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.

[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.

[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.

endprint

固体粉末的近红外漫反射光谱通常受到光的散射效应的影响,光谱曲线基线出现漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和标准正态变量变换(SNV)消除散射。平滑1、2阶求导和标准化变换也是常用的光谱预处理方法。尝试使用多种预处理方法及其组合处理原始光谱数据和波长选择后的光谱数据,选择使得回归模型性能最佳的预处理方案。

识别模型使用K折交叉验证的平均预测准确率(CR)和ROC曲线下面积(AUC)作为评价标准。ROC曲线由所评价模型的不同阈值对应的真正率和假正率构成,曲线下积分面积作为模型优劣的指标。

2.2LS-SVM模式识别

2.2.1焦香识别模型Kennard-Stone(K-S)[6]方法从71个焦香样本(焦香得分1)和72个非焦香样本(焦香得分0)中各选择最具代表性的30个样本组成校正集,其余的83个样品组成验证集。首先由10折交互验证的预测准确率(CR)选定最优预处理方法,部分预处理方法的模型预测结果如表2所示。对于焦香识别模型,标准化处理对模型最为有效,CR为0.9354。

表2焦香、辛香、甜香LS-SVM模型光谱预处理效果

Preprocess CR(%)1) CR(%)2) CR(%)3)

Original4) 0.9065 0.8415 0.8795

None 0.9157 0.8620 0.9362

MSC 0.8791 0.8995 0.9100

SNV 0.8543 0.8732 0.9399

autoscaling 0.9354 0.8752 0.9420

SG smoothing 0.9079 0.8921 0.9245

SG 1st derivative 0.8816 0.8852 0.9111

SG 2nd derivative 0.9035 0.8751 0.9045

MSC + SG smoothing 0.9120 0.8573 0.9414

SNV+SG 1st derivative 0.8289 0.9025 0.9517

注:1) 焦香模型识别准确率;2)甜香模型识别准确率;3)辛香模型识别准确率;4)未做波长选择的原始光谱,其余均为波长选择后的处理。

正则化参数λ优化、核函数选择和核函数参数优化是LS-SVM的三个关键问题。由于RBF核的紧致性和计算复杂度的考虑,选用RBF核作为LS-SVM模型核函数,使用网格搜索结合10折交叉验证同时优化正则化参数λ和核宽σ2。设置多层搜索网格,λ和σ2初始优化范围由经验值确定,均设置成e-5 ~ e25,每层网格节点个数19×19,评价函数采用10折交叉验证的均方根误差(MSE),相邻层网格最优MSE差值小于10-4时迭代收敛,最大迭代网格层数为3。

LS-SVM模型通过2层网格搜索即得到最优参数λ(e13.28)和σ2(e16.76)。建立最终的焦香识别LS-SVM模型,验证集的预测准确率CR为0.9474,ROC曲线下面积AUC为0.9910。

2.2.2甜香识别模型甜香(评分2.5、3、3.5)和非甜香(评分0、1)样本各有43个和33个,使用K-S方法从两类中各选择最具代表性的20个样本作为校正集,其余共36个样本作为验证集。预处理结果如表2所示,先SNV处理再求SG一阶导数,模型的交叉验证识别准确率最高,为0.9025。

使用网格搜索结合10折交叉验证优化λ和σ2。λ和σ2初始优化范围均为e0 ~ e15,每层网格节点数15×15,评价函数为10折交叉验证结果的均方根误差(MSE),收敛判据为MSE差值小于10-4,最大迭代网格层数为3。

LS-SVM模型经过两层网格搜索得到最优参数λ为e11.30,σ2为e4.48。建立最终的甜香识别LS-SVM模型,CR为0.8889,AUC为0.9900。

2.2.3辛香识别模型K-S方法从42个非辛香样本(评分0, 1)和46个辛香样本(评分2, 2.5)中分别选择最具代表性的25个作为校正集,其余共38个样品作为验证集。预处理效果如表2所示,选择先做SNV处理再求SG一阶导数作为光谱预处理方法建立辛香的LS-SVM分类模型。

λ和σ2初始范围设置为e0 ~ e15,网格节点数19×19。LS-SVM模型经过3层网格搜索得到最优参数λ为e8.65,σ2为e13.60。使用这些参数建立最终的辛香识别LS-SVM模型,验证集的预测准确率为0.9483,ROC曲线下面积AUC为0.9971。

3结论

本文研究了烟草评吸中焦香、甜香、辛香三种香气风格的近红外光谱识别方法。选择光谱波长范围,优化预处理方法,建立LS-SVM分类模型。最终焦香的识别准确率CR为94.7%,ROC曲线下面积AUC为0.99;甜香识别模型的CR为88.9%,AUC为0.99;辛香识别模型的CR为94.8%,AUC为1.00。说明使用近红外光谱技术结合LS-SVM方法快速、准确地识别烤烟香气风格特征是可行的。

参考文献

[1]李洪勋,潘文杰,李建伟,等.烤烟内在化学成分分析与感官评吸指标的关系分析[J].湖北农业科学,2013,52(8):1837-1841.

[2]张燕,马林,孔留艳,等.卷烟香气风格特征聚类分析[J].食品工业,2012,33(8): 152-155.

[3]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社.2011:23.

[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.

[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.

[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.

endprint

猜你喜欢
最小二乘支持向量机辛香焦香
《我的爸爸是药王》
卷烟主流烟气辛香特征成分组群的分布特征及感官贡献
夕阳是个大厨师
酿造原料对浅色全麦鲜啤酒质量的影响研究
叶天士药用芳香性味理论探析
基于最小二乘支持向量机的VaR计算方法研究
电子商务交易风险评估模型仿真分析
耐高温线椒新品种辛香16号的选育
耐高温线椒新品种辛香16号