近红外光谱在烤烟叶智能分类中的应用

2015-12-02 01:42萍,潘
制造业自动化 2015年18期
关键词:间隔波长烟叶

李 萍,潘 杰

LI Ping, PAN Jie

(郑州升达经贸管理学院 信息工程系,郑州 451191)

0 引言

河南是烟叶种植大省,烤烟叶的颜色、形状、香气、燃吸劲头等几大因素影响烟叶的品质做好烟叶的分级和收购工作十分重要,分级的好坏直接影响烟农的经济利益和后期生产出的卷烟质量。传统的人工分级主要从烟叶的色、味、型等因素着手分级,人工方法的分级准确率高低依赖于技术人员的工作经验的多寡和收购现场的环境。随着计算机和图像处理技术的发展,人们开始研究怎么从烤烟叶图像的特征实现烟叶的等级划分,如1988年Thomas C.E就将图像处理技术引入烟叶和成品卷烟测量领域[1];J.K.M.MacCormac运用图像分析处理方法对津巴布韦境内的烟叶做了识别[2];张建平等人通过研究烟草外观品质特征,提出了较为合理的定量检测方法,为研究烤烟叶分级测定仪器打下基础[3];韩力群教授提出结合神经网络的烟叶智能分级有很高的分级准确率[4]等,但是这些图像处理技术不能反映烟叶的内部化学特征。为解决这一缺陷可采用光谱分析的方法来对烤烟叶进行分级,光谱分析的方法主要依据烤烟叶的内部的化学成分的含量确定烟叶级别。谭仲夏等运用关联度的分析方法对烟叶的主要化学成分与其感官的质量进行了关联分析[5];张学平等对烟叶样本的化学成分进行特征差异分析,发现不同类别的烟叶的主要化学成分存在较为明显的差异[6],像成熟度、油分、厚度等这些特征主要表现在烟叶的内在化学成分的含量不同,在烤烟叶的光谱中表现为吸收峰强度和位置的差异。所以本文采用烤烟叶近红外光谱数据结合SVM的方法来进行烤烟叶的智能分级。

1 SVM分类的原理

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,支持向量机方法是建立在统计学习理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。设训练样本输入为xi,i=1,2,…,I,对应的期望输出为yi={+1,-1}。

图1 两类待分类的样本

图1表示对给定训练数据集做二值分类的问题,其中方块和圆圈分别代表空间中的+1类样本和-1类样本,在这里利用特征空间上的超平面对其进行分类,为了将两类样本分开,设用于分离的超平面方程为:

其中w是超平面的方向向量,b是超平面的常数项。最优分类线是指在将两类样本正确分开的基础上,使它们的间隔最大。在图1中,L1、L2分别为各类中离分类线L最近的样本,它们之间的距离叫做分类间隔。SVM的思想就是建立一个超平面来作为决策曲面,从而使两类样本之间的分类间隔最大,即相当于求其最大间隔。若定义满足式(2)或式(3)的特殊数据点(ui,vi)称为支持向量:

支持向量是哪些最接近最优分类超平面的点,这些数据点是最难分类的,在图1中的L1和L2上的点就叫支持向量。这样最优分类超平面就转化为求L1和L2之间的最大间隔。设L1的直线方程为式(2),L2的直线方程为式(3),u1,u2分别是L1和L2上的一点,则L1和L2之间的间隔为

将x1,x2带入式(2)和式(3)得:

最大间隔问题,最终归结为二次规划问题,即求式(7)的解:

对于一些线性不可分的样本数据,由于不能满足式(6),所以加入松弛因子来实现,即式(7)转化为:

2 数据的获取及预处理

本文的烤烟叶样本数据来自河南省烟草公司郑州市公司提供的2014年标准样本,有B2F、B3F、B4F、X2F、X3F、X4F、X2L、X3L、X4L、C2F、C3F、C2L、C3L共13组烤烟叶样本。光谱采集仪器采用的是岛津公司的分光光度计UV-3600,采集的光谱波长范围为300nm~2600nm,波长间隔为2nm,光谱类型包括:反射光谱和透射光谱。由于光谱数据存在一定的机器噪声,本文采取对原始光谱数据如下的预处理:

其中x为原始的烟叶样本波长吸收值向量,xi为预处理前的每个波长处吸收强度值,yi为对应的预处理后的每个波长处吸收强度值。通过预处理可以降低机器噪声对光谱数据的影响和除去光谱仪器采集时可能出现的基线漂移的影响。图2为B2F组烤烟叶的反射光谱和透射光谱。图3为B2F组烤烟叶的反射光谱和透射光谱的预处理后的效果。

图2 B2F反射光谱和透射光谱

图3 B2F反射光谱和透射光谱预处理后效果

3 实验结果及分析

本文是所用到的仿真环境是matlab R2009a,SVM软件包为frauto的libsvm-mat-2.89-3。选用反射光谱和透射光谱分别进行分部位、分等级实验。分类器选择SVM的RBF核函数和线性核函数两种,其中分类器的参数优化选择及由此所带来了的时间代价不在本文的研究范围之内,故未列出对比。但是,由于选择RBF核函数时需要优化惩罚因子C和参数,而线性核函数时只需要优化选择惩罚因子C,所以理论上选择线性核函数整体时间代价肯定小于RBF核函数的情况。

下面分别利用两种不同的核函数对相同等级相同颜色烤烟叶的不同部位进行测试,波长范围为1660nm~3000nm,测试数据如表1所示。

表1中组别:代表训练和测试的样本所属组别,例如C2L(54)表示C(中部)2等级L(柠檬黄)类烟叶样本的总数目为54片,Acc(RBF反)表示SVM选择RBF核函数时反射光谱训练和测试的准确率,同理Acc(线性反)表示选择线性核函数时反射光谱训练和测试的准确率,Acc(RBF透)表示选择RBF核函数时透射光谱训练和测试的准确率Acc(线性透)表示选择线性核函数时透射光谱训练和测试的准确率。

从以上表中数据可以看出:烤烟叶的反射光谱在分部位的准确率都比透射光谱的准确率高,测试样本分类准确率可达到85%以上。另外,在核函数的选择上,线性核函数的分类准确率高于RBF核函数。以上结论不仅仅适用于分部位测试,同样也适用于其他分类,并且能够满足工业生产的耗时需求。采用线性核函数,波长范围同样为1660nm~3000nm的近红外光对相同部位相同颜色不同等级的烤烟叶进行测试,表2为分等级的反射光谱训练和测试样本数和正确率:

从表2中的数据可以看出,采用线性核函数的烤烟叶反射光谱在分等级测试时依然有效,测试样本的识别率也都在85%以上;波长范围1660nm~3000nm,波长间隔10nm的烤烟叶的吸收光谱数据可以作为烟叶分级的数据选取有效波长范围和间隔,能够满足工业生产的耗时需求。从SVM支持向量机的理论基础和表中的训练样本数目的数据可以看出,SVM的分类方法对小样本、高维、非线性模式分类有很大优势,很适合烟叶光谱这种高维度、非线性的数据的分类。

表1 反射及透射光谱数据分部位准确率(RBF和线性两种核函数)

表2 反射光谱分等级训练和测试结果(波长间隔10nm)

4 结束语

通过本文仿真结果可以得出,烤烟叶的反射光谱在分部位和分等级的准确率都比透射光谱的准确率高,在核函数的选择上,线性核函数的分类准确率高于RBF核函数,选定1660nm~3000nm的波长范围和10nm的间隔作为烤烟叶的主组内分级数据的有效波长范围和间隔。通过仿真验证是有效且可靠的,这为以后烟叶分级的进一步研究奠定了基础;选用SVM支持向量机作为智能分级的算法核心并且选用线性核函数作为训练网络和分级的核心算法组成部分,为烟叶分级这种高维度、分线性数据样本的分类方法做了一定的探讨,仿真结果验证是可行的;最后,若将SVM支持向量机方法引进到烟叶的光谱数据分级中,其时间花费完全可以满足烟叶实时分级的工业级要求。

[1]Thomas C.E.Techniques of image analysis applied to the measurement of tobacco and related products[R].42nd Tobacco Chemists ’Research Conference,1988.

[2]J.K.M.MacCormac.On-line image processing for tobacco grading in Zimbabwe[R],1993,IEEE:327-371.

[3]张建平,吴守一,方如明.农产品质量的计算机辅助检验与分级(第Ⅰ报)烟叶外观品质特征的定量检验[J].农业工程学报,1996,12(3):158-162.

[4]韩力群,何为,段振刚,等.烤烟烟叶自动分级的智能技术[J].农业工程学报.2002,18(6):173-175.

[5]谭仲夏,秦西云.烟叶主要化学指标与其感官质量的灰色关联分析[J].广西民族大学学报(自然科学版).2008,11:67-72.

[6]陈学平,张良,郭家明,等.多个化学成分指标烟叶样品的聚类分析研究[J].中国烟草学报,2002,8(4):21-26.

[7]Vladimir Vapnik.统计学理论的本质[M].张学工,译.北京:清华大学出版社,2000.

猜你喜欢
间隔波长烟叶
杯中“日出”
间隔问题
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
关于新形势下烟叶生产可持续发展的思考
间隔之谜
基于频域分析方法的轨道高低不平顺敏感波长的研究
三种波长发光二极管光对光老化皮肤的作用研究
上楼梯的学问
湘西上部烟叶化学成分特征及聚类分析
晾晒烟叶模块在烤烟型卷烟中的应用