宾俊,周冀衡,范伟,李鑫,梁逸曾,肖志新,李春顺
1 湖南农业大学,生物科学技术学院,湖南长沙农大路1号 410128;2 中南大学,化学化工学院,湖南长沙麓山南路932号 410083;3 云南省烟草公司保山市公司,云南保山正阳北路186号 678000;4 江苏中烟工业有限责任公司,江苏南京梦都大街30号 210019
基于NIR 技术和ELM 的烤烟烟叶自动分级
宾俊1,周冀衡1,范伟1,李鑫1,梁逸曾2,肖志新3,李春顺4
1 湖南农业大学,生物科学技术学院,湖南长沙农大路1号 410128;2 中南大学,化学化工学院,湖南长沙麓山南路932号 410083;3 云南省烟草公司保山市公司,云南保山正阳北路186号 678000;4 江苏中烟工业有限责任公司,江苏南京梦都大街30号 210019
为解决初烤烟叶收购中人工分级主观因素影响较大的问题,提出了一种基于近红外(NIR)光谱技术结合极限学习机(ELM)算法自动鉴别烟叶等级的方法。文章首次提出基于品质相似、价格接近原则的烟叶收购分组方法,通过交互检验优化ELM分组、分级模型的隐节点数,并与K最近邻法(KNN)、支持向量机(SVM)和随机森林(RF)等多分类算法进行了比较。结果表明:ELM分类模型参数自动优化、训练时间短、稳定性和预测能力较好,2014年(数据集A)、2015年(数据集B)烟叶收购国标样本上、中、下等烟外部预测分组正确率分别为95.77%和94.23%,数据集A和B的上、中、下等烟各组样本外部预测分级正确率分别为85.71%、86.67%、100%和100%、92.86%、92.86%。因此,采用NIR技术结合ELM能准确鉴别初烤烟叶等级,可为烤烟烟叶收购质量等级评价提供一种新技术。
烟叶分级;近红外光谱;极限学习机;分类模型;多分类算法
烤烟作为重要的经济作物,其品质检验与等级划分必须严格规范。目前,烤烟烟叶分级是根据烟叶的成熟度、叶片结构、身份、油分、色度、长度和伤残等因素进行的等级优劣划分,由于现行的42级分级标准中大部分烟叶等级特征的规定仅是对外观定性的描述,分级人员无法对烟叶等级进行定量评判。同时,由于当前主要的烟叶分级方式依靠分级人员的感官和经验来判断,而不同人的感官、经验以及对标准的理解都存在一定差异,单凭感官评定带有较强的主观性和经验性,易导致烟叶收购等级评定不准确,严重阻碍了烟叶的收购和卷烟生产。
因此,为了避免烟叶收购过程中分级人员的主观随意性对级别评定的影响,采用自动智能技术替代人工对烟叶进行等级划分[1-4]是烟草工业发展的趋势。当前,烟叶自动分级技术的研究获得了较大发展,主要可分为以下几个方面:(1)利用机器视觉技术提取烟叶特征信息结合BP神经网络、ANN和SVM等神经网络算法建立分类模型[5-10],实现烟叶等级的划分,但此类方法仅提取了烟叶的表面特征,对烟叶这种复杂生物样本的分类准确度偏差较大。(2)基于模糊数学、粗糙集理论等理论数学方法结合烟叶化学指标建立烟叶分级决策规则[11-12],实现烟叶的分组、分级,但化学指标测量耗时,规则推理复杂,分级正确率不高。(3)利用红外、近红外(NIR)等光谱技术结合DA、SVM等化学计量学算法建立烟叶的分级模型[13-14],可实现对烟叶的快速分级。由于NIR光谱技术是一种快速、简单、非破坏性的分析技术,在食品、制药、烟草、石化、纺织、农产品等领域得到了广泛应用[15-17],其不仅可以获取烟叶颜色等外观特征,同时也可反映烟叶内在品质信息,较人工、图像视觉提取技术和数学推理方法等分级技术有天然的优势,故而,NIR光谱技术结合一种优秀建模方法是烟叶快速分级的不错选择。
鉴于此,本文提出了基于NIR光谱技术结合极限学习机(ELM)[18-20]的初烤烟叶快速分级方案,该方案充分利用两者的优势,构建了烟叶快速分级模型;同时还首次提出基于品质相似、价格接近原则的烟叶分组方法,先将质量和价格相差不大的烟叶分成上等烟、中等烟和下等烟三个组分,然后分别对三个组分进行等级划分,这与常规的利用烟叶颜色、部位进行分组的方法不同,可有效避免上、中、下等烟三个不同组分之间的误判,减少损失,提高分级正确率。该方案采用自动技术代替人工经验判别,可有效解决当前烟叶分级存在的问题,提高烟叶等级纯度,充分利用烟叶资源优势,满足卷烟工业的需求。此外,该方案兼顾了分级正确率和分级速度,具有简捷、高效、可靠等特点,可为设计实用的烟叶自动、快速分级设备提供理论支撑。
试验所用烟叶样本为云南省烟草公司保山东方烟草有限责任公司提供,收购品种为K326,数据集A为2014年烤烟烟叶收购国标样本428个,数据集B为2015年烤烟烟叶收购国标样本317个,所有烟叶样本均由国家级分级师按照烤烟分级国家标准(42级)《烤烟GB2635—1992》进行定级,具体样本信息见表1。
表1 数据集A和B的样本信息Tab.1 The sample information of dataset A and dataset B
试验仪器采用B&W Tek Opto-Electronics公司的i-Spec BWS004光栅扫描型近红外光谱仪,配套标准探头、标准光纤和漫反射白板,采样软件为仪器自带的BWSpec4.0,所有数据分析和处理都在Matlab R2015a (Mathworks, Natick, USA) 软件平台上完成。
光谱采集时,先将皱缩烟叶样本平整铺开,然后用近红外标准探头垂直压紧烟叶叶面进行漫反射光谱扫描,扫描测定时,每片烟叶按图1所示,根据烟叶叶片化学成分分布规律[21],以主脉为轴对称划分出上下2个区域,每个区域再由叶尖至叶柄分为3个小区,共计6个测量区,然后在每个区的中心取1个点(避开叶脉)进行光谱扫描,每个点测3次求平均,6个测量点的平均光谱作为该烟叶的测量光谱。扫描前,光谱仪开机预热30 min,光谱扫描范围为 11111~5882 cm-1(900~1700 nm),分辨率为 3.5 nm,采样间隔1.6 nm,积分时间设置为10 ms,扫描次数为32次,仪器工作室温控制在(25±1) ℃。
图1 光谱采集位置分布示意图Fig.1 The schematic diagram of location distribution of spectral collection
ELM是由新加坡学者Huang Guang-bin于2004年提出的一种新型单隐含层前馈神经网络(SLFNs)学习算法,算法执行过程中自动调整网络的输入权值以及隐含层神经元偏置,学习速度快,泛化性能好且能产生唯一的最优解。一般而言,具有L个隐含节点的标准SLFNs与激励函数g(x)组合的数学模型为:
其 中aj=[aj1,aj2,… ,ajn]∈ Rn为 第j个 隐 层神经元与输入神经元的连接权重,即输入权重,bj∈R (j = 1,2,… ,L)表示第j个隐层神经元学习参数,即神经元偏置, βj=[βj1,βj2,… ,βjm]T∈Rm表示第j个隐层神经元与输出神经元的连接权重,即输出权重。与传统的梯度下降算法不同,SLFNs能以接近零误差来逼近样本矩阵,即则存在 βj,αj和bj满足:
上式也可以简写为:
其中H 为隐含层输出矩阵,T为目标输出矩阵。Huang Guang-bin等研究表明,SLFNs的输入权重和隐层偏置对神经网络性能没有影响,故而,对于任意给定的输入权重αj和隐层偏置bi,训练SLFNs就相当于给式(3)的线性系统找到最小二乘解,即
其最小范数的最小二乘解为:
其中H†为H的Moore-Penrose广义逆。
(1)任意给定输入权重αi和隐层偏置bi,i=1,…,N ;
(2)计算隐层输出矩阵H;
(3)计算输出权重β:β=H†T。在激活函数无穷可微、基于随机数定律和大数定律设定输入权值和隐层偏置的情况下,ELM神经网络的参数不必迭代调整,并且通过一步计算即可求出网络的输出权值,算法结构简单、计算速率快;而且在大多数的应用中,ELM的泛化能力优于基于梯度的算法;同时ELM直接构建单隐层反馈神经网络,可避免处理传统的基于梯度的算法需要解决的诸如局部最小、合适的学习率、过拟合等棘手问题。
采集到的烟叶原始近红外光谱数据夹杂仪器操作、样品背景和杂散光等引起的噪声和基线偏移,因此在对光谱数据进行操作之前,需要对光谱进行预处理,预处理有助于消除干扰因素、促进有用信息的提取。两个光谱数据皆采用如下预处理方法:(1)采用Savitzky-Golay平滑法对光谱进行平滑,平滑点数为9,多项式次数为3;(2)应用多元散射校正(MSC)算法消除由于烟叶样品表面不光滑产生的光谱散射影响,增强与成分含量相关的光谱吸收信息。(3)使用Savitzky-Golay求导算法对光谱进行二阶求导。预处理前后的光谱见图2。
图2 烟叶近红外光谱Fig.2 NIR spectra of tobacco leaves
划分样本时按照等级的不同将响应值y定义为‘1’、‘2’、‘3’、…、‘n’的类别向量,先利用SPXY样本划分方法[22]选择整个数据集的1/6作为预测集,然后用SPXY方法将剩下数据集的3/4划作训练集,1/4划作验证集。具体的样本划分信息见表2。
表2 样本划分信息Tab.2 The dividing information of samples
ELM算法在执行过程中无需设置网络输入权值和隐层神经元偏置,学习速度快,建立ELM模型仅需要选择激励函数以及隐节点数。ELM算法共有5种激励函数可供选择,分别为:Sigmoidal、Sine、Hardlim、Triangular basis和Radial basis函数。图3是5种激励函数对数据集A的预测分类正确率,除Hardlim函数的分类正确率较低外,其他4种激励函数都随着隐节点数的增加,预测分类正确率逐渐稳定。因此,选择常用的Sigmoid函数作为建模的激励函数。
图3 激励函数的选择(以数据集A为例)Fig.3 The selection of excitation functions (for dataset A as an example)
激励函数选择后,采用10折交互检验对隐层节点数进行选择,图4和图5为数据集A和B的交互检验分类正确率随着隐节点个数的变化曲线,如图所示,当训练集和验证集的分类正确率达到最大时,数据集A和B的分组模型的隐节点数分别选择为97和75,数据集A的上等烟、中等烟和下等烟各组的分级模型选择的隐节点数分别为35、41和19,数据集B各组分级模型选择的隐节点数分别为15、27和17。根据选择的激励函数和隐节点数,建立的ELM模型两个数据集的分组和分级正确率(运行100次、出现次数最多的结果)见表3和表4。
图4 数据集A隐节点数的选择,(a)为分组数据,(b)、(c)、(d)分别为上、中、下等烟数据Fig.4 The selection of hidden node number of dataset A, (a)grouping dataset, (b) high-quality group, (c) medium-quality group, (d) low-quality group
图5 数据集B隐节点数的选择,(a)为分组数据,(b)、(c)、(d)分别为上、中、下等烟数据Fig.5 The selection of hidden node number of dataset B, (a)grouping dataset, (b) high-quality group, (c) medium-quality group, (d) low-quality group
表3 数据集A分类正确率Tab.3 The classi fi cation accuracy of dataset A %
表4 数据集B分类正确率Tab.4 The classi fi cation accuracy of dataset B %
由于ELM是一种基于随机策略的分类算法,故需要对其模型的稳定性进行检验。目前,随机算法的稳定性检验一般采用多次运行计算分布频率的方法,虽简单但却能有效表征算法的稳定性能。本文统计了数据集A和B分组、分级ELM模型分别运行1000次的结果,计算出的数据集A和B分组模型标准偏差分别为0.0148和0.0297,数据集A的分级模型标准偏差分别为0.0740、0.0432和0.0327,数据集B的分级模型标准偏差分别为0.0930、0.0355和0.0397,标准偏差都较小,说明ELM模型的稳定性较好。
为了验证ELM烤烟烟叶分级模型的有效性,我们使用外部预测集对建立的模型进行了外部预测,分组分级预测结果(运行100次、出现次数最多的结果)见表5。从表中可以看出,由于训练集较大,ELM模型分组预测效果较好;预测集A的上等烟和中等烟分级预测效果不太理想,可能是由于类别太多导致正确率下降,若增大模型样本容量,预测正确率应当有一定提高。通过对模型进行外部样本验证,进一步说明模型的合理性和预测能力均较好。
表5 模型外部预测结果Tab.5 The external prediction results of models %
为了充分检验ELM分类模型的性能,将其与KNN、SVM和RF三种方法[23-24]建立的分类模型进行了比较。
K最近邻(KNN)[25-26]作为一种经典的懒惰分类算法,采用边测试边训练的被动方式建立分类模型,以同类样本在模式空间相互较靠近的模式识别假设作为分类依据,在模式识别、计算机视觉、编码理论和文本分类等领域获得了广泛应用。本文采用10折交互验证对K值进行选择,数据集A和B分组模型的K值分别选择5和4,数据集A上、中、下等烟分级模型的K值分别选择7、3和6,数据集B分级模型K值分别选择5、5和7。虽然KNN分类算法使用简单,但对测试样本分类时计算量大,可解释性较差,无法给出决策树那样的规则,烟叶分级效果也较其他方法差。
支持向量机(SVM)[27-28]是一种机器学习的多元技术,通过选择的核函数将输入向量映射到高维特征空间,并在该空间构造最优超平面,达到分类的目的。为了得到最佳效果,先用PCA对样本进行降维处理,然后对SVM的参数进行优化,包括核函数、惩罚参数C和内核参数γ,根据核校准方法,两个数据均选择径向基核函数(RBF),通过指数增长序列的网格搜索方法选择惩罚因子C和核参数γ,数据集A和B分组模型的惩罚参数C和核参数γ分别为4.1360和0.2585、7.1997和0.0490,数据集A分级模型的C分别为 66.2341、200.5035和 65.9754,γ分别为0.0162、0.0093和0.0161,数据集B分级模型的C分别为 1.3707、38.1604和 2.4163,γ分别为 0.0283、0.0283和 0.0094。
SVM模型具有较好的泛化性能,能避免对神经网络结构的选择,但SVM方法需要对样本进行降维,前期处理复杂,且经验性优化参数,从表3、4中可知,SVM存在分类性能不稳定、对训练样本数据比较敏感等问题。
随机森林(RF)[29-30]是一种将bootstrap重抽样方法与决策树相结合的分类算法,“双随机”策略能使RF的子分类器之间具有较大的差异性,保证算法分类性能。RF分类器训练过程需要优化两个参数:分类树的数量(ntree)和随机选择变量数(mtry),采用袋外数据(OOB)错误率来评估这两个参数。ntree在1~500范围内,OOB错误率不断降低;当ntree在500~2000范围内变化时,OOB错误率变化很小,因此ntree采用默认值500。mtry通过重复运行RF算法100次来优化,初始值设为默认值22(总变量数的平方根),步长设为2,随着mtry的变化,OOB误差基本不变化,因此,mtry值均取为总变量数的平方根。
但是,RF存在轻微的过拟合,每个分组、分级模型的训练分类正确率都达到100%,而预测分类正确率较低;RF分类器还有一个缺点就是要求样本属性划分比较均衡,对样本划分较多的属性会对RF分类器产生更大的影响,降低了分类器性能,表6为各种方法建模训练时间的对比数据,从中可知,RF分类器训练时间较其他方法都长。
从表3、4中的分类结果可知,ELM算法在各个组别、级别的内部分类验证中都具有优良的表现,分级正确率均超过91.67%,从表5可知,ELM模型外部烟叶样本预测正确率较其他方法高,说明ELM算法有较好的泛化性能,从表6可知,ELM模型的训练时间比其他方法都短,说明ELM基于随机数定律和大数定律的解决策略,不必迭代调整神经网络的参数,仅一步计算即可求出网络的输出权值,模型简单,建模效率较高。综上所述,ELM算法在两个数据集的分组、分级中均有较好表现,ELM算法建模参数自动优化,模型的预测正确率和可解释性较其他三种方法高,是处理烟叶分组、分级问题的首选算法,复杂体系的化学计量学方法结合NIR技术可能是烤烟烟叶收购质量等级评价的新方向。
表6 模型训练时间比较Tab.6 The comparison of model training time s
NIRS技术不仅能获取烟叶颜色等外观特征,也可反映烟叶内在品质信息,较图像提取技术和理论数学有明显优势。ELM方法建模时间短,在解决多分类问题上具有优良性能。本文将二者结合起来建立了烤烟烟叶自动分级预测模型,并与常用的多分类算法KNN、SVM和RF进行了比较,分组、分级结果表明:ELM模型训练时间短、分类正确率高,具有较强的稳定性,能较好的实现烤烟烟叶的自动分级。同时,文章首次提出基于品质相似、价格接近原则的烟叶收购分组方法,避免高低价位烟叶之间的误判,减少损失。本文建立的烤烟烟叶自动分级模型,可实现“整叶”品质无损检测评价,保证了烟叶分级的客观性,达到了较好的分级效果,可为改善我国烟叶分级手段落后的局面提供理论支持。
由于目前我们使用单探头近红外光谱手动扫描烟叶,每片烟叶仅有一条代表光谱,对残缺烟和杂色烟适用性不好,且每测量一片烟叶需耗时5~6 s,但是,近红外光谱检测时间为毫秒级,快速无损检测潜力较大,若将其与成像技术、计算机软件技术和自动传送技术等结合,一定能实现烟叶的快速自动分级。
[1] 韩力群,何为,段振刚,等. 烤烟烟叶自动分级的智能技术[J]. 农业工程学报, 2002, 18(6):173-175.Han Liqun, He Wei, Duan Zhengang, et al. Intelligent technologies in automatic grading of fl ue-cured tobacco[J].Transactions of the CSAE, 2002, 18(6): 173-175. (in Chinese)
[2] 韩力群,何为,苏维均,等. 基于拟脑智能系统的烤烟烟叶分级研究[J]. 农业工程学报, 2008, 24(7):137-140.Han Liqun, He Wei, Su Weijun, et al. Grading flue-cured tobacco leaf based on arti fi cial brain intelligent system[J].Transactions of the CSAE, 2008, 24(7): 137-140. (in Chinese)
[3]李浩. 基于数字图像处理技术的烤烟烟叶自动分组模型研究[D]. 武汉:华中农业大学出版社,2007:26-35.Li Hao. The research on auto-grouping model of fluecured tobacco leaves based on digital image processing[D].Wuhan: Huazhong University of Science and Technology Press, 2007: 26-35. (in Chinese)
[4]焦艳华,张雪萍,林楠. 支持向量机在烤烟烟叶自动分级中的应用[J]. 微计算机信息, 2009, 25(8-1):195-196.Jiao Yanhua, Zhang Xueping, Lin Nan. Application of support vector machine in the automatic grading of fluecured tobacco leaf[J]. Control & Automation, 2009, 25(8-1): 195-196. (in Chinese)
[5]刘华波,贺立源,马文杰. 基于反射与透射图像结合的烟叶自动分级研究[J]. 应用基础与工程科学学报, 2009,17(3):343-350.Liu Huabo, He Liyuan, Ma Wenjie. Grading tobacco leaves based on combination of reflectance and transmittance images[J]. Journal of Basic Science and Engineering, 2009,17(3): 343-350. (in Chinese)
[6]牛文娟. 基于图像处理的烟叶分级研究[D]. 郑州:郑州大学出版社,2010:11-24.Niu Wenjun. Tobacco classification based on image processing[D]. Zhengzhou: Zhengzhou University Press,2010: 11-24. (in Chinese)
[7]马建元,伍铁军. 基于图像处理和模糊识别的烟叶分级技术研究[J]. 机械制造与自动化, 2011, 40(1):90-93.Ma Jianyuan, Wu Tiejun. Research on tobacco leaves grading based on image processing and fuzzy recognition[J].Jiangsu Machine Building &Automation, 2011, 40(1): 90-93. (in Chinese)
[8]胡厚利. 图像处理技术与支持向量机在烟叶分级中的应用研究[D]. 昆明:昆明理工大学出版社,2014:21-31.Hu Houli. Application of image processing technology and support vector machine in tobacco leaf grading[D].Kunming: Kunming University of Science and Technology Press, 2014: 21-31. (in Chinese)
[9]魏扬帆. 一种基于颜色特征的烟叶分级算法设计及系统实现[D]. 北京:北京交通大学出版社,2014:23-27.Wei Yangfan. Design and implementation of a tobacco images grading algorithm based on color characteristic[D].Beijing: Beijing Jiaotong University Press, 2014: 23-27. (in Chinese)
[10]申振宇,申金媛,刘剑君,等. 基于神经网络的特征分析在烟叶分级中的应用[J]. 计算机与数学工程, 2012,40(7):122-124.Shen Zhenyu, Shen Jinyuan, Liu Jianjun, et al. Application of automatic classification of tobacco based on feature analysis of neural networks[J]. Computer&Digital Engineering, 2012, 40(7): 122-124. (in Chinese)
[11]张帆,张新红,张彤. 模糊数学在烟叶分级中的应用[J].中国烟草学报, 2002, 8(3):44-48.Zhang Fan, Zhang Xinhong, Zhang Tong. Application of fuzzy mathematics in the classi fi cation of tobacco leaves[J].Acta Tabacaria Sinica, 2002, 8(3): 44-48. (in Chinese)
[12]谭旭,唐云岚,陈英武. 基于粗糙集的烤烟烟叶智能分级方法[J]. 农业机械学报, 2009, 40(6):170-174.Tan Xu, Tang Yunlan, Chen Yingwu. Intelligent grading of fl ue-cured tobacco leaves based on rough set theory[J].Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(6): 170-174. (in Chinese)
[13]刘剑君,申金媛,彭丹青,等. 基于SVM的烟叶光谱分级[J]. 通信技术, 2009, 42(11):197-199.Liu Jianjun, Shen Jinyuan, Peng Danqing, et al. Infrared spectrum of tobacco grading based on support vector machine[J]. Communications Technology, 2009, 42(11):197-199. (in Chinese)
[14]章英,贺立源. 基于近红外光谱的烤烟烟叶自动分组方法[J]. 农业工程学报, 2011, 27(4):350-354.Zhang Ying, He Liyuan. Auto-grouping method of fluecured tobacco leaves based on near infrared spectra technology[J]. Transactions of the CSAE, 2011, 27(4): 350-354. (in Chinese)
[15]蒋锦锋,李莉,赵明月. 应用近红外检测技术快速测定烟叶主要化学成分[J]. 中国烟草学报, 2006, 12(2):8-12.Jiang Jinfeng, Li Li, Zhao Mingyue. Rapid determination of main chemical components in tobacco leaf by NIR di ff use reflectance spectroscopy[J]. Acta Tabacaria Sinica, 2006,12(2): 8-12. (in Chinese)
[16]张优茂,沈光林,孔浩辉,等. 烟碱含量近红外光谱预测模型的评价[J]. 中国烟草学报, 2007, 13(5):6-9.Zhang Youmao, Shen Guanglin, Kong Haohui, et al.Evaluation on near infrared prediction model of nicotine in tobacco[J]. Acta Tabacaria Sinica, 2007, 13(5): 6-9. (in Chinese)
[17]夏骏,陆扬,苏燕,等. 烟草水溶性糖近红外定量模型中光谱范围选择方法的研究[J]. 中国烟草学报, 2014,21(2):19-22.Xia Jun, Lu Yang, Su Yan, et al. Spectral range selection method in NIR quantitative model of tobacco water-soluble sugar[J]. Acta Tabacaria Sinica, 2014, 21(2): 19-22. (in Chinese)
[18]Huang Guangbin, Zhu Qinyu, Siew C K. Extreme learning machine: theory and application[J]. Neurocomputing, 2006,70: 489-501.
[19]Huang Guangbin, Zhou Hongming, Ding Xiaojian, et al.Extreme learning machine for regression and multiclass classi fi cation[J]. IEEE T Syst Man CY B, 2012, 42(2): 513-529.
[20]Ding Shifei, Xu Xinzheng, Nie Ru. Extreme learning machine and its applications[J]. Neural Comput & Applic,2014, 25: 549-556.
[21]杨晨龙. 初烤烟叶叶片化学成分分布规律研究[D]. 昆明:昆明理工大学出版社,2013:11-26.Yang Chenlong. Research on distribution regularity of chemical components in flue-cured tobacco leaf[D].Kunming: Kunming University of Science and Technology Press, 2013: 11-26. (in Chinese)
[22]Galvão R K H, Araujo M C U, José G E, et al. A method for calibration and validation subset partitioning[J]. Talanta,2005, 67: 736-740.
[23]Qiu Shanshan, Wang Qiujun, Tang Chen, et al. Comparison of ELM, RF, and SVM on E-nose and E-tongue to trace the quality status of mandarin[J]. J Food Eng, 2015, 166: 193-203.
[24]Hastie T, Tibshirani R. Disceiminant adaptive nearest neighbor classification[J]. IEEE T Pattern Anal, 1996,18(6): 607-616.
[25]杨锦忠,宋希云. 多元统计分析及其在烟草学中的应用[J]. 中国烟草学报, 2014, 20(5):134-138.Yang Jinzhong, Song Xiyun. Multivariate statistical analysis methods and their application in tobacco science[J]. Acta Tabacaria Sinica, 2014, 20(5): 134-138. (in Chinese)
[26]Wu Xindong, Kumar V, Quinlan J R, et al. Top 10 algorithms in data mining[J]. Knowl Inf Syst, 2008, 14:1-17.
[27]Cortes C, Vapnik V. Support vector networks[J]. Mach Learn, 1995, 20(1): 273-297.
[28]Li Hongdong, Liang Yizeng, Xu Qingsong, et al. Support vector machines and its applications in chemistry[J].Chemometr Intell Lab, 2009, 95: 188-198.
[29]Breiman L. Random forests[J]. Mach Learn, 2001, 45(1):5-32.
[30]Liaw A, Wiener M. Classification and Regression by random Forest[J]. R News, 2002, 2/3: 18-22.
:BIN Jun, ZHOU Jiheng, FAN Wei, et al. Automatic grading of fl ue-cured tobacco leaves based on NIR technology and extreme learning machine algorithm [J]. Acta Tabacaria Sinica, 2017,23(2)
*Corresponding author.Email:jihengzhou211@163.com
Automatic grading of fl ue-cured tobacco leaves based on NIR technology and extreme learning machine algorithm
BIN Jun1, ZHOU Jiheng1*, FAN Wei1, LI Xin1, LIANG Yizeng2, XIAO Zhixin3, LI Chunshun4
1 College of Bioscience and Biotechnology, Hunan Agricultural University, Changsha 410128, China;2 College of Chemistry and Chemical Engineering, Central South University, Changsha 410083, China;3 Yunnan Provincial Tobacco Company Baoshan Branch, Baoshan 678000, China;4 China Tobacco Jiangsu Industrial Co., Ltd., Nanjing 210019, China
In order to minimize the influence of artificial experience on flue-cured tobacco leaf grading in purchasing process, a rapid grading method using near-infrared (NIR) spectroscopy combined with extreme learning machine (ELM) algorithm was proposed. A grouping method based on principle of similar quality and close price of flue-cured tobacco leaves was put forward. Cross validation was used to optimize the number of hidden nodes of ELM. The method was compared with commonly used multi-class classification algorithms, including K nearest neighbor (KNN), support vector machine (SVM), and random forest (RF) algorithm. Results showed that ELM classi fi cation model was superior to other methods with automatic optimization parameters, short training time, and high stability and predictability. The classi fi cation prediction accuracy of tobacco dataset A and B into high, medium, and low groups was 95.77% and 94.23%, respectively. Furthermore, classi fi cation accuracy of subdividing high, medium, and low groups of tobacco prediction samples A was 85.71%, 86.67%, and 100%, respectively, and subdivision accuracy of tobacco prediction samples B was 100%, 92.86% and 92.86%,respectively. Therefore, application of NIR technology combined with ELM could accurately determine flue-cured tobacco leaf grade,providing a promising tool for quality evaluation in fl ue-cured tobacco leaf purchasing process.
tobacco grading; near-infrared spectroscopy; extreme learning machine; classi fi cation model; multi-class classi fi cation algorithm
宾俊,周冀衡,范伟,等. 基于NIR技术和ELM的烤烟烟叶自动分级[J]. 中国烟草学报,2017,23(2)
国家自然科学基金资助项目(No. 21275164),湖南省研究生科研创新资助项目(No. CX2015B237)
宾 俊(1987—),在读博士,主要从事近红外光谱、烟草品质化学方面的研究,Tel:0731-84635356,Email:binjun2009@gmail.com
周冀衡(1957—),Tel:0731-84785708,Email:jihengzhou211@163.com
2015-11-22;< class="emphasis_bold">网络出版时间:
时间:2017-04-25