郭东锋,闫 宁,胡海洲,刘 非,邹 鹏,窦玉青,张忠锋,舒俊生
(1.安徽中烟工业有限责任公司 技术中心,安徽 合肥 230088;2.中国农业科学院 烟草研究所,山东 青岛 266101)
基于机器学习算法的烤烟香型分类研究
郭东锋1,闫 宁2*,胡海洲2,刘 非1,邹 鹏1,窦玉青2,张忠锋2,舒俊生1
(1.安徽中烟工业有限责任公司 技术中心,安徽 合肥 230088;2.中国农业科学院 烟草研究所,山东 青岛 266101)
摘要:为了探索烤烟香型判别分析的方法,采集了我国典型香型的烤烟样本,运用机器学习的方法对训练集和测试集的样本进行了模型拟合,结果表明:对于清香型、浓香型、中间香型拟合最好的机器学习算法为神经网络模型,就香型而言,该模型对于清香型、浓香型评价相对较好,中间香型整体判定效果较低;就数据集而言,在数据准备中分部位进行香型判别较为合理。在具体香型分析判别中,可首选神经网络机器学习算法,为烟草质量评价和卷烟产品研发等提供技术依据。
关键词:烤烟;香型;分类;机器学习
烤烟香型不仅是区分烟叶风格特征的一项重要指标,而且是烟叶品质区域划分的重要依据和中式卷烟风格的重要构成因素[1-2]。近年来,“三纵三横”、“特色烟开发”等重大项目的开展,促成了对烤烟香型研究和认识进一步加深[3]。前人在不同产区烤烟挥发性物质[4-5]、潜香型物质与评吸质量[6-7]、香气特征与化学成分差异[8-13]等方面开展了研究,毕淑峰等[14]用逐步判别分析方法鉴定了我国烤烟香型,李章海[15-16]、王能如[17]等采用指数模型的方法分析了我国烤烟香型的重要因子及生态尺度差异,詹军等[18]基于香味成分对烤烟香型进行了判别分析[19-20],朱红根等[21]运用BP神经网络分析了烤烟香型。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[22-23]。机器学习尤其在人工智能领域有较多的应用和研究,但是在烟草研究相关领域及其学习的研究尚不多见。基于此,本研究利用机器学习及其方法探索烤烟香型分类的方法与模式,以期为烟草质量评价和卷烟生产等提供参考。
1材料与方法
1.1材料
本研究所用样品为2012、2013年来自全国主要烤烟区域云南、贵州、四川、湖南、河南、福建、安徽皖南等地X2F、C3F、B2F 3个标准等级的样品,共计87套261个,其中2012年63套189个作为训练集,2013年24套中的24个C3F作为测试样本。
1.2试验方法
1.2.1常规化学成分检测方法按照标准YC/T 159—2002《烟草及烟草制品 水溶性糖的测定 连续流动法》中规定的方法测定烟叶中总糖和还原糖,按照标准YC/T 160—2002《烟草及烟草制品 总植物碱的测定 连续流动法》、YC/T 161—2002《烟草及烟草制品 总氮的测定 连续流动法》、YC/T 173—2003《烟草及烟草制品 钾的测定 火焰光度法》和YC/T 162—2002《烟草及烟草制品氯的测定 连续流动法》中规定的方法分别测定烟叶中的烟碱、总氮、总钾和总氯。
1.2.2烟叶感官评价方法香型确定由安徽中烟技术中心专业评吸人员按照清、中、浓香型进行评价确定。评吸前单料烟在环境条件温度22.2±0.5 ℃、湿度61.0±2.0%条件下平衡48 h以上。
1.2.3机器学习算法介绍
朴素贝叶斯(Naive Bayes)是统计分类方法,其对两种数据贝叶斯分类有较好的分类效果:一种是完全独立的数据,另一种是函数依赖的数据。
决策树(Decision Tree)是数据挖掘中的重要算法,用于分类即是分类树(Classification Tree),它是描述给定预测向量值X后,变量Y(Y连续型为回归,Y离散型为分类)条件分布的一个灵活的方法,对噪声数据具有很好的鲁棒性。
随机森林(Random Forest),是一种由多棵决策树组合而成的联合预测模型,可以作为快速且有效的分类模型。整个Random Forest的输出由众多决策树共同决定。
支持向量机回归(Support Vector Machine,SVM)是在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型,由大量的人工神经元联结进行计算,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。
k最近邻(k-Nearest Neighbor,kNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
CN2算法结合了ID3算法处理数据的效率和处理噪音数据的能力,以及AQ算法家族的灵活性,通过改进去除了对特定数据的依赖,且通过统计学类比,可以达到与使用剪枝方法的算法相同的效果。CN2使用一种基于噪音估计的启发式方法来终止它的搜索过程。
1.3数据分析方法
1.3.1数据处理用Excel 2007对数据进行处理,数据的统计及作图均在Origin软件中完成。数据清洗采用3S法进行离群点的剔除,缺失值的填充采用最近邻算法(kNN)进行补缺。训练集数据采用5折交叉验证进行机器学习,测试集直接用训练集所得模型进行机器学习,模型评价参考训练集结果,以测试集结果进行模型综合比较。
1.3.2数据分析指标含义针对一组数据进行分类模型的建立,每个模型的结果评价会有一个混淆矩阵(Confusion Matrix)来汇总模型结果,就某个样本而言,其被模型判定的结果见表1。
表1 分类模型评价结果混淆矩阵
为了评价模型的评判效果,在混淆矩阵的基础上衍生很多评价指标。其中:
ROC(ReceiverOperatingCharacteristicCurve):受试者工作特征曲线,简称ROC曲线,又称为感受性曲线(SensitivityCurve)。AUC(AreaunderROCCurve)即为ROC曲线下的面积,数值在0~1之间,越接近1模型评价效果越好。
2结果与分析
2.1基于机器学习的香型分类
通过分别对训练集和测试集数据进行模型学习,训练集、测试集混淆矩阵结果分别见表2、表3,从训练集混淆矩阵来看,7种机器学习方法准确率并不全都表现良好,其中以神经网络(NeuralNetwork)整体正确率达到了60%,其他几种算法整体分类正确率超过50%的有朴素贝叶斯(NaiveBayes)、随机森林(RandomForest)、分类树(ClassificationTree)3种分类方法,而支持向量机(SVM)、最近邻算法(kNN)和CN2rules对于训练集的整体分类正确率不足50%。
对于测试集(全部为中部叶)而言,支持向量机(SVM)分类正确率达到了100%,朴素贝叶斯(NaiveBayes)、随机森林(RandomForest)、朴素贝叶斯(NeuralNetwork)测试集整体分类正确率达到了90%以上,最近邻算法(kNN)、分类树(ClassificationTree)、CN2rules整体分类正确率仅为60%~70%,与其他算法相比明显较低,但是测试集整体分类正确率明显高于训练集。
分析其原因,可能与训练集和测试集的数据形态有关,训练集数据包括了上、中、下3个部位不同香型的烟叶,上、中、下3个部位烟叶化学成分本身存在明显或显著差异,而测试集数据全部为中部叶,数据分布更为集中。因此,训练集分类效果受到部位影响,整体分类正确率相对较低。
表2 香型分类机器学习混淆矩阵(训练集)
表3 香型分类机器学习混淆矩阵(测试集)
2.2训练集的机器学习算法性能比较
为了进一步评价各种机器学习分类的效果,对机器学习的分类整体效果和分项指标进一步分析,结果见表4~表7及图1。就训练集而言,分类精度(Classification Accuracy)较高的为神经网络(Neural Network)、随机森林(Random Forest),分别达到了0.6517、0.6071其他几种算法分类精度依次为朴素贝叶斯>支持向量机>分类树>CN2算法>最近邻算法;受试者曲线面积(AUC)也表现出相同的规律。
表4 机器学习算法性能比较(训练集)
就训练集各个香型而言,各个算法对于香型判断的性能也有不同,由表5可知,对清香型判定正例覆盖率(等同于召回率)最高的是支持向量机模型(SVM),其次是CN2 rules模型;清香型命中率最高的模型是决策树,其次是神经网络;以加权综合指标F-measure来看,判定清香型效果最好的模型是神经网络,其次是随机森林;从马修斯相关系数来看,判定清香型效果最好的模型是神经网络,其次为决策树。
从浓香型的判定结果来看,正例覆盖率(等同于召回率)最高的是朴素贝叶斯模型,其次为神经网络;命中率最高的是支持向量机模型(SVM),其次是CN2 rules模型;以F-measure指标判定浓香型效果最好的模型是神经网络,其次是朴素贝叶斯模型;以马修斯相关系数来评判浓香型效果最好的模型是神经网络,其次为决策树。
从各模型评价中间香型的结果来看,中间香型整体评价效果不如清香型、浓香型,其中正例覆盖率最高的模型为神经网络,命中率最高的模型是支持向量机,以F-measure、马修斯相关系数两项指标评定均为神经网络模型。
因此,整体来看对训练集的评价效果,评价清香型、浓香型和中间香型最好的模型为神经网络。
表5 不同香型间机器学习算法性能比较(训练集)
2.3测试集的机器学习算法性能比较
就测试集而言,支持向量机(SVM)的分类精度最高,全部分类正确,其次为朴素贝叶斯和神经网络模型,分类精度均达到了0.92;随机森林算法的分类精度达到了0.84,而最近邻算法、CN2算法和分类树算法精度都未超过0.8。由AUC指标(其值越接近于1说明模型分类效果越好)可以看出,神经网络和支持向量机最高,两者对于测试集分类全部正确,其次表现较好的为朴素贝叶斯模型,AUC达到了0.9815;随机森林算法AUC也达到了0.9741,其余模型表现优劣依次为CN2 rules>Classification Tree>kNN。测试集的分类精度和AUC普遍高于训练集。且分类精度与AUC指标基本表现出相同的规律,但是也略有不同,这可能是两者的计算方法不同所致。
从测试集评价结果来看(表7),判定清香型正例覆盖率最高的模型为支持向量机和神经网络,样本全部分类正确。判定浓香型正例覆盖率最高的模型为支持向量机、朴素贝叶斯、随机森林、CN2 rules;命中率最高的为支持向量机和神经网络,F-measure、马修斯相关系数评价最高的模型为支持向量机。中间香型正例覆盖率最高的模型为支持向量机,命中率最高的模型有支持向量机、朴素贝叶斯、CN2 rules 3个模型,F-measure、马修斯相关系数评价最高的模型为支持向量机。因此,整体看测试集评价效果,对3个香型评价效果最好的模型是支持向量机。
表6 机器学习算法性能比较(测试集)
表7 不同香型间机器学习算法性能比较(测试集)
图1 不同香型机器学习算法ROC曲线
3讨论与结论
对于在模型拟合训练中训练集和测试集存在的差异,经过分析认为训练集包含上、中、下3个部位的烟叶数据,而烟叶3个部位的化学成分存在明显或显著的差异,测试集数据相对单一集中(中部叶),因此机器学习算法对于测试集拟合效果好于训练集。对于清香型、浓香型和中间香型拟合的效果,一方面因不同模型的算法原理、数据等因素的要求不同,结果随之改变,另一方面可能源于不同香型在数据集表达效能的差异。本研究仅针对不同香型在烟叶常规化学成分做出的不同机器学习算法的比较,烟叶的香型不仅受到常规化学的影响,还有烟叶内的致香物质、烟叶表面物质、烟叶挥发性成分等诸多因素的影响,因此针对烤烟香型分类的研究还需要进一步深入开展。
对于含有上、中、下3个部位的混合数据训练集,判定清香型、浓香型、中间香型最高的模型为神经网络模型,对于仅含有一个部位(中部叶)的测试集,支持向量机模型性能表现最好。
就各个香型而言,机器学习算法模型对清香型的训练效果相对最好,其次浓香型的训练效果也相对较佳,而中间香型的机器学习模型训练效果不甚理想,这可能与中间香型的认识、内涵、香型内差异等诸多因素有关[1-2,24-27]。
参考文献:
[1] 唐远驹.关于烤烟香型问题的探讨[J].中国烟草科学,2011,32(3):1-7.
[2] 刘钟祥.论卷烟产品风格[J].烟草科技,1996(2):5-7.
[3] 姜慧娟,赵铭钦,刘鹏飞,等.烤烟香型划分及质量特征研究进展[J].浙江农业科学,2012(12):1628-1632.
[4] 周冀衡,杨虹琦,林桂华,等.不同烤烟产区烟叶中主要挥发性香气物质的研究[J].湖南农业大学学报:自然科学版,2004,30(1):20-23.
[5] 许自成,秦璐,邵惠芳,等.烤烟钾含量与多酚、有机酸含量及评吸品质的关系[J].河南农业大学学报,2010,44(4):383-389.
[6] 杨虹琦,周冀衡,杨述元,等.不同产区烤烟中主要潜香型物质对评吸质量的影响研究[J].湖南农业大学学报:自然科学版,2005,31(1):11-14.
[7] 邵惠芳,郑聪,许自成,等.三门峡优质烤烟中性香气物质的特点及香型风格评价[J].河南农业大学学报,2010,44(5):508-512.
[8] 张永安,郑湖南,周冀衡,等.不同产区烤烟香气特征与化学成分的差异[J].湖南农业大学学报:自然科学版,2007,33(5):568-571.
[9] 常爱霞,张建平,杜咏梅,等.烤烟香型相关化学成分主导的不同产区烟叶聚类分析[J].中国烟草学报,2010,16(2):14-19.
[10] 杜咏梅,张建平,王树声,等.主导烤烟香型风格及感官质量差异的主要化学指标分析[J].中国烟草科学,2010,31(5):7-12.
[11] 郭灵燕,袁红星,海洋,等.河南省不同香型烟叶香气成分比较分析[J].河南农业科学,2010(6):40-44.
[12] 席元肖,宋纪真,李锋,等.不同香型烤烟香气前体物及香味成分含量的差异分析[J].浙江农业科学,2011(2):355-361.
[13] 席元肖,魏春阳,宋纪真,等.不同香型烤烟化学成分含量的差异[J].烟草科技,2011(5):29-33.
[14] 毕淑峰,朱显灵,马成泽.逐步判别分析在中国烤烟香型鉴定中的应用[J].热带作物学报,2006,27(4):104-107.
[15] 李章海,王能如,王东胜,等.烤烟香型的重要影响因子及香型指数模型的构建初探[J].安徽农业科学,2009,37(5):2055-2057.
[16] 李章海,王能如,王东胜,等.不同生态尺度烟区烤烟香型风格的初步研究[J].中国烟草科学,2009,30(5):67-70.
[17] 王能如,李章海,王东胜,等.烤烟香气成分与其评吸总分和香味特征的相关性[J].安徽农业科学,2009,37(6):2567-2569.
[18] 詹军,张晓龙,周芳芳,等.基于烤烟中性致香物质的烤烟香型判别分析[J].西北农业学报,2012,21(12):80-87.
[19] 詹军,周芳芳,邓国宾,等.基于化学成分和致香物质的烤烟上部叶香型判别分析[J].湖南农业大学学报:自然科学版,2013,39(3):232-241.
[20] 詹军,周芳芳,邓国宾,等.基于致香物质含量和组成比例的烤烟中上部叶香型判断[J].西南农业学报,2013,26(6):2538-2545.
[21] 朱红根,段史江,李亚纯,等.BP神经网络法在烤烟香型评定中的应用[J].湖南农业科学,2013(12):35-36.
[22] Gammerman A J. Machine learning: progress and prospects[M]. 1997.
[23] Ethem Alpaydin. Introduction to machine learning[M]. The MIT Press, 2004.
[24] 唐远驹,刘钟祥,潘文杰.烤烟“中间香型”的困惑[J].中国烟草科学,2014,35(2):1-6.
[25] 史跃伟,赵杰宏,王志红,等.烤烟主要化学成分与中间香型彰显度的相关分析[J].东北农业大学学报,2013,44(1):106-109.
[26] 吴春,王轶,蒲文宣,等.中间香型烟叶特色彰显度与主要化学成分的相关及通径分析[J].中国烟草科学,2012,33(4):1-6.
[27] 冉霞,牟兰,刘仁祥,等.贵州典型植烟区烟叶挥发性香气成分与香型风格关系分析[J].山地农业生物学报,2013,32(6):499-505.
(责任编辑:许晶晶)
Study on Classification of Flue-cured Tobacco Based on Machine Learning Methods
GUO Dong-feng1, YAN Ning2*, HU Hai-zhou2, LIU Fei1, ZOU Peng1,
DOU Yu-qing2, ZHANG Zhong-feng2, SHU Jun-sheng1
(1. Technology Center of Anhui Cigarette Industrial Limited Company, Hefei 230088, China;2. Tobacco Research Institute, Chinese Academy of Agricultural Sciences, Qingdao 266101, China)
Abstract:To explore the methods for flue-cured tobacco types classification, typical tobacco samples were collected from main tobacco-planted areas in China. These samples had been trained and tested by several machine learning methods to model fitting. The results showed that Neural Network algorithm could expressed best prediction from these machine learning methods to predict the flue-cured tobacco types, the Qing and Nong types were trained and tested best by the machine learning method, but the Zhong type was trained and tested worse by such methods, discriminant by vary part tobacco leaves was reasonable in the data preparation. So Neural Network algorithm could be used to predict the flue-cured tobacco types in tobacco quality evaluation and cigarette production.
Key words:Flue-cured tobacco; Odor type; Classification; Machine learning
中图分类号:TP181
文献标志码:A
文章编号:1001-8581(2016)02-0043-06
作者简介:郭东锋(1980—),男,高级农艺师,博士,主要从事烟草生理生态及原料质量评价工作。*通讯作者:闫宁。
基金项目:中国烟草总公司科技重点项目“烤烟生产结构优化效应及关键技术研究与应用”(110201402007);安徽中烟工业有限责任公司科技计划项目“皖南烟叶生产GAP管理模式研究”(2014124)、“皖南烟叶生产等级结构优化技术研究”(2014125)。
收稿日期:2015-07-14