郭东锋, 姚忠达, 徐迎波, 舒俊生
基于化学成分的烤烟香型分类研究
郭东锋, 姚忠达, 徐迎波, 舒俊生*
(安徽中烟工业有限责任公司 技术中心, 安徽 合肥, 230088)
本研究以全国清香型、浓香型、中间香型烤烟为研究对象, 以6个区域24个C3F中部叶为分类样本, 采用随机森林分类算法进行香型分类, 结果表明: 随机森林算法对烤烟香型起到了很好的区分作用, 分类正确率达到了87.5%; 基于随机森林分类的同时得到了分类变量在香型分类中的重要性, 烟叶常规化学成份在香型分类中的重要性从高到低依次为: 总钾→总氮→总糖→还原糖→总氯→烟碱. 因此, 随机森林分类可以用于烤烟的香型分类, 同时也可以用于判断分类变量对分类目标的重要性程度.
烤烟; 香型; 分类; 随机森林
烤烟的香型风格是卷烟产品设计时进行烟叶原料选择和叶组配方的基础[1]. 郜强等利用吹扫捕集-GC/MS研究了国产烤烟香型与香气成分之间的联系, 建立了浓香、清香和中间香典型判别函数[2]. 詹军等以24种中性致香物质为指标, 采用逐步判别分析法对不同香型烤烟样品进行判别分析建立判别函数[3]. 李章海等以不同地区烤烟的中部叶片为材料, 采用逐步回归的方法建立了烟叶香型指数模型[4], 同时采用烟叶香型指数的方法, 研究了我国5个不同生态尺度烟区烤烟香型风格及相关香气成分的变化[5]. 毕淑峰等分析了云南、河南、辽宁烤烟的多项化学成分含量, 并对烤烟进行专家评吸香型鉴定[6]. 此外, 对于不同香型间烟叶成分的差异也有不少研究[7—21]. 随机森林(Random forest)是Leo. Breiman[22]在2001年发明并提出的一种高效算法[23], 是一种由多棵决策树组合而成的联合预测模型, 天然可以作为快速且有效的多类分类模型[24-25]. 且随机森林已经在其它领域开展了很多应用研究26—32], 但是在烟草行业中尚鲜见报道. 本研究拟以烤烟香型分类为研究目地, 以随机森林分类算法为方法, 探索其在烤烟香型分类中的应用, 以期为烟叶原料研究、产品配方设计及原料选择提供理论依据.
本研究选取全国烤烟主产区中部烟叶(C3F)共计24份, 其中中间香7份、浓香型7份、清香型10份. 中间香型重庆3份、贵州4份, 浓香型郴州4份、皖南3份, 清香型昆明7份、文山3份.
常规化学成分检测. 化学成分分析检测依据分别为: 按照YC/T 159-2002进行总糖测定; 按YC/T 159-2002进行还原糖测定; 按YC/T 160-2002进行烟碱测定; 按YC/T 161-2002进行总氮测定; 按YC/T 173-2003进行总钾测定; 按YC/T 162-2002进行总氯测定.
感官质量评定. 香型确定按照Y/CT 38-1998进行. 评吸前单料烟在环境条件为温度(22.2 ± 0.5) ℃,湿度(61.0 ± 2.0)%条件下平衡48 h以上.
表1 烟叶常规化学成分统计 /%
24个中部叶常规化学成分统计结果见表1. 由表1可知, 烟碱变幅在1.3%~2.78%之间, 数据呈左偏平顶峰形态, 变异系数为21.39%; 总糖变幅为23.78%~41.93%, 还原糖变幅为21.8%~34.84%, 两糖数据均略显左偏态, 变异均在15%以下; 总氯变幅在0.05%~1.22%之间, 变异系数达到86.40%, 变异较大, 数据呈右偏态尖顶峰; 总钾变幅在1.23%~2.65%之间, 变异系数为19.88%, 数据略呈右偏尖顶峰形态; 总氮变幅在1.35%~2.02%之间, 变异系数为9.75%, 数据分布较为集中.
利用随机森林分类算法对烤烟清、中、浓3个香型进行分类, 首先对随机森林分类算法进行参数设置(表2). 森林树的数量设置为500, 树节点处变量设置为3个, 用全部样本进行训练, 验证方法采用10折交叉验证(10-fold cross).
表2 随机森林(Random forest)分类算法参数设置
通过算法迭代, 随着森林树的数量增加见图1. 树的数量在200以内, 分类误差波动较大, 但是整体分类误差呈显出减小的趋势. 树的数量超过200以后, 分类误差趋于稳定, 整体的分类误差也趋于最小化. 由表3香型分类结果的混淆矩阵可知, 浓香型样本没有错分, 分类正确率为100%; 清香型10个样本分类正确8个, 有2个样本错分为中间香型; 中间香型7个样本正确分类6个, 有1个样本错分为浓香型. 24个样本基于随机森林分类的正确率达到了87.5%, 分类结果较为理想.
表3 烤烟香型分类结果混淆矩阵
图1 各香型分类误差随树的数目变化趋势
随机森林的另一个优点就是可以度量分类变量的重要性程度[22]. 由随机森林分类输出的烤烟烟叶常规化学成分的重要程度见表4和图2. 由表4和图2可以看出对烤烟香型分类化学成分的重要性从高到低依次为: 总钾→总氮→总糖→还原糖→总氯→烟碱.
表4 烤烟香型分类中各变量的重要性 /%
图2 香型分类中各变量重要性可视图
表5 烤烟香型分类结果ROC检验
图3 香型分类结果ROC检验结果及野点检验视图
为了进一步检验随机森林分类的效能, 对分类结果进行了ROC(Receiver Operating Characteristic)分析, 结果见表5及图3. 在此以AUC指标作为评价分类结果的依据, 可以看出浓香型的分类效果最高AUC指标为0.98, 其次为清香型AUC指标为0.94. 对于中间香型的分类效果最低AUC指标为0.89. 整体的分类效果AUC指标加权均值达到了0.94, 分类结果非常理想. 同时进行的样本野点(Outlier)检验, 并未发现离群样本存在, 说明基于随机森林分类算法, 利用烤烟常规化学成分对烤烟香型进行分类, 能够起到很好的区分效果.
1) 基于随机森林分类算法, 利用常规化学成分对烤烟香型分类起到了很好的分类效果, 分类正确率达到了87.5%, 整体分类效能ROC检验整体AUC指标达到了0.94, 说明一方面随机森林用于烤烟香型分类具有较高的准确性, 另一方面常规化学成分可以用于烤烟香型的分类. 之所以能得出较为理想的分类结果, 一方面是因为随机森林算法的优越性, 另一方面是样本的数据的准确获得.
2) 在烤烟香型分类中, 烟叶中的常规化学成分对香型判断的重要性程度不同, 依据随机森林算法的另一功能可以判断出总钾、总氮、总糖在烤烟香型分类中相对起到更为重要的作用.
本研究将随机森林与烤烟香型分类相结合, 由于样本仅为中部叶, 在分类研究中或有不足, 另外,对于随机森林分类算法的研究尚不够深入, 对于其在烤烟分类及其它方面的应用还需要进一步研究探索.
[1] 姜慧娟, 赵铭钦, 刘鹏飞, 等. 烤烟香型划分及质量特征研究进展[J]. 浙江农业科学, 2012(12): 1628—1632.
[2] 郜强, 余苓, 陈磊, 等. 基于动态顶空成分的烟叶原料香型特征判别分析(英文)[J]. 计算机与应用化学, 2012, 29(3): 309—312.
[3] 詹军, 张晓龙, 周芳芳, 等. 基于烤烟中性致香物质的烤烟香型判别分析[J]. 西北农业学报, 2012, 21(12): 80—87.
[4] 李章海, 王能如, 王东胜, 等. 烤烟香型的重要影响因子及香型指数模型的构建初探[J]. 安徽农业科学, 2009, 37(5): 2055—2057.
[5] 李章海, 王能如, 王东胜, 等. 不同生态尺度烟区烤烟香型风格的初步研究[J]. 中国烟草科学, 2009, 30(5): 67—70.
[6] 毕淑峰, 朱显灵, 马成泽. 逐步判别分析在中国烤烟香型鉴定中的应用[J]. 热带作物学报, 2006, 27(04): 104—107.
[7] 史跃伟, 赵杰宏, 王志红, 等. 烤烟主要化学成分与中间香型彰显度的相关分析[J]. 东北农业大学学报, 2013, 44(1): 106—109.
[8] 罗勇, 陈永安, 潘文杰, 等. 气候与土壤对烤烟香气前体物和香型风格的影响[J]. 贵州农业科学, 2012, 40(12): 76—79.
[9] 王瑞, 刘国顺, 向必坤. 恩施州不同海拔下烤烟产量和质量及香型风格的差异性分析[J]. 中国烟草科学, 2012, 33(1): 27—31.
[10] 王能如, 何宽信, 惠建权, 等. 江西烤烟香气香韵及其空间特征[J]. 中国烟草科学, 2012, 32(4): 7—12.
[11] 刘金霞, 李元实, 黄飞, 等. 不同香型烤烟化学成分含量的差异研究[J]. 河南农业科学, 2012(9): 50—52.
[12] 席元肖, 宋纪真, 李锋, 等. 不同香型烤烟香气前体物及香味成分含量的差异分析[J]. 浙江农业科学, 2011, 11(2): 355—361.
[13] 张骏, 杨征宇, 刘新民, 等. 四川会东烤烟香型风格特点及主导因子初探[J]. 中国烟草科学, 2011, 32(6): 7—11.
[14] 席元肖, 魏春阳, 宋纪真, 等. 不同香型烤烟化学成分含量的差异[J]. 烟草科技, 2011(5): 29—33.
[15] 常爱霞, 瞿永生, 计玉, 等. 福建产区不同香型烤烟质量特征分析[J]. 中国烟草科学, 2011, 32(4): 1—5.
[16] 宗浩, 杨程, 陈刚, 等. 不同烤烟品种香型风格与多酚类物质含量差异分析[J]. 中国农学通报, 2011, 27(30): 241—245.
[17] 詹军, 刘冲, 贺帆, 等. 不同香型烤烟类胡萝卜素降解香气物质与评吸质量分析[J]. 西南农业学报, 2011, 24(6): 2137—2142.
[18] 邵惠芳, 郑聪, 许自成, 等. 三门峡优质烤烟中性香气物质的特点及香型风格评价[J]. 河南农业大学学报, 2010, 44(5): 508—512.
[19] 常爱霞, 张建平, 杜咏梅, 等. 烤烟香型相关化学成分主导的不同产区烟叶聚类分析[J]. 中国烟草学报, 2010, 16(2): 14—19.
[20] 杜咏梅, 张建平, 王树声, 等. 主导烤烟香型风格及感官质量差异的主要化学指标分析[J]. 中国烟草科学, 2010, 31(5): 7—12.
[21] 杜咏梅, 刘新民, 王平, 等. 宣威产区烤烟香型风格及其主要化学指标适宜区间的研究[J]. 中国烟草学报, 2010, 31(5): 13—18.
[22] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32—38.
[23] 马景义, 谢邦昌. 用于分类的随机森林和Bagging分类树比较[J]. 统计与信息论坛, 2010, 25(10): 18—22.
[24] 黄衍, 查伟雄. 随机森林与支持向量机分类性能比较[J]. 软件, 2012, 33(6): 107—110.
[25] 蔡坤琪. 基于相关鉴别分析和随机森林的人脸识别方法[J]. 安徽电子信息职业技术学院学报, 2012, 11(1): 15—18.
[26] 杨帆, 林琛, 周绮凤, 等. 基于随机森林的潜在近邻算法及其在基因表达数据分类中的应用[J]. 系统工程理论与实践, 2012, 32(4): 815—825.
[27] 郭颖婕, 刘晓燕, 郭茂祖, 等. 植物抗性基因识别中的随机森林分类方法[J]. 计算机科学与探索, 2012, 6(1): 67—77.
[28] 马昕, 郭静, 孙啸. 蛋白质中RNA-结合残基预测的随机森林模型[J]. 东南大学学报: 自然科学版, 2012, 42(1): 50—54.
[29] 周绮凤, 杨小青, 周青青, 等. 基于随机森林的建筑结构损伤识别方法[J]. 振动、测试与诊断, 2012, 32(2): 197—201.
[30] 李贞子, 张涛, 武晓岩, 等. 随机森林回归分析及在代谢调控关系研究中的应用[J]. 中国卫生统计, 2012, 29(2): 158—160.
[31] 赵铜铁钢, 杨大文, 蔡喜明, 等. 基于随机森林模型的长江上游枯水期径流预报研究[J]. 水力发电学报, 2012, 31(3): 18—24.
[32] 应维云. 随机森林方法及其在客户流失预测中的应用研究[J]. 管理评论, 2012, 24(2): 140—145.
Study on the classification of flue-cured tobacco based on chemical components
GUO Dong-feng, YAO Zhong-da, XU Ying-bo, SHU Jun-sheng
(Technology Center of Anhui Cigarette Industrial Co. Ltd., Hefei 230088, China)
The observation was sampled from six areas including 24 cutter leaves in China. The targets were studied based on random forest algorithm. The results shows that the random forest algorithm classify the type of flue-cured tobacco smartly and fast, meanwhile the classification accuracy could measure up 87.5%. what’s more important, the importance of each variable could be lay out under random forest algorithm. In this case the importance of each variables indicated total K+ > total nitrogen > total sugar > reducing sugar > total chlorine > nicotine. So it proved a good algorithm to classify the type of flue-cured tobacco, besides the by-products of each variables’ importance could be got easily .
flue-cured tobacco; type; classify; random forest
10.3969/j.issn.1672-6146.2013.04.020
TS 411.1
1672-6146(2013)04-0085-05
email:shujunsheng1975@yahoo.com;
email: gdf0221@163.com.
2013-09-09
安徽中烟工业有限责任公司科技项目(20121028).
(责任编校: 江 河)