周泽弘,曹淋海,王昌全*,李启权,李 冰,李 珊(.四川农业大学资源学院,成都 630;.四川省邛崃市国土资源局,四川 邛崃 6500)
基于RBF神经网络建立库存烟叶香型的预测模型
周泽弘1,曹淋海2,王昌全1*,李启权1,李 冰1,李 珊1
(1.四川农业大学资源学院,成都 611130;2.四川省邛崃市国土资源局,四川 邛崃 611500)
摘 要:为建立库存烟叶香型预测模型,采用RBF神经网络方法,对川渝中烟2009—2011年库存烟叶样品的香型特征进行了分析建模。结果表明,不同香型烟叶在化学成分含量上存在差异,清香型烟叶糖含量明显高于其他香型,氯含量远低于浓香型;采用主成分分析消除各化学指标共线问题,并建立基于RBF神经网络的库存烟叶香型预测模型,其准确率高达90%;灵敏度检验表明,清香型烟叶模型灵敏度为最优,中间香型灵敏度较低。证明利用RBF神经网络可以较好地对烟叶的常规化学成分进行烟叶香型预测。
关键词:库存烟叶;香型;主成分分析;RBF神经网络
烤烟香型是烟叶风格特色的重要表征,按照其风格特征可分为清香型、中间香型和浓香型三大类[1]。烟叶化学成分是决定烟叶内在质量及风格特征的重要因素之一,烟叶中主要化学成分及其衍生值在很大程度上决定烟叶及其制品的香型特征[2]。目前烤烟香型与化学成分之间的关系已成为研究热点,利用烟叶中化学成分对烤烟香型进行预测已有相关文献报道[3-8],这些研究的特点与存在的问题有:1)相关研究多局限于传统的数理统计方法,包括简单相关分析、典型相关分析、多元回归分析、逐步回归分析等[3-6],这些方法对于定性分析有较大帮助,但无法直接给出有关烤烟香型的预测和评价结果;2)传统的预测方法是将所有化学及衍生指标作为自变量输入,由于各指标间可能存在相关性,简单地将所有指标简化或合并会造成有用信息的丢失或重叠,从而影响模型的预测精度;3)已有相关学者采用误差反向传播(Back Propagation,BP)神经网络进行预测建模[7-8],但BP神经网络存在学习算法收敛速度慢,模型训练时间长,在训练过程中易出现过拟合等不足。
针对上述现状,本文提出了基于径向基函数(Radial Basis Function,RBF)神经网络的库存烟叶香型预测模型。RBF神经网络在一定程度上克服了BP神经网络的不足,由于其结构简单、应用广泛且对于定性型输出变量有较高匹配程度等优点被广泛运用于土壤、生态、地理等领域[9-11]。本研究首先利用主成分分析消除原始输入层数据的相关性,然后选取对香型有显著影响的主成分作为RBF神经网络的输入,进行烤烟香型的预测,最后通过实例仿真及灵敏度检验证明此方法的可行性。
1.1 材料
分析数据来自川渝中烟公司 2009—2011年间的主要库存烟叶,涵盖福建、甘肃、广东、广西、贵州、河南、黑龙江、湖北、湖南、江西、山西、陕西、四川、云南和重庆15个地区,共计1194份。其中烟叶香型主要包括清香型、清偏中、中偏清、中间香型、中偏浓、浓偏中、浓香型和特殊香型,化学指标包括总植物碱、还原糖、氯、钾、总糖、总氮、糖碱比、钾氯比、氮碱比。测定方法参照行业标准 YC/T161、YC/T160、YC/T162、YC/T159进行,化学指标测定及香型鉴定由川渝中烟公司完成。
1.2 方法
1.2.1 RBF神经网络[9]径向基函数网络是一种结构简单、应用广泛的前馈神经网络。其结构包含输入层、隐含层和输出层(图1)。
图1 径向基函数神经网络模型拓扑结构Fig.1 Structure of radial basis function neural network
输入层单元的输出等于其输入。隐含层单元采用径向基函数作为其输出特性。通常定义为空间中任一点到某个中心之间的距离的单调函数,其作用是局部的。最常用的径向基函数是高斯函数,其形式为:
网络的输出表达为:
其中wji为隐含层到输出层的连接权值;i为隐含层节点数;yj为与输入样本对应的网络的第 j个输出节点的实际输出。
1.2.2 RBF神经网络预测的MATLAB实现本文采用径向基函数神经网络模型来构建基于烟叶化学指标主成分的烤烟香型识别模型。先将样本数据进行主成分分析,以主成分得分值为训练样本,利用MATLAB 2010b提供的函数newrb对网络进行训练,其命令调用格式为:
其中,net为需要建立的神经网络模型;newrb为MATLAB中径向基函数神经网络模型的调用命令;P模型输入矩阵,文中为化学指标及其派生值的主成分分值;T为目标输出矩阵,文中为香型;goal为均方误差函数;spread为扩展常数;mn为隐层的最大神经元个数;df为迭代过程的显示频数。
1.3 灵敏度评价
本文采用平均绝对误差、误差均方根和平均相对误差三项指标来评价RBF神经网络模型预测的灵敏度[11],其计算公式如下:
1.4 数据统计分析
采用 SPSS19.0软件对样本数据进行简单统计及主成分分析,采用MATLAB 2010b进行RBF神经网络模型的训练及检验。
2.1 不同香型烟叶化学指标的统计特征分析
由表1可知,不同香型烟叶在化学成分含量有一定差异,清香型烟叶在糖含量尤其是还原糖含量明显高于其他香型,氯含量远远低于浓香型,钾和总氮含量则略低于中间香型和浓香型。随着香型由清香到浓香,糖含量呈现明显下降的趋势,氯含量呈现明显上升趋势。不同香型的烟叶在总植物碱含量上不存在显著差异(p=0.812),在氮碱比上表现为显著差异(p<0.05),在其余7个指标上均存在极显著差异(p<0.01)。
2.2 烟叶化学指标的主成分分析
为消除各化学指标间共线问题,采用主成分分析提取主成分信息(表2)。结果表明,前3个主成分可揭示原变量86.07%的数据方差,前5个主成分则可以反映95.30%的方差。尽管第六至第九主成分的贡献率不大,但考虑到烟叶评吸质量可能存在的隐性因子,分析中只消除共线问题而不剔除任何主成分。由表2可以看出,第1主成分在碱和糖相关指标上有较大载荷,第2主成分在钾上有较大载荷,第3主成分在氯相关指标上有较大载荷,第4主成分在氮相关指标上有较大载荷,第5主成分反映由钾氮组合反应的信息,第6主成分反映由氯钾组合反应的信息,第7主成分反映植物碱的信息,第8主成分反映由糖碱组合反应的信息,第9主成分反映两糖的信息。
表1 不同香型烟叶的化学指标统计平均值及方差分析Table 1 The average values, statistics analysis and variance of chemical indices in different flavor types of tobacco
通过主成分分析得到的9个无相关性的综合指标模型为:
其中,x1~x9分别表示总植物碱,还原糖,氯,钾,总糖,总氮,糖碱比,钾氯比,氮碱比。
表2 烟叶化学指标的主成分分析Table 2 Principal component analysis results of chemical indices of tobacco leaf
2.3 不同香型烟叶化学指标主成分的方差分析
根据公式(*)计算出不同香型烟叶化学指标在9个主成分上的得分值,求其均值并进行方差分析(表3)。结果表明,不同香型间烟叶化学指标主成分得分值除在第8主成分上不显著外,在其余得分值上差异极显著。清香型在第1、4、5主成分上的得分值总体上高于其他香型,在第 2、3、7、9主成分上的得分值则低于其他香型。在第6主成分上,清香型和浓香型的得分相同并高于中间香型。
表3 不同香型烟叶化学指标主成分平均值及方差分析Table 3 Principal component analysis of the chemical indices of different tobacco flavors the average value and variance
2.4 不同香型烟叶识别结果及验证
2.4.1 样本数据整理及RBF建模 将评吸结果中3种典型的香型:清香型、中间香型和浓香型选出进行识别。考虑到数据质量,以主成分均值加减2倍标准差对数据进行筛选,其获得333个有效数据。随机抽取60个作为验证样,其余则作为训练样点。以对3种香型有显著差异的主成分为输入层,输出层包含3个节点,对应3种香型。如果某个烟样符合清香型,则第1个输出节点为1,其余2个节点输出值为 0;如果某个烟样符合中间香型,则第 2个输出节点为1,其余2个节点输出值为0;以此类推。网络训练时,设置goal为0.001,经过仿真试验,当spread取0.25时,RBF神经网络逼近效果最优。
2.4.2 识别结果分析 预测结果表明(表 4),60个验证点中有 54个的预测类型与评吸结果一致,有 6个样品识别结果与评吸结果不同,错误率为10%。3种香型中,清香型中有2个识别错误,错误率为8.33%;中间香型有3个识别错误,错误率为15%;而浓香型有1个识别错误,错误率为6.25%。理论上,该方法可以以0误差逼近任意函数,在保证数据质量的情况下,模型的识别精度还可以进一步提高。
2.4.3 模型灵敏度检验 以不同香型 RBF神经网络模型输出节点值为预测值,以实际节点值为实际值,计算不同香型预测结果的平均绝对误差、误差均方根和平均相对误差(表5)。结果表明,3种香型RBF模型预测结果的平均绝对误差、误差均方根和平均相对误差相对较小,模型灵敏度较高。其中,清香型烟叶模型灵敏度为最优,而中间香型灵敏度较低。在烟叶评吸过程中,考虑到评吸人员对区分清、浓香型烟叶较中间香型更为准确,因此,RBF神经网络模型的灵敏度结果与实际评吸结果一致。
表4 验证烟叶香型的识别结果Table 4 Verification of tobacco flavor recognition results
表5 RBF神经网络预测模型灵敏度检验Table 5 Sensitivity test of RBF neural network model
研究表明,利用烟叶化学及其衍生指标预测烟叶香型是可行的。但是,由于烟叶香型为定性变量,常规的统计及分析方法在烤烟香型的预测及评价中存在一定的限制[3-5]。目前,更多的非线性、判别及匹配模型被运用于烟叶香型识别[12-14],申钦鹏等[12]采用7种不同方法建立基于烟叶化学数据的烤烟香型分类模型,并从中筛选出最优模型;王鹏泽等[13]引入因子、聚类及判别分析,对河南 31个产烟县的169个烟叶样品的风格特征指标进行了分析。较传统方法而言,这类模型在烟叶香型识别中准确率较高,所得结果更为客观。RBF神经网络其本身是一个非线性模型,具有模式识别的特点[10],因此,可运用 RBF神经网络进行烟叶香型识别模型的建立。
本研究表明,不同香型烟叶在化学成分含量上存在差异,清香型烟叶糖含量明显高于浓香型,氯含量明显低于浓香型,这与窦玉青等[15]、席元肖等[16]研究结果一致,但差异大小有所不同,这与本研究数据取自全国烟区有关,有研究表明,不同生态区相同香型烟叶化学成分存在着一定差异[17-19]。
本研究表明,利用RBF神经网络建立库存烟叶香型的预测模型是可行的,在建模过程中,由于各化学指标间存在着共线问题,在输入变量时应消除其影响。另外,烟叶香型取决于其化学成分和烟气成分等多种因素,同时,烟叶的产地[19]、气候[20]、品种[21]等属性也会影响其差异,因此,未来在模型深度优化过程中,应该将多种因素作为输入层进行烟叶香型预测。
以川渝中烟2009—2011年库存烟叶为研究对象,对各化学指标进行主成分分析提取9个不共线性因子,以对烟叶香型有显著影响的主成分分值为输入变量,利用newrb函数进行RBF神经网络建模,并进行仿真预测,准确率高达90%,且模型灵敏度较高,这说明基于RBF神经网络的烟叶香型预测较为客观。
参考文献
[1] 唐远驹.关于烤烟香型问题的探讨[J].中国烟草科学,2011,32(3):1-7.
[2] 白茂军,邓小华.浓香型和清香型烤烟主产区中部烟叶彰显度与主要化学成分的关系研究[J].作物研究,2015,29(3):267-271,276.
[3] 孟霖,代远刚,王程栋,等.中间香型烤烟叶片质量指标间的典型相关分析[J].江苏农业科学,2015,43(3):261-264.
[4] 吴有祥,王玉平,杨佳玫,等.清香型烟叶的感官品质风格特征及主要化学成分[J].贵州农业科学,2014,43(1):40-44.
[5] 夏玉珍,王毅,牟定荣,等.福建和云南烤烟香韵风格特征差异与化学成分的关系[J].烟草科技,2015,48 (6):68-72.
[6] 曹仕明,高远峰,曹勤华,等.湖北典型生态区烤烟质量风格特征及其影响因子分析[J].中国烟草科学,2015,36(1):14-18.
[7] 彭黔荣,蔡元青,王东山,等.根据常规化学指标识别烟叶品质的 BP神经网络模型[J].中国烟草学报,2005,11(5):19-25.
[8] 邵惠芳,许自成,李东亮,等.基于BP神经网络建立烤烟感官质量的预测模型[J].中国烟草学报,2011,17(1):19-25.
[9] 陈飞香,程家昌,胡月明,等.基于 RBF神经网络的土壤铬含量空间预测[J].地理科学,2013,33(1):69-74.
[10]王芹芹,雷晓云,高凡.基于主成分分析和 RBF神经网络的融雪期积雪深度模拟[J].干旱区资源与环境,2014,28(2):175-179.
[11]陈昌华,谭俊,尹健康,等.基于PCA-RBF神经网络的烟田土壤水分预测[J].农业工程学报,2010,26(8):85-90.
[12]申钦鹏,张霞,张涛,等.基于烟叶化学成分烤烟香型分类模型的建立[J].湖北农业科学,2015,54(5):1220-1226.
[13]王鹏泽,刘鹏飞,来苗,等.因子、聚类及判别分析在烟叶风格特色评价中的应用[J].中国烟草科学,2015,36(2):20-25.
[14]李伟,邓小华,周清明,等.基于模糊数学和GIS的湖南浓香型烤烟化学成分综合评价[J].核农学报,2015,29(5):946-953.
[15]窦玉青,汤朝起,王平,等.闽西、赣中不同香型烤烟主要化学成分对吸食品质的影响[J].烟草科技,2009 (11):15-20.
[16]席元肖,魏春阳,宋纪真,等.不同香型烤烟化学成分含量的差异[J].烟草科技,2011(5):29-33,65.
[17]李章海,王能如,王东胜,等.不同生态尺度烟区烤烟香型风格的初步研究[J].中国烟草科学,2009,30(5):67-70,76.
[18]李玲燕,徐宜民,刘百战,等.不同生态区域烤烟烟叶香气物质分析[J].中国烟草科学,2015,36(3):1-7.
[19]曹学鸿,申国明,向德恩,等.恩施烟区不同香型烟叶区域分布与品质特征分析[J].中国烟草科学,2012,33(4):17-21.
[20]黎妍妍,王林,李锡宏,等.金神农烟区气候特征及其对烟叶品质的影响[J].中国烟草科学,2015,36(3):13-18.
[21]张霞,张涛,段沅杏,等.烤烟香型与产区及品种的关系研究[J].烟草科技,2015,48(2):37-42.
The Establishment of Prediction Model of Inventory Tobacco Flavor Based on RBF Neural Network
ZHOU Zehong1, CAO Linhai2, WANG Changquan1*, LI Qiquan1, LI Bing1, LI Shan1
(1.College of Resource, Sichuan Agricultural University, Chengdu 611130, China; 2.Land Resources Bureau of Qionglai City,Qionglai, Sichuan 611500, China)
Abstract:In order to establish the prediction model of inventory tobacco flavor, the authors analyze the samples of 2009-2011 inventory tobacco in China Tobacco Chuanyu Industrial Co., Ltd.by using the RBF neural network method.The results showed that there was difference of the content of chemical components between different tobacco flavors, sugar content in clean aroma type tobacco was significantly higher than the others, and chlorine content in clean aroma type tobacco was much lower than that of full-bodied type.The authors used principal component analysis to eliminate the chemical indicator collinear problem, and established prediction models based on RBF neural network of inventory tobacco flavor.The accuracy rate of the models was up to 90%.The sensitivity test showed that the clean aroma type tobacco model had the best sensitivity, the moderate type showed a lower sensitivity.Tobacco flavor can be predicted based on chemical components using the RBF neural network.
Keywords:inventory tobacco; flavor; principal component analysis; RBF neural network
中图分类号:TS41+1
文章编号:1007-5119(2016)02-0065-06
DOI:10.13496/j.issn.1007-5119.2016.02.012
基金项目:四川省烟草公司重点项目“基于3S技术的四川烟区生态环境要素时空特征提取及应用”(SCYC201402006);四川省烟草公司重点项目“四川植烟土壤质量监测评价及退化阻控技术研究”(201202005);川渝中烟工业有限责任公司重点项目“公司烟叶原料品质数据库建设与应用研究”(12097)
作者简介:周泽弘(1991-),男,硕士研究生,主要研究方向为土壤与环境质量可持续。E-mail:pyfzzh@163.com*通信作者,E-mail:w.changquan@163.com
收稿日期:2015-09-22 修回日期:2015-11-19