聂铭,周冀衡,杨荣生,夏开宝,李强,张卓
1湖南农业大学烟草科学与健康重点实验室 长沙410128;
2云南省烟草公司曲靖市公司,曲靖655000
基于MIV-SVM的烤烟评吸质量预测模型
聂铭1,周冀衡1,杨荣生2,夏开宝2,李强1,张卓1
1湖南农业大学烟草科学与健康重点实验室 长沙410128;
2云南省烟草公司曲靖市公司,曲靖655000
在matlab环境下利用libsvm软件包建立利用烤烟化学指标对烤烟评吸质量预测的支持向量机模型,利用MIV法筛选变量,选取挥发性酸、石油醚提取物、钾、还原糖、烟碱为模型输入变量;参数优化后最佳c值为0.10882,g值为9.1896;训练样本预测值与实际值的相关系数R为0.885,测试样本预测值与实际值的相关系数R为0.8791;预测误差分布在[-4,4]。以上结果说明预测模型是可靠的,能够为烤烟评吸质量的评价提供参考。
评吸质量;支持向量机;预测模型;参数优化
烤烟的内在化学物质在烟叶燃烧时会发生热解和化学反应,产生的烟气会对吸烟者产生感官刺激,而烤烟的评吸质量则是评吸专家对烟气感官评价指标打分后的综合得分或评价[1],工业企业可根据烤烟评吸质量进行合理的配方设计,保证品牌质量、突出品牌特色[2]。烟叶内糖类化合物在燃烧时会产生酸性物质中和烟碱等碱性物质,降低烟气的刺激性,增加舒适度,柔和口感[3-5],而含氮化合物则会产生碱性物质和烟碱一起作用增加烟气的刺激性和劲头[6-9]。钾离子有促进烟叶燃烧,降低焦油量的作用,而氯离子含量增加会使烟叶燃烧变差,容易熄火[10-15]。挥发性酸、挥发性碱和石油醚提取物对烤烟的香气质、香气量、燃烧性等烟气特性有一定作用[16-17]。李强等[18]对曲靖烟区C3F等级烤烟评吸质量进行了主成分回归分析;高家合等[19]对云南主产烟区烤烟化学指标和评吸质量进行了相关分析,并建立了烤烟烟叶主要化学成分对评吸质量的回归方程;阎克玉等[20]对河南烤烟的主要化学指标和评吸质量进行了相关分析并建立了逐步回归方程。以上研究均是从统计学方向建立预测模型,通过机器学习方法建立预测烤烟评吸质量模型的研究报道很少[21-22],本研究在matlab环境下利用libsvm软件包建立曲靖烟区烤烟化学指标对烤烟评吸质量的支持向量机预测模型,为工业企业有效利用烟叶,进行合理的配方设计提供参考依据。
采集云南省曲靖烟区沾益县、师宗县、富源县、罗平县、陆良县、宣威市、麒麟区共300个烤烟样品,品种为K326,部位等级为C3F(中部桔黄三级),每个烟叶样品取3kg用于测定各项指标和评价烟叶的感官质量,统一制成单料烟,并进行编号。
所采集烟叶样品的化学指标交由云南省农业科学院进行测定,相关指标测定方法为:总糖采用芒森·沃克法;还原糖采用沸水浸提-铜还原-直接滴定法;总氮采用浓硫酸-双氧水消化-凯氏定氮法;烟碱采用活性炭-紫外分光光度法;钾采用乙酸提取,火焰光度法;氯采用离子色谱法;挥发性酸、挥发性碱采用蒸馏滴定法;石油醚提取物采用称量法。
参照YC/T138-1998烟草及烟草制品感官评价方法[23],建立单料烟评吸质量指标及评分标准,如表1所示,由曲靖市烟草公司召集省级以上卷烟评吸专家5名对样品进行盲评,分别按香气质、香气量、杂气、刺激性、余味、燃烧性和灰色7个评吸质量指标进行打分,取各项指标的平均值累加为最终评吸质量的总得分。
表1 烤烟评吸质量指标及评分标准Tab.1 Index and evaluation standard of smoking quality evaluation
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,支持向量机非线性回归的基本思想是通过一个非线性映射φ:Rn→H将样本点映射到高维特征空间H,并在高维特征空间进行线性回归,反过来即为原空间的非线性回归[24-25]。Libsvm软件包为台湾大学的林智仁先生所开发,能够在matlab中得到很好的运行,操作简单便捷。
使用LIBSVM进行回归预测的一般步骤:
1、按照LIBSVM 软件包所要求的格式准备数据集;
2、对数据进行筛选或降维,然后相关标准化;
3、考虑选用径向基(RBF)核函数(一般采用此核函数);
4、采用交叉验证选择最佳参数c与g;
5、采用最佳参数c与g对整个训练集进行训练获取支持向量机模型;
6、利用获取的模型进行测试和预测。
Libsvm回归预测所用到的命令
命令1:normalization(x,’1或2’);
把x数据集进行标准化,‘1’为把数据集在[0,1]内标准化,‘2’为把数据集在[-1,1]内标准化。
命令2:Model=svmtrain(train_y,train_x,’options’);
model是训练后得到的模型,为一个结构体,train_y为训练样本因变量,train_x为训练样本自变量,数据类型必须为double,Options为参数选项,主要有s,t,c,g,v等参数,其中s为svm的类型,t为核函数类型,c为e-svr中的惩罚系数,g为核函数中的g值,v为交叉验证的折数(每一折分别作为验证数据,其余折作为训练数据,取平均v次的结果),其中c,g值需要进行参数优化选择最佳参数,其余的参数均为默认设置。
命 令 3:[predict_y,mse,dec_value]=svmpredict(test_y,test_x,model);
Predict_y为预测因变量,mse为均方误差,dec_value为决策值,本文无需设定,test_y为测试样本因变量,test_x为测试样本自变量。
平均影响值(MIV)是目前普遍用于评判模型自变量对因变量影响力大小的指标之一[26-27],基本流程如图1所示,将训练样本中每一个自变量的值扩大(减少)10%(或自定义值),通过之前构建的模型计算得到两个输出值,两者之间的差值按训练样本数平均得出平均影响值,其符号代表作用方向,绝对值大小代表该自变量对模型输出影响力的相对大小,然后根据MIV绝对值的大小对自变量进行影响力排序,筛选出对模型输出影响较大的自变量。
图1 变量筛选MIV算法基本流程Fig.1 Basic process of variables screening under MIV algorithm
利用libsvm工具包建立支持向量机模型之前,需对模型主要参数(惩罚系数c和核函数中g)进行人为赋值,而这些参数是由训练样本的数值特性和模型所建立的规律来确定的,每个模型的c,g值都可能不同。为了保证选取合适的参数值,具体优化方法为,选取一个足够宽的寻优范围,让c,g按照一定的步长来迭代,利用每次迭代的参数值训练模型,通过交叉验证(K-CV法)得到训练后的误差值,最终选取使得训练误差最小的c,g值作为最佳参数组合,并以此训练模型,如图2所示。
笔者在matlab环境中利用libsvm软件包建立通过烟叶化学指标来预测烟叶评吸质量的模型,首先初步选取对烤烟评吸质量有影响的化学指标作为支持向量机模型的变量,然后利用MIV算法对变量进行筛选,选取对模型输出影响较大的不同类别化学指标,最后利用交叉验证(K-CV法)进行svm参数寻优,获得使模型训练误差最小的c,g值,利用最佳c,g值来训练模型,以270个样品为训练样本,其余30个样品为测试样本,检验模型预测的准确率和误差。
图2 svm参数寻优基本流程Fig.2 Basic process of optimization of SVM parameters
对曲靖300个样本数据进行描述性统计分析,由表2可以看出,各化学指标均有较大的变幅,均属于中等强度变异,评吸总分为弱性变异,评吸总分变异程度最小,氯离子的变异程度最大;总糖、还原糖偏度系数小于0,数据分布为负偏态分布,其余指标偏度系数大于0,数据分布为正偏态分布;还原糖、烟碱、挥发性碱、石油醚提取物的峰度系数小于0,分布峰型为平阔峰,数据分布较分散,其余指标的峰度系数大于0,分布峰型为尖顶峰,数据分布较集中。
表2 300个样本数据描述性统计结果Tab.2 Descriptive statistics analysis of 300 sample data %
本文选取总糖、还原糖、总氮、烟碱、钾、水溶性氯、挥发性酸、挥发性碱、石油醚提取物为支持向量机的初步选定变量,利用MIV算法计算后得到不同化学指标的平均影响值,再根据其绝对值的大小对自变量进行排序,由表3可以看出,不同化学指标对模型输出的相对影响大小和排序,其中挥发性酸>石油醚提取物>钾>还原糖>烟碱>总糖>水溶性氯>总氮>挥发性碱,由于前5名分别属于不同类别的化学指标,分别为挥发性酸、石油醚提取物、钾、还原糖、烟碱,这些不同类别的指标对烤烟评吸质量有其特有的影响,所以选取前5名的化学指标作为支持向量机的输入变量,模型参数s值设为3(e-svr),t值设为2(RBF核函数),交叉验证v值设为5(将数据集剖分为5部分,其中每一份分别作为测试集,其他作为训练集),其他参数设为默认值,c,g值则通过参数优化找出适合模型的最佳参数组合。
表3 不同化学指标的MIV值Tab.3 MIV value of different chemical index
本次参数优化c值的寻优范围为2-8到28,步长为0.8,g值的寻优范围为2-8到28,步长为0.8。通过参数迭代,寻找出使得模型训练误差值最小的c、g参数组合,如图3所示,x、y轴分别为c、g取以2为底的对数转换值,z轴为模型训练后的K-CV法交叉验证的均方误差(MSE),由图4可知,由红到紫等高线依次降低,MSE值逐渐降低,该图为图3的俯视图。经过c,g的参数寻优,当模型训练MSE值为最小,越接近图3的底部,这时c,g的组合值为最优取值。本次参数寻优后,最佳c值为0.10882,g值为9.1896,此时MSE值为0.023077。
图3 svm参数优化3D视图Fig.3 3D view of optimization of SVM parameters
图4 svm参数优化等高线图Fig.4 Contour of optimization of SVM parameters
图5 模型预测值与期望值的对比Fig.5 Comparison between prediction value and expection value
图6 模型预测误差Fig.6 Model prediction error value and the expected value
笔者将训练后的支持向量机模型对测试样本进行预测,如图5所示,绿色的圆圈为预测输出值(预测值),蓝色的星号为期望输出值(实际值),图中绿色圆圈(预测值)在蓝色星号(实际值)上下浮动,趋势与实际值符合;由图7~图8可以看出,训练样本和测试样本中预测值和实际值的数据点拟合效果较好,集中于拟合线和y=x附近,说明模型训练和测试性能较好且稳定;由表4可知,训练样本预测值和实际值相关系数为0.885,测试样本预测值和实际值相关系数为0.8791,相关系数比较稳定,说明模型泛化能力较佳;由图6和表5可知,测试样本预测误差均分布在[-4,4]之间,大部分集中于[-2.5,2.5],偏离零点线程度不大,因为烤烟评吸总分受评吸专家人为的影响较大,如样本评吸总分偏离在2.5分以内,其实际评吸质量的差异其实并不大,故该模型对评吸总分的预测误差在一个可以接受的范围内,说明模型预测效果比较好,预测模型是可靠的,预测精度已基本满足对不同烤烟的评吸质量进行评价和相互比较分析的要求,能够为烤烟的工业利用和烟叶配方提供参考依据。
图7 训练样本预测值与实际值数据点的拟合Fig.7 Fitting of the prediction and the actual value of the training sample
图8 测试样本预测值与实际值数据点的拟合Fig.8 Fitting of the prediction and the actual value of the testing sample
表4 模型训练和测试的预测值和实际值相关系数和样本个数Tab.4 Sample numbers and correlation coefficient of prediction and actual values of model training and testing
表5 测试样本误差区间个数和比例Tab.5 Number and proportion of error section for testing samples
本文对初步选取的9个化学指标进行MIV法变量筛选,其中挥发性酸、石油醚提取物、钾离子、还原糖、烟碱的MIV绝对值大小排序为前5名,说明这5个化学指标对模型输出有较大影响,且均为不同类别的物质,不同类别的化学指标对烤烟评吸质量有其特有的影响,所以选取前5名的化学指标作为模型输入变量,变量选取与前人的研究[18]基本一致,前人利用主成分分析对变量进行降维,构建回归预测方程,取得不错的效果,但如果利用主成分得分作为支持向量机模型的输入变量,会造成模型实际运用的不便和分析的困难,所以笔者利用目前应用最普遍的MIV法筛选变量。
本文对在matlab环境下利用libsvm软件包建立烤烟化学指标对烤烟评吸质量的支持向量机预测模型,通过MIV法筛选变量,参数优化,K-CV法交叉验证后,获取最佳的c值为0.10882,g值为9.1896,MSE为0.023077,利用训练好的模型对测试样本进行预测,误差值在[-4,4]内,测试样本预测值与实际值的相关系数为0.8791,模型对烤烟评吸质量的精度能够满足要求,故利用支持向量机预测烤烟评吸质量有一定的可行性,能够为通过烤烟化学指标预测烤烟评吸质量提供一种可行的建模方式,为工业企业有效利用烟叶和配方的设计提供参考依据。
但是本文只选取品种为K326,部位等级为C3F(中部桔黄三级)的烤烟样品作为训练样本和测试样本,没有建立针对其他烤烟品种,不同烤烟部位的支持向量机模型,故此模型有一定的局限性;烤烟评吸打分受评吸专家的个人因素影响较大,不同评吸专家的评判标准有所差异,因此下一步研究应当根据不同烤烟品种,不同烤烟部位,以及不同评吸专家分别建立支持向量机模型。
[1]张勇刚.烤烟感官质量评价方法研究[D].郑州:河南农业大学,2011.
[2]邵惠芳,赵昕宇,许自成,等.基于Fisher判别分析的烤烟感官质量与工业应用价值的关系研究[J].中国烟草学报,2011,17(6):13-18.
[3]邓小华,周冀衡,周清明,等.湖南烟区中部烤烟总糖含量状况及与评吸质量的关系[J].中国烟草学报,2009,15(5):43-47.
[4]邓小华,周冀衡,陈冬林,等.湖南烤烟还原糖含量区域特征及其对评吸质量的影响[J].烟草科技,2008,(06).
[5]黄飞燕,郑武,杨玉标,等.大理烤烟品种K326糖含量及其与评吸质量的关系初步分析[J].中国烟草科学,2012,33(2):24-27.
[6]邓小华,周冀衡,李晓忠,等.湖南烤烟总氮含量区域特征及对评吸质量的影响[C]//中国烟草学会2006年学术年会论文集,2007.
[7]肖守斌.烤烟烟碱含量与评吸质量的关系[J].河南农业科学,2009(4):44-48.
[8]罗玲,杨杰,许自成,等.四川烤烟烟碱和总氮含量分布特点及对评吸质量的影响[J].郑州轻工业学院学报:自然科学版,2012(1):33-36.
[9]高志强,邓小华,曾忠平,等.烤烟生物碱与评吸质量的关系[J].中国农学通报,2008(6):82-85.
[10]孙力,李银科,章新,等.钾素水平对烟叶化学成分和感官评吸质量的影响[J].安徽农业科学,2010(24):13210-13214.
[11]许自成,郑聪,李丹丹,等.烤烟钾含量与主要挥发性香气物质及感官质量的关系分析[J].河南农业大学学报,2009(4):354-358.
[12]邓小华,周冀衡,陈冬林,等.湖南烤烟氯含量状况及其对评吸质量的影响[J].烟草科技,2008(02).
[13]许自成,李丹丹,毕庆文,等.烤烟氯含量与挥发性香气物质及感官质量的关系研究[J].中国烟草学报,2008(5):27-32.
[14]冉法芬,许自成,李东亮,等.我国主产烟区烤烟钾、氯、钾氯比与评吸质量的关系分析[J].西南农业学报,2010(4):1147-1150.
[15]窦玉青,汤朝起,王平,等.北方烤烟钾氯含量及其与吸食品质的关系研究[J].中国农学通报,2010(17):86-92.
[16]胡皓月.烤烟挥发酸、挥发碱含量分布特点及与品质指标的关系[D].郑州:河南农业大学,2011.
[17]吴兴富.云南烤烟主要化学成分与评吸质量相关性分析[D].长沙:湖南农业大学,2008.
[18]李强,周冀衡,杨荣生,等.基于主成分回归的曲靖C3F等级烤烟评吸质量估算模型[J].中国烟草学报,2011,17(1):26-31.
[19]高家合,秦西云,谭仲夏,等.烟叶主要化学成分对评吸质量的影响[J].山地农业生物学报,2004,23(6):497-501.
[20]阎克玉,王建民,屈剑波,等.河南烤烟评吸质量与主要理化指标的相关分析[J].烟草科技,2001(10):5-9.
[21]邵惠芳,许自成,李东亮,等.基于BP神经网络建立烤烟感官质量的预测模型[J].中国烟草学报,2011,17(1):19-25.
[22]王强,陈英武,李孟军.基于支持向量机的卷烟质量评估方法[J].系统工程理论方法应用,2006(5):475-478.
[23]国家烟草专卖局,全国烟草标准化技术委员会编.烟草技术标准汇编(七)[M].北京:中国标准出版社,2003.
[24]Vapnik V N,Chervonenkis A J.The necessary and sufficient conditions for consistency of the method of empirical risk minimization[J].Pattern Recognition and Image Analysis,1991,1(3):158-163.
[25]Smola A J,Scholkopf B.A tutorial on support vector regression [J].Statistics and Computing,2004,14(3):199-222.
[26]王紫薇,叶奇旺.基于神经网络MIV值分析的肿瘤基因信息提取[J].数学的实践与认识,2011,41(14).
[27]卢永艳,王维国.财务困境预测中的变量筛选-基于平均影响值的SVM方法[J].系统工程,2011,29(8):73-78.
MIV-SVM-based prediction model for smoking quality of flue-cured tobacco
NIE Ming1,ZHOU Jiheng1,YANG Rongsheng2,XIA Kaibao2,LI Qiang1,ZHANG Zhuo1
1 Key Lab of Tobacco Science & Health,Hunan Agriculture University,Changsha 410128,China;
2 Yunnan Qujing Tobacco Company,Qujing 655000,Yunnan,China
Support vector machine (SVM) which was used to predict smoking quality based on chemical index of flue-cured tobacco was established by using libsvm software package in Matlab environment.Volatile acid,extractable petroleum ether,potassium,reducing sugar and nicotinamide were taken as input variables by using MIV algorithm.Optimal C value was 0.10882,g value was 9.1896 and correlation coefficient R was 0.885 for training samples and 0.8791 for testing samples.Predicted error was distributed in the [-4,4].Results showed that the prediction model is reliable and capable of providing reference for smoking quality evaluation.
smoking quality; support vector machine; prediction model; parameter optimization
10.3969/j.issn.1004-5708.2014.06.009
TS452 文献标志码:A 文章编号:1004-5708(2014)06-0056-07
烟草工商研共建原料与品牌协同发展机制(ESTB)项目(曲靖烟草公司)(110200801036);红云红河集团云南基地烤烟品种立体优化布局研究(HYHH2012YL03)
聂铭(1989—),在读硕士研究生,研究方向为烟草科学与工程技术,Email:nmsystem@126.com
周冀衡(1957—),教授,博士生导师,研究方向为烟草科学与工程技术及WHO-FCTC研究,Email:jhzhou2005@163.com
2013-12-23