邱昌桂,孔兰芬,杨式华,杨双艳,刘 静,张建强,袁天军,刘 泽
1.云南瑞升烟草技术(集团)有限公司,昆明市高新区海源北路1699号 650106
2.云南同创检测技术股份有限公司,昆明市高新区海源北路1699号 650106
3.云南中烟工业有限责任公司技术中心,昆明市五华区红锦路181号 650231
烤烟香型是中式卷烟香气风格的基础,也是烟叶风格特色的重要表征以及烟叶品质区域划分和卷烟配方设计与产品维护的重要依据,对我国烟叶原料种植及工业应用产生了深远影响[1],因此一直是烟草行业的研究热点。烤烟香型通常分为清香型、中间香型和浓香型3大类,进而又细分为清香型、清偏中型、中偏清型、中间型、浓香型、浓偏中型和中偏浓型7小类[2-3]。目前,关于不同香型烤烟的差异性和表征研究已有许多报道,例如不同香型烤烟化学成分差异性分析[4-11]、烟叶化学成分与香型风格间的关系[12-13]、采用定量指数法评价烤烟香气风格[3]、利用聚类和线性判别分析方法对烤烟香型进行表征[14-15]以及利用神经网络[16]和随机森林[17]对烤烟香型进行分类等方面。支持向量机(Support Vector Machine,SVM)是Vapnik[18]在统计学 VC(Vapnik-Chervonenkis)维理论和结构风险最小化准则(Structural Risk Minimization,SRM)基础上,提出的一种用于解决分类和函数逼近问题的新型机器学习方法。与神经网络等传统机器学习方法相比,SVM具有严格的理论和数学基础,不存在局部最小问题,且泛化能力强,适合小样本学习,能够较好地解决局部极小点、非线性、过学习以及“维数灾难”等问题[19],在复杂数据分类、信号处理、文本分类及估计回归函数等方面得到广泛应用,在数据挖掘和高维模式识别等领域也表现出应用潜力[20-21]。但在实际应用中,对于SVM最优参数的选择在理论上尚未得到较好解决。目前常用的SVM参数选择一般采取穷举法,但该方法计算量大,耗用时间长,寻优精度低,且不易获得最优SVM参数。近年来支持向量机在烤烟模式识别方面应用较多,主要有基于交叉验证优化参数的烤烟烟叶等级分类[22-25]、选择不同核函数判别烟叶的可用性[26]和烟叶配方的替换[27]、卷烟品牌的判别[28]及不同核函数对烤烟感官质量的评价[29]等。但采用遗传算法(Genetic Algorithm,GA)优化支持向量机参数在烤烟香型分类的应用研究则鲜见报道。为此,采用遗传算法优化支持向量机参数的模式分类方法,对3类主要香型风格烤烟的特征差异性进行模式识别,以期建立一种有效识别烤烟香型风格的方法,为烤烟香型准确识别、烤烟产地溯源和烟叶香型风格定位提供依据。
选取2015—2016年浓香型、清香型、中间香型的代表产区河南、云南和贵州的3个等级(B2F、C3F和X2F)烟叶样品共514个。其中,浓香型烟叶样品58个,主要来自河南省漯河市、平顶山市、商丘市和许昌市下辖的6个县;中间香型烟叶样品110个,主要来自贵州省安顺市、贵阳市、铜仁市和遵义市下辖的5个县;清香型烟叶样品346个,主要来自云南省昆明市、大理市、红河州、普洱市、临沧市、曲靖市、文山市、玉溪市和楚雄州下辖的28个县。
6890N/5975N气相色谱/质谱联用仪,配HP-5MS毛细管色谱柱(美国Agilent公司);KBF540恒温恒湿箱(德国Binder公司);R114旋转蒸发仪(瑞士Büchi公司);Cyclotec 1093旋风式样品磨[瑞典FOSS(中国)有限公司];ABS204-S电子天平(感量0.000 1 g,瑞士Mettler-Toledo公司);同时蒸馏萃取装置(自制)。
1.3.1 样品制备
根据烤烟香型定点布置采样点和落实农户,于烟叶采收期选取3个等级(B2F、C3F和X2F)的初烤烟叶样品2.0 kg进行编号、封装后备用。
1.3.2 样品预处理
每个样品将剔除烟梗后的200 g烟叶用粉碎机粉碎,过250 μm分样筛,充分混匀后的烟末置于恒温恒湿箱(温度22℃,相对湿度60%)平衡24 h,准确称取25 g平衡后的烟末样品,采用同时蒸馏萃取法对样品进行前处理,用二氯甲烷作溶剂萃取2 h。所得提取物经无水硫酸钠干燥后,在水浴45℃、体系压力56 kPa下旋转蒸发浓缩至1.0 mL,加入50 μL内标物的无水乙醇溶液(0.1 mol/L),摇匀,装入样品瓶中待测。
1.3.3 致香成分含量的测定
致香成分含量的测定按照文献[30]的方法,使用气质联用分析仪对萃取浓缩液进行分析,所得图谱采用NIST05和Wiley275谱库进行检索定性,并以萘为内标物,按照内标校正归一化法计算各致香成分的含量。
1.4.1 支持向量机(SVM)算法原理
支持向量机是基于线性可分情况下的最优分类平面而发展起来的机器学习方法[31],其核心思想是在进行分类时,通过核函数将样本数据映射到高维特征空间中,在高维特征空间构建一个分类超平面作为决策面,由此可以将样本正确分类,且使分类间隔距离最大。其中,构建分类超平面就是求函数的全局最优解:
满足:
式中:m为样本个数;xi为训练样本;yi为样本类别;ω为分类超平面的法向量;b为常数。
支持向量机进行多样本分类时,样本往往是非线性且不可分的。通过在约束条件中引入正的松弛因子允许存在错分样本,在目标函数中加入参数惩罚因子c以及引入核函数将样本映射到一个高维特征空间,使其在高维特征空间中实现线性可分。其中,惩罚参数c用于控制分类器泛化能力与分类正确率之间的平衡,对于支持向量机分类模型的精度和泛化能力影响显著。c值越小,训练误差越大,分类器泛化能力变差;c值越大,会引起过学习,分类器泛化能力下降。
1.4.2 核函数的选择
核函数决定了支持向量机特征空间的结构,对于支持向量机的分类性能影响显著。常用的核函数有线性核函数(Linear)、二次核函数(QKF)、多项式核函数(Poly)、Gauss径向基核函数(RBF)和多层感知器核函数(Sigmoid)等[32]。本方法中采用了应用较广泛的径向基核函数,其形式如下:
式中:g为核函数参数,可以影响SVM算法的复杂程度。
1.4.3 遗传算法优化参数
遗传算法(GA)是一种模仿生物界的进化规律演化而来的自适应全局优化搜索方法。与传统的优化算法相比,遗传算法不依赖于特定的数学方程和导数表达式,具有全局搜索能力强、不易陷入局部最优解、效率高、寻优速度快等优点[33]。在生产调度、自适应控制、函数优化、机器学习和人工智能等领域得到广泛应用。利用遗传算法对支持向量机参数进行优化时,首先对分类器参数(惩罚参数c和核函数参数g)进行编码,然后以支持向量机分类正确率为适应度函数,在适应度函数的约束下,通过随机选择、交叉和变异等步骤寻找最优参数值,从而有效提高支持向量机分类的精度和效率。
采用多重比较方法对不同香型烤烟中的68种致香成分含量进行分析,结果见表1。
表1 不同香型烤烟中致香成分组间差异性分析结果①Tab.1 Results of differential analysis of aroma components in flue-cured tobacco samples of different flavor types(μg·g-1)
表1(续)
表1可见,不同香型烤烟中吡啶、2-戊基呋喃、2,4-庚二烯醛A、2,4-庚二烯醛B、氧化异佛尔酮、2,3-二氢苯并呋喃、吲哚、邻苯二甲酸二丁酯等8种致香成分的含量无明显差异,其他60种致香成分的含量均存在显著差异。在3类香型烟叶样品中新植二烯含量均最高,1-(2-呋喃基)-乙酮含量均最低;清香型烟叶样品中3-甲基-1-丁醇、3-甲基-2-丁烯醛、1-(1H-吡咯-2-基)-乙酮、茄酮、β-紫罗兰酮、蒽、茄那士酮、邻苯二甲酸二丁酯、棕榈酸、寸拜醇、植醇和西柏三烯二醇含量均显著高于其他香型;中间香型烟叶样品中糠醛、苯甲醇、十四醛、新植二烯、棕榈酸甲酯和棕榈酸乙酯含量均显著高于其他香型;浓香型烟叶样品中苯乙醇、丁基化羟基甲苯、3-(1-甲基乙基)(1H)吡唑[3,4-b]吡嗪、巨豆三烯酮B、巨豆三烯酮C、巨豆三烯酮D、2,3,6-三甲基-1,4-萘二酮和金合欢基丙酮A含量均显著高于其他香型。
由表1可知,同类香型中存在致香成分标准偏差较大的现象,说明这些致香成分含量在相同香型(清香型、中间香型、浓香型)不同生产点间存在差异。总体上,3类香型烟叶样品中均为苯甲醇、新植二烯、邻苯二甲酸二丁酯、西柏三烯二醇含量差异最大,但清香型烟叶样品中茄酮、寸拜醇含量差异显著高于其他香型,中间香型烟叶样品中金合欢基丙酮A、棕榈酸甲酯、棕榈酸、亚麻酸甲酯含量差异显著高于其他香型,浓香型烟叶样品中巨豆三烯酮B、巨豆三烯酮D含量差异显著高于其他香型,由此导致不同香型烤烟的香型区分度更为明显,也造成同类香型烤烟在香气质、香气量等方面存在一定差异。
采用GA-SVM算法对清香型、中间香型和浓香型3类香型的514个烟叶样品进行分类,使用5折交叉验证,重复测试10次。首先对GA-SVM算法的各控制参数进行设置,其中种群最大数量为20,取值范围为[20,100];最大进化代数为100,取值范围为[100,500];支持向量机惩罚参数c取值范围为[0,100],核函数参数g取值范围为[0,100]。以第一次对514个烟叶样品数据使用5折交叉验证为例,图1给出了使用GA-SVM算法优化支持向量机c、g参数的迭代运算曲线。
图1 GA-SVM算法参数优化过程曲线Fig.1 Parameter optimization process curves of GA-SVM algorithm
基于最优保留策略,种群中的最优个体适应度逐渐增加,最后稳定在98.54%,表明此时的惩罚参数c与核函数参数g的组合达到性能最优,即最佳惩罚参数c=72.931,最佳核函数参数g=0.011时,训练集的分类正确率为100%,测试集的分类正确率为94.12%,结果见表2。可见,重复测试10次,GA-SVM算法的训练集分类正确率为100%;测试集分类正确率为96.40%,其中清香型烟叶为98.27%,中间香型烟叶为89.55%,浓香型烟叶为98.26%。
表2 GA-SVM算法对不同香型烤烟的分类结果Tab.2 Classification results of flue-cured tobacco samples of different flavor types by GA-SVM algorithm
使用SVM算法和朴素贝叶斯算法分别对514个烟叶样品进行分类,使用5折交叉验证,重复测试10次,结果见表3。可见,训练集SVM算法的分类正确率为100%,朴素贝叶斯算法的分类正确率为86.46%;测试集SVM算法的分类正确率为78.58%,朴素贝叶斯算法的分类正确率为84.42%。对比可见,由于GA-SVM算法使用遗传算法对支持向量机的参数进行优化和调整,获得最优参数,从而使取得的分类正确率优于SVM以及朴素贝叶斯等传统分类算法。
表3 SVM算法和朴素贝叶斯算法对不同香型烤烟的分类结果Tab.3 Classification results of flue-cured tobacco samples of different flavor types by SVM and naive Bayesian algorithms
为了寻找一种有效识别烤烟香型风格的方法,以清香型、浓香型和中间香型烤烟为研究对象,提出了一种基于致香成分结合GA-SVM算法的烤烟香型自动识别方法。该方法能够避免支持向量机算法在分类过程中主要依靠经验值选取参数的缺陷,通过使用遗传算法对支持向量机参数进行优化和调整,以获得最优参数。采用GA-SVM算法、SVM算法和朴素贝叶斯算法分别对清香型、中间香型和浓香型3类香型的514个烟叶样品进行分类,结果表明:3类香型烟叶的分类正确率分别为96.40%、78.58%和84.42%,GA-SVM算法显著优于SVM和朴素贝叶斯等传统分类算法。因此,GA-SVM算法结合烟草致香成分能够用于对烤烟香型进行分类。