基于因子分析和Bayers判别的烤烟香型分类模型构建与验证

2016-08-03 09:17李娥贤秦云华吴亿勤张承明
中国烟草科学 2016年3期
关键词:判别函数香型烤烟

李 超,李娥贤,秦云华,熊 文,吴亿勤,王 璐,张承明,唐 杰

(1.云南中烟工业有限责任公司技术中心,卷烟产品质量检测中心,昆明 650023;2.云南省农业科学研究院生物技术与种质资源研究所,昆明 650223)

基于因子分析和Bayers判别的烤烟香型分类模型构建与验证

李超1,李娥贤2*,秦云华1,熊文1,吴亿勤1,王璐1,张承明1,唐杰1

(1.云南中烟工业有限责任公司技术中心,卷烟产品质量检测中心,昆明 650023;2.云南省农业科学研究院生物技术与种质资源研究所,昆明 650223)

为研究烤烟化学组成与其香型间的关系,通过抽样法收集了2011—2013年国内15省71市(县)500个烟叶样品。参照行业及文献相关标准测定影响其品质的114种化学指标,对各指标采用MFA(因子分析)降维处理,因子得分构建Bayes香型定量判别模型并验证。结果表明,原始指标可提出22个公因子,其对原变量的总方差解释率为80.459%;巨豆三烯酮(A、C)、His、假木贼碱、总细胞壁物质等是烟叶中普遍存在且能较好代表其品质特征的物质;定量判别模型能依据不饱合醛酮、氨基酸、碱、细胞壁物质等类物质的含量对烟叶样品香型进行较好的预测,回判及预测正确率≥83.3%。该判别模型使用简便、迅速,能简化烟叶香型的判别流程,快速和客观的评价烟叶品质。

烤烟;化学组成;因子分析;判别分析

烤烟烟叶根据其燃烧时所产生的香气风格可划分为清香、中间香和浓香型3个类别[1-3]。烟叶香型很大程度上决定着不同卷烟的感官风格特征,是维护卷烟感官质量稳定的重要因素[4],也是工业生产与配方选用的要素之一。不同产地的烟叶通常具有各自独特的香型[5],烟叶香型往往受其化学成分所影响,所以,对不同香型烟叶的化学组成测定及特征剖析一直以来都是科技工作者的研究热点[6-10]。目前,关于烤烟香型与其影响因素之间关系的研究报道较多,研究内容大多集中于不同香型烟叶的化学组成差异[11-12],以及不同部位烟叶特征与化学成分的相互关系[13]。关于烤烟香型化学组成评价[5,14]的相关情况虽有一定报道,但存在所采集的样本数量不足,分析方法片面单一,未验证数理模型的适用性,研究不够深入等问题。对于香型的定量判别模型[15]研究则尚未见报道。所以,笔者基于MFA(因子分析)模型判定[16-17]并筛选适合的变量,并与多种统计方法联用,对不同类型烟叶香型进行评价,为不同香型烤烟选择性育种及卷烟配方设计选用提供理论依据。

1 材料与方法

1.1材料

采用经典抽样方法,从国内15个省份71市(县)采集2011—2013年的烤烟烟叶样品,总计500个样品。其中,2011年采集样品数为137个,2012年采集样品数为169个,2013年采集样品数为194个,根据其不同的香型风格特征经过感官评吸判断可划分为:清香型烤烟烟叶样品161个,中间香型烤烟烟叶样品168个,浓香型烤烟烟叶样品172个,所有香型烟叶均分别采集上、中和下部烟叶。具体见表1。

1.2方法

1.2.1烤烟化学成分检测方法主要对3种不同香型烤烟中16种常规化学成分(氯、钾、总氮、总植物碱、总糖、还原糖、纤维素、葡萄糖、果糖、蔗糖、石油醚提取物、挥发碱、挥发酸、硝酸根、硫酸根、磷酸根)[18-27];8种金属元素(铁、锰、铜、锌、硼、钙、镁和钠)[28];3种多酚(绿原酸、莨菪亭和芸香苷)[29];8种有机酸(草酸、丙二酸、苹果酸、棕榈酸、硬脂酸、柠檬酸、亚油酸、亚麻酸)[30];20种氨基酸[31];45种中性致香成分(例如β-大马酮、香叶基丙酮、β-紫罗兰酮、降茄二酮、巨豆三烯酮4种立体异构体、二氢猕猴桃内酯等)[32-33];胡萝卜素与叶黄素[34];6种生物碱(烟碱、降烟碱、麦斯明、假木贼碱、新烟草碱、2,3'-联吡啶)[35];以及6种细胞壁物质(总细胞壁物质、果胶、木质素、全纤维素、a-纤维素、半纤维素)[36]共计114种指标根据现行相关的行业标准及文献方法进行定量检测。

1.2.2统计方法采用SPSS 22.0统计学软件(SPSS Inc.)的数据处理模块对不同烟叶样品各化学指标及其与香型的关系进行分析。采用因子分析(MFA)和Bayes判别分析方法来探索不同烟叶样品香型的物质基础。

表1 2011—2013年烤烟烟叶样品的地区数量描述Table 1 Description of number and areas of flue-cured tobacco leaf samples from 2011-2013

2 结果

2.1不同香型烟叶各指标的因子分析(MFA)

对不同烟叶样本进行MFA分析,由于各指标间量纲及数值差异较大,所以从相关阵出发,采用主成分提取方法,并进行最大方差法旋转,迭代29次收敛。对取样足够度进行Kaiser-Meyer-Olkin及Bartlett检验,如表2可知,KMO=0.885>>0.5,且Bartlett sig.<0.0001,呈1%以下显著性水平,说明样本非常适于进行因子分析。114个指标共可提取22个共同因子,其所能解释原指标的累积方差贡献率为80.459%。

表2 不同烟叶样本的KMO和Bartlett检验Table 2 KMO and Bartlett test of different tobacco samples

通过因子得分系数矩阵可列出不同烟叶各原始指标通过线性组合而成的22个公因子的表达式,如公式(1),公式中xi为样本中各指标变量的标准化值,yi为因子的得分系数,Fi为各因子的因子得分,i的取值范围均为(1,114)。据公式计算各样本的因子得分,并保存为新变量Fj,j=1~22,可以用来代表原指标衡量烟叶的化学组成和品质特征。

采用因子旋转方法(最大方差法)来对22个公因子的实际意义进行解释,如表3,以方差解释率最高的前10个公因子为例来说明相应因子的实际意义。由于每个因子所拟合的原变量数较多(114个指标),所以在旋转载荷阵中,对10个公因子的载荷均小于0.695的指标予以省略,表明公因子对这部分指标的解释力较弱。公因子对原始指标的解释能力各不相同。例如,对于因子1,糠醛、苯甲醛、苯乙醛、异佛尔酮、氧化异佛尔酮、藏花醛、β-大马酮、5,6-环氧-β-紫罗兰酮、二氢猕猴桃内酯、巨豆三烯酮的四个异构体(A、B、C、D)的载荷均>0.803,其中,异佛尔酮、氧化异佛尔酮、藏花醛、β-大马酮和二氢猕猴桃内酯的载荷均>0.900,说明因子1对于含有环酮,烯酮,烯醛结构的化合物的解释能力很强,可命名为“酮醛因子”;对于因子2,Asn、His、Gln、GABA、Phe、Trp的载荷均>0.850,说明因子2对于酰胺类、芳香类、碱性氨基酸类物质的解释能力很强,可以命名为“氨基酸因子”。以此类推,4~10号公因子分别能对应解释环柠檬醛、碱、细胞壁、还原糖、多环酮、氯、呋喃酮和锌类物质,可命名为各自相应的因子。

表3 因子旋转矩阵Table 3 Factor rotation matrix

重复上述过程,分别对2011—2013年所采集的烟叶样品进行因子分析,重点关注KMO值、提取的公因子数、累积方差解释率、因子命名等指标,具体见表4。3年因子分析的KMO度量均>0.500,表明均适用于因子分析方法。提取的公因子数为22~24个,对原始变量的方差解释率均>84.290,说明公因子均能较好的保留原始指标的信息。

表4 分年度因子分析参数汇总表Table 4 Summary of factor analysis parameters of different years

2.2不同烟叶香型定量判别模型的构建及验证

选择香型为分组变量,并赋值(0=浓香、1=清香、2=中间香)。采用步进方式筛选变量,矩阵为组内相关,距离计算为Wilks’Lambda,构建Bayers判别函数。选用原始的全部114个指标来构建Bayers判别函数,通过判别函数可以对原始的500个训练样本各自所属类别进行回判和留一交叉验证。输出结果见表5,从中可知,判别函数对交叉验证分组案例中的样品进行回判,即采用预先设定好的所有不同香型样本进行建模后来返回拟合原样本数据,正确率为96.0%。对初始分组案例中的样本进行留一交叉验证,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类,即用其他预先设定案例建模后来逐一对留下的一个案例进行分类预测,并验证,其正确率为95.3%。通过样本非标准化的Fisher函数计算Z得分可作出双坐投影图(图1),由图中可知,3种不同香型的烟叶样本在平面投影至不同的区域,区域间能显著分离,并未出现重叠状况。

表5 不同烟叶样本判别分类结果b,cTable 5 Identification and classification results of different samples of tobaccob,c

图1 典型判别函数的双坐标投影图Fig.1 A typical two-coordinate discriminant function

以2.1中MFA降维所提取到的22个因子得分为新的自变量来对烟叶进行香型Bayes判别分析研究。重复上述的数据处理过程,最终进入判别函数的变量为:Fn(n=1-22)。Bayers判别函数的表达式可由标准化的判别函数系数矩阵写出。具体表达式为:F1=0.024x1+0.113x2-0.333x3-0.014x4-0.155x5-1.032x6+0.152x7+0.257x8+0.518x9+0.199x10+0.437x11+0.021x12-0.035x13+0.608x14-0.044x15-0.182x16-0.179x1 7-0.045x1 8-0.215x1 9-0.021x2 0+0.614x2 1+ 0.147x22;F2=0.205x1-0.097x2-0.287x3+0.149x4+ 0.551x5+0.043x6+0.263x7+0.493x8+0.081x9-0.250x10+ 0.159x11-0.145x12+0.021x13-0.036x14-0.199x15+ 0.156x16+0.576x17+0.085x18-0.352x19+0.088x20-0.130x21-0.008x22。通过判别函数可以对原始的500个训练样本各自所属类别进行回判和留一交叉验证。判别函数的拟合正确率为84.8%,验证正确率为83.3%。通过样本非标准化的Fisher函数计算Z得分可作出双坐投影图,且投影图各区域间并未出现显著重叠现象。

3 讨论

通过因子分析,在不同烟叶的114个指标中共可提取出22个公因子,其所能解释原指标的累积方差贡献率为80.459%,说明在用22个因子表征原始指标特性时,可保留原指标的大部分信息。分析各年度解释力前5个公因子所代表的物质,可以看出,不同年度决定烟叶品质的特征物质存在一定差异。例如2011和2012年度烟叶品质主要取决于氨基酸类物质的含量,而2013年度烟叶品质则主要取决于总糖、假木贼碱、总细胞壁等类物质的含量。进一步与3年总数据的因子分析结果比对,挑选出在总数据公因子中出现,并在各年度公因子中出现2次以上的物质。结果表明,巨豆三烯酮(A、C)、His、Phe、Trp、假木贼碱、总细胞壁物质等物质是烟叶样品中普遍存在的且能较好代表烟叶品质的特征物质。Bayers判别定量模型可以对不同烟叶样品的香型进行较准确的判别及分类。并且采用所提取的22个公因子比使用所有原始变量来构建判别函数极大简化,容易写出判别表达式,起到降维的效果。同时,由于所提取因子对烟叶具有很好的代表性,可以保留绝大部分原始指标信息,与采用全指标构建函数相比,其在拟合和验证的准确性上也有较大保障。综合2.1中因子旋转矩阵的分析可以进一步解释,烟叶香型可以主要依据原始变量中的不饱合醛酮、氨基酸、β-环柠檬醛、碱、细胞壁物质、还原糖、多环酮、氯、呋喃酮和锌等类物质的含量来进行判别。

综上所述,如果有一批未知香型烟叶样品,我们可以通过测定其114种化学指标的含量,然后通过因子分析计算得到22个公因子的数值,并构建Bayes定量判别模型,通过模型计算F1和F2,最后通过Wilks’Lambda距离计算来完成不同香型类别判断,整个过程均由SPSS软件完成。此种烤烟香型分类模型与传统的感官评吸判断分类相比更加快速、客观和准确,对于大样本量的分析尤显重要。

但是,由于试验条件的限制,以及烤烟成分物质种类的多样性和复杂性,研究所建立的方法并没有覆盖114种指标外的其他物质,所以在分类上始终存在一定的误差和歧视性,有待于后期进一步扩展指标物质,并优化分析手段,以便建立更加准确、稳定的判别模型。

4 结论

本研究通过因子分析方法对2011—2013年度烟叶中114种指标含量进行降维处理,提取得到22个公因子,以提取的因子得分为新变量进行样品的香型判别分析,构建Bayes定量判别模型并予以验证,所构建的判别函数对交叉验证分组案例中样品进行回判及留一交叉验证的正确率高于83.3%,研究表明,巨豆三烯酮(A、C)、His、Phe、Trp、假木贼碱、总细胞壁物质等是烟叶样品中普遍存在的且能较好代表烟叶品质的特征物质,可依据原始变量中的不饱合醛酮、氨基酸、β-环柠檬等类物质的含量来对不同烟叶样品的香型进行正确的判别及分类。研究成果对于简化各地烟叶香型的定量判别流程,快速、准确、客观的评价烟叶品质具有重要的现实意义。

[1]朱尊权,郁源培,孙瑞申,等.卷烟工艺[M].北京:北京出版社,2000:18-43.

[2] 张槐苓,葛翠英,穆怀静,等.烟草分析与检验[M].郑州:河南科学技术出版社,1994:103-111.

[3] 谢剑平.烟草香原料[M].北京:化学工业出版社,2009:70.

[4]陆龙建,陈磊,余苓,等.因子分析在卷烟风格特征剖析中的应用[J].烟草科技,2012(10):36-40.

[5]常爱霞,张建平,杜咏梅,等.烤烟香型相关化学成分主导的不同产区烟叶聚类分析[J].中国烟草学报,2010,16(2):14-19.

[6]谢剑平,赵明月,吴鸣,等.白肋烟重要香味物质组成分析的研究[J].烟草科技,2002(10):3-16.

[7]刘百战,宗若雯,岳勇,等.国内外部分白肋烟香味成分的对比分析[J].中国烟草学报,2000,6(2):1-5.

[8]邵岩,宋春满,邓建华,等.云南与津巴布韦烤烟致香物质的相似性分析[J].中国烟草学报,2007,14(4):19-25.

[9]高净净,赵铭钦,梅雅楠,等.洛阳烤烟风格彰显度与常规化学成分的关系[J].中国烟草科学,2015,36(5):38-43.

[10]王一丁,赵铭钦,付搏,等.利用可见-近红外光谱鉴定不同香型风格烤烟的方法[J].中国烟草科学,2015,36(6):88-93.

[11]李伟,陈江华,詹军,等.烤烟香型间致香物质组成比例及其差异分析[J].中国烟草学报,2013,19(2):1-6.

[12]杜咏梅,张建平,王树声,等.主导烤烟香型风格及感官质量差异的主要化学指标分析[J].中国烟草科学,2010,31(5):7-12.

[13]詹军,周芳芳,邓国宾,等.基于化学成分和致香物质的烤烟上部烟叶香型判别分析[J].湖南农业大学学报:自然科学版,2013,39(3):232-241.

[14]唐远驹.关于烤烟香型问题的探讨[J].中国烟草科学,2011,32(3):1-7.

[15]黄翼飞,蔡赞,吴君章,等.定量结构-保留相关关系辅助气相色谱-质谱法和气相色谱-红外光谱法定性分析香精中的醛酮酯类化合物[J].分析化学,2015(10):1558-1564.

[16]何晓群.多元统计分析[M].北京:中国人民大学出版社,2012:143-154.

[17]Richard A,Johnson,DeanW,et al.实用多元统计分析[M].陆璇,译.北京:清华大学出版社,2001:103-107.

[18]国家烟草专卖局.YC/T 162—2011烟草及烟草制品氯的测定 连续流动法[S].北京:中国标准出版社,2001.

[19]国家烟草专卖局.YC/T 173—2003烟草及烟草制品钾的测定 火焰光度法[S].北京:中国标准出版社,2003.

[20]国家烟草专卖局.YC/T 159—2002烟草及烟草制品水溶性糖的测定 连续流动法[S].北京:中国标准出版社,2002.

[21]国家烟草专卖局.YC/T 160—2002烟草及烟草制品总植物碱的测定 连续流动法[S].北京:中国标准出版社,2002.

[22]国家烟草专卖局.YC/T 161—2002烟草及烟草制品总氮的测定 连续流动法[S].北京:中国标准出版社,2002.

[23]国家烟草专卖局.YC/T 251—2008烟草及烟草制品葡萄糖、果糖、蔗糖的测定 离子色谱法[S].北京:中国标准出版社,2008.

[24]国家烟草专卖局.YC/T 176—2003烟草及烟草制品石油醚提取物的测定[S].北京:中国标准出版社,2003.

[25]国家烟草专卖局.YC/T 288—2009烟草及烟草制品多元酸(草酸、苹果酸和柠檬酸)测定 气相色谱法[S].北京:中国标准出版社,2009.

[26]施红林,李忠,杨光宇,等.水蒸气蒸馏返滴定法测定烟草及其制品中总挥发有机酸[J].理化检验:化学分册,2004,40(2):108-110.

[27]杨蕾,侯英,王保兴,等.梯度淋洗/离子色谱法对烟草及烟草制品中7种无机阴离子的快速测定[J].分析测试学报,2010(2):165-170.

[28]胡清源,李力,石杰,等.微波消解-电感耦合等离子体质谱法同时测定烟草中27种元素[J].光谱学与光谱分析,2007,27(6):1210-1213.

[29]国家烟草专卖局.YC/T 202—2006烟草及烟草制品多酚类化合物绿原酸、莨菪亭和芸香苷的测定[S].北京:中国标准出版社,2003.

[30]尹莉丽,赵百东,杨虹琦,等.高效液相色谱法测定烤烟非挥发性有机酸含量[J].湖南农业大学学报:自然科学版,2014(2):139-143.

[31]曹国军.烟草中的氨基酸、类胡萝卜素分析及指纹图谱用于烟用料液质量控制的初步研究[D].南京:南京理工大学,2006.

[32]Peedin G F.Effects of nitrogen rate and ripeness at harvest on some agronomic and chemical characteristics of flue-cured tobacco[C]//Agro–Photo Groups.Congress: Coresta,1995:7.

[33]Cai Jibao,Liu Baizhan,Ling Ping,et al.Analysis of free and bound volatiles by gas chromatography and gas chromatography-mass spectrometry[J].J Chromatogr A, 2002,947(2):267-275.

[34]刘国道,王东劲,侯冠彧,等.海南热带植物叶黄素和β-胡萝卜素含量分析[J].草地学报,2006(2):134-137.

[35]肖遂,周冀衡,杨虹琦,等.气-质联用(GC/MS)法测定烟草生物碱的方法优化[J].湖南农业大学学报:自然科学版,2010(1):22-25.

[36]李兴波,闫克玉,丁海燕,等.河南烤烟(40级)细胞壁物质含量及其规律性研究[J].郑州轻工业学院学报,1999,14(3):27-30.

Construction and Verification of Classification Model for Flavor of Flue-cured Tobacco Based on Factor Analysis and Bayes Discriminant

LI Chao1,LI Exian2*,QIN Yunhua1,XIONG Wen1,WU Yiqin1,WANG Lu1, ZHANG Chengming1,TANG Jie1
(1.Cigarette Product Quality Inspection Institute,Technology Center of Yunnan Tobacco Industry Co.,Ltd.,Kunming 650023,China; 2.YunnanAcademy of Agricultural Sciences,Institute of Biotechnology and Genetic Resources,Kunming 650223,China)

In order to study the relationship between the chemical composition of flue-cured tobacco and its flavor,500 tobacco samples from 71 cities/counties from of domestic provinces were collected from 2011 to 2013.Based on industrial standards and methods from the literatures standards we determined 114 chemical indicators which have been shown to have a significant impact on the quality of tobacco.The dimensions of each index were reduced using MFA(factor analysis),and the quantitative-Flavor factor scores were used in constructing and validating a Bayes discriminant model.The results showed that the original indicators can be made 22 common factors,which can explain 80.459 percent total variance of the original variables.Megastigmatrienone(A,C),His, anabasine,total cell wall material and other substances are widespread in tobacco leaves and can better represent their quality characteristics.Flavor of tobacco could be predicted based on the quantitative discriminant model,which is constructed by unsaturated aldehydes and ketones,acids,bases,and other substances in the cell wall material content,with the correct rate≥83.3%. The model is easy to use and could be important in simplifying the process of tobacco flavor discrimination.

flue-cured tobacco;chemical components;multivariate factor analysis;discriminant analysis

TS41+1

1007-5119(2016)03-0072-07

10.13496/j.issn.1007-5119.2016.03.013

云南中烟工业公司科技项目“适用于卷烟产品质量管控的分析检测平台搭建及应用”(2015JC07);“国内外竞争性卷烟品牌的特性剖析”(2013JC10)

李超(1985-),男,硕士,工程师,主要从事烟草化学、应用统计学研究。E-mail:super88man66@126.com

,E-mail:318475043@qq.com

2015-11-12

2016-01-28

猜你喜欢
判别函数香型烤烟
本期卷首
中国白酒香型概念的提出及演化发展
Fisher判别法在个人信用风险评估中的应用
烤烟上炕机械研制
不同追肥对烤烟品质的影响
游乐设施事故与危险量化判别函数的构建
探究上市公司财务预警的数学模型
烤烟专用水溶根施肥技术介绍(二)
烤烟专用水溶根施肥技术介绍(一)
制造业上市公司财务预警研究