基于化学指标的烟叶产区正交偏最小二乘判别分析

2017-03-09 09:10王俊许多宽肖勇2王勇陈志华2陈维建
中国烟草科学 2017年1期
关键词:中国烟草产区正确率

王俊,许多宽,肖勇2,王勇,陈志华2,陈维建

(1.四川省烟草公司德阳市公司,四川 德阳 618400;2.中国烟草总公司四川省公司,成都 610041)

基于化学指标的烟叶产区正交偏最小二乘判别分析

王俊1,许多宽1,肖勇2,王勇1,陈志华2,陈维建1

(1.四川省烟草公司德阳市公司,四川 德阳 618400;2.中国烟草总公司四川省公司,成都 610041)

为构建基于化学指标的不同产区烟叶的模式识别模型,收集2003—2007年5个年度四川、云南和福建3省份共计1262份烤烟样品的21种化学指标,并进行正交偏最小二乘判别分析(OPLS-DA)。结果表明,基于21种化学指标所构建的OPLS-DA模型显著可靠,模型参数R2X、R2Y和Q2值分别为0.429、0.702和0.627;模型提取出2个预测主成分,对四川、云南和福建3省未知烟样识别正确率分别为76.67%、93.33%和93.33%。基于化学指标的烟叶产区OPLS-DA模型,可以有效识别不同产区烟叶样品,筛选出各产区特征指标并解释产区间差异。

烤烟;化学指标;正交偏最小二乘;判别分析

开发特色优质烟叶对于打造中式卷烟核心技术,提高中式卷烟市场竞争力具有重要意义。不同烟叶产区光照、降水、温度和土壤等生态条件差异较大,所生产的烟叶往往具有不同的品质和风格特征[1-4],连同品种和栽培措施的差异[5-6],形成了生产特色优质烟叶的客观条件。自“特色优质烟叶开发”作为《烟草行业中长期科技发展规划纲要(2006―2020年)》的重大专项实施以来,围绕烟叶品质与环境关系、烟叶品质区划相关研究颇多,包括相关[7]、聚类[8-9]、因子[10]、判别[11-14]、模糊数学[15]、灰色关联[16]、人工神经网络[17]等多种统计方法被运用。但由于各个化学指标间关系的不确定性与复杂性,导致这些统计方法很难系统性地建立烟叶的特征化学指标识别模型[18-19],或模型识别率低[18]。因此,本研究基于烟叶化学指标进行正交偏最小二乘判别分析(Orthogonal Partial Least Squares Regression Discriminant Analysis,OPLS-DA)构建不同产区烟叶的高效模式识别模型,探索不同产区烟叶之间的化学指标差异,并进行解释和预测分析,为辨别烟叶产地、理解和分析烟叶质量和风格特色的形成提供帮助和参考。

1 材料与方法

1.1 烟叶样品

收集整理了“中国烟草科学技术数据库”[20]中2003—2007年5个年度四川、云南和福建3省份的全部烤烟样品信息,共计1262份,其中,四川278份、云南691份、福建293份。烟草品种包括K326、K346、NC82、翠碧1号、红花大金元、云烟85和云烟87。烟叶等级包括B2F、C2F、C3F和X2F。研究中,分别从3个省份各随机抽取30个烟样,构成含有 90个烟样的检测集数据,用于验证模型的有效性。剩余的 1172个烟样作为构建模型的训练集数据。

1.2 烟叶化学成分指标

烟叶化学指标数据来源于“中国烟草科学技术数据库”,指标共21种,包括:水溶性总糖、总植物碱、蛋白质、总氮、还原糖、总挥发酸、总挥发碱、氮碱比、糖碱比、钾氯比、石油醚提取物总量、醚提取物中性总量、醚提取物酸性总量、醚提取物碱性总量、pH、钾、氯、硝酸根、硫酸根、灰分和水溶性灰分碱度。

1.3 正交偏最小二乘分析

偏最小二乘判别(Partial Least Squares Regression Discriminant Analysis, PLS-DA)是基于PLS回归方法,主要反映预测变量和因变量之间的线性关系,是一种有监督分类方法。它基于X变量构建Y变量的预测模型,并根据X变量新的预测集数据预测Y变量。其公式如下:

①式中为X变量均值;为X变量的得分矩阵,是对X变量的概括;P′为X变量的载荷矩阵,是对变量重要性的描述;E为X变量剩余残差矩阵,度量预测值和原始值之间的偏差;为Y变量的均值;U为Y变量的得分矩阵,是对Y变量的概括;′为Y变量的载荷矩阵,是对变量重要性的描述;F为X变量剩余残差矩阵,度量预测值和原始值之间的偏差;H为总剩余残差矩阵。

当X变量是光谱数据、过程数据等,X变量中系统的变异可能同Y变量不是线性相关,即X变量中的这种变异正交在X[21]。虽然正交在X的变异可以由一个 PLS模型来处理,但模型解释性不强。正交偏最小二乘判别(Orthogonal Partial Least Squares Regression Discriminant Analysis, OPLS-DA)是在偏最小二乘判别分析(PLS-DA)基础上发展的算法[21],相较于PLS-DA而言,将X变量中的系统变异分解为两部分,即同Y线性相关的部分和同Y正交。随着正交变异组分的增加,将提供更多的解释性和减少结果的误差[22-23]。

1.4 数据预处理方法

对21种化学指标原始数据进行Logit转换,调整数据正态性;通过Pareto缩放,使数据中心化和无量纲化;将化学指标交叉乘积作为虚拟变量[24]。

1.5 统计软件

采用 SIMCA13(Umetrics AB,Sweden)和Minitab17(TechMax,USA)统计软件进行统计分析。

2 结 果

2.1 烟叶化学指标差异性分析

对3个省份烟叶样品的21种化学指标进行统计分析,结果见表1。可以看出,四川省烟叶醚提取物中性总量(5.71 mg/g)、醚提取物碱性总量(3.24 μg/g)显著低于云南和福建两地;水溶性总糖(32.28%)和硝酸根(0.20%)显著高于其余两地;总挥发酸(0.19%)、总挥发碱(0.29%)和pH(5.39)介于云南和福建之间。云南省烟叶水溶性总糖(29.87%)、还原糖(24.83%)、总挥发酸(0.11%)和糖碱比(9.97)显著低于四川和福建两地;总挥发碱(0.30%)、石油醚提取物总量(5.46%)、pH(5.46)、灰分(11.31%)显著高于四川和福建两地。福建省烟叶总氮(1.96%)、总挥发碱(0.24%)、pH(5.34)、氯(0.27%)显著低于四川和云南两地;总挥发酸(0.28%)、钾氯比(17.83)、钾(2.74%)和硫酸根(1.72%)显著高于四川和云南两地;水溶性总糖(31.15%)介于四川和云南两地之间。总植物碱、蛋白质和水溶性灰分碱度在四川、云南和福建3个省份的烟样中无显著差异。综上所述,3个省份所产烟叶在多个化学指标上存在显著差异,是各省份烟叶风格差异的物质基础。

2.2 烟叶化学指标OPLS-DA模型

表2为烟叶化学指标OPLS-DA模型的统计结果,表明通过训练集 1172个样品构建的模型筛选出了 2个预测主成分和 9个正交主成分,而R2X=0.429,表明该11个主成分对X变量变异的解释能力为42.90%(其中预测主成分5.30%,正交主成分37.70%);R2Y=0.702,表明模型中2个预测主成分对Y变量变异的解释能力为70.20%;Q2=0.627,表明模型中2个预测主成分对不同产区的烟叶样品的预测能力为62.70%。综合来看,模型拟合较好。

图1为基于21种化学指标构建的四川、云南和福建3个烟区烟叶OPLS-DA模型第1、2主成分得分图。可以看出,各个烟区样品群体内有明显的聚集趋势,且3个烟区的样品群体彼此之间能够较好的分离。其中,横坐标为第1主成分得分,表明通过第1主成分可以将四川烟样同云南和福建的区分开;纵坐标为第2主成分得分,表明通过第2主成分可以将福建烟样同四川和云南的区分开。

2.3 模型检验

采用CV-ANOVA(交叉验证方差分析)检验了模型的可靠性,结果(F=99.80,P=0)表明该模型统计上显著有效。将训练集 1172个样品作为验证集样品回验模型识别正确率,结果可以看出(表3),模型对3个烟区样品识别的正确率平均为94.45%,其中四川正确率为88.71%,云南正确率为97.43%,福建正确率为92.40%。

表1 不同省份间烟叶化学指标差异分析Table 1 Statistical results of chemical measurements of tobacco in different provinces

表2 OPLS-DA模型的统计结果Table 2 OPLS-DA model performance statistics

图1 OPLS-DA模型第1、2主成分得分图Fig. 1 Score plot of 1st versus 2nd components in OPLS-DA

进一步用检测集 90个样品检测模型识别正确率,结果可以看出(表4),模型对3个烟区样品识别的正确率平均为 87.78%,其中四川正确率为76.67%,云南正确率为 93.33%,福建正确率为93.33%。

表3 OPLS-DA模型验证集数据识别率Table 3 Accuracy of OPLS-DA model by validation set

表4 OPLS-DA模型检测集数据识别率Table 4 Accuracy of OPLS-DA model by test set

2.4 烟叶特征化学指标筛选

图2为OPLS-DA模型第1、2主成分载荷图,表示了第1、2主成分中的各个化学指标与不同烟区的相关性大小,即图中X变量同Y变量越靠近,表示其相关性越高。图3为OPLS-DA模型的VIP(Variable Importance for the Projection)图,VIP值越大,表示各种化学指标对于解释变量的贡献越大、与产区差异的相关性越高。

从图3中可以筛选出8个VIP值大于1.5、对建模贡献率较大的化学指标,结合图2和图3可以发现烟叶总挥发酸(X6)和硝酸根(X18)2个化学指标同四川相关性高;灰分(X20)、醚提取物中性总量(X12)和醚提取物碱性总量(X14)3个化学指标同云南相关性高;钾氯比(X10)、钾(X16)、硫酸根(X19)3个化学指标同福建相关性高。由表1可以看出,通过OPLS-DA模型筛选的特征物质,在产区间差异显著,具有统计学意义,可以作为产区特征化学指标。

图2 OPLS-DA模型第1、2主成分载荷图Fig. 2 Lording scatter plot of 1st versus 2nd components in OPLS-DA

图3 OPLS-DA模型VIP值Fig. 3 TheVIPplot of OPLS-DA

3 讨 论

张毅[18]采用分类-决策树方法Mining Tree模型分析了湖南、河南、福建和云南4省烟叶样品的21个化学指标,提取各烟区特征化学指标数量为8个、6个、5个和9个,样本量越大的烟区特征指标越多,且部分所筛选指标在各烟区间存在重叠,如4个烟区特征指标都包括钾和硝酸根。本研究构建的OPLS-DA模型分别提取了2个、3个和3个指标作为四川、云南和福建特征化学指标,特征指标数量与样本容量不相关,并且所提取的特征化学指标具有唯一性,各个烟区不存在重叠。本研究提取的云南、福建烟叶特征化学指标与上述Mining Tree模型提取的特征指标有异同,说明模型筛选的特征指标只是相对的特征指标,对于不同的烟区烟叶和分析模型,特征化学指标会有所差异。

对所构建的OPLS-DA模型进行交叉验证时,验证集数据(n=1172)识别率为94.45%,测试集数据(n=90)识别率为87.78%,远高于文献[18]中21.15%水平。在四川、云南和福建同为清香型烟叶产区,且各产区内产地间差异较大(如四川包括3个二级烟草种植区划[25],烟叶包括清香型和中间香型)的背景下,OPLS-DA模型表现良好。研究中,将模型运用于河南、湖南和云南这种产区间烟叶风格差异明显,以及玉溪、攀枝花和龙岩这种产地内烟叶风格差异较小时,结果表明模型拟合效果表现更好,未知样品识别正确率达100%。同时,适当增大训练集样本量,有助于于提高模型精度和可靠性[24]。此外,该模型还可以引入烟叶品种、等级、经纬度、土壤理化指标、气象因子等变量,为明确不同产区烟叶风格特色、形成不同风格特色烟叶的区域定位和定向生产技术提供更系统的参考。

4 结 论

OPLS-DA模型有效地从21种化学指标中筛选出了云南、四川和福建3个烤烟产区烟叶的唯一特征指标,通过提取的预测主成分和正交主成分,对不同产区烟叶之间化学指标的差异进行了解释和预测,这为进一步理解和分析不同生态条件烟叶质量和风格特色的形成提供了新的思路和方法。

[1] 韩锦峰,汪耀富,杨素勤. 干旱胁迫对烤烟化学成分和香气物质含量的影响[J]. 中国烟草,1994(1):35-38.

[2] 韦成才,马英明,艾绥龙,等. 陕南烤烟质量与气候关系研究[J]. 中国烟草科学,2004(3):38-41.

[3] 王淑芳,王爱忠,奕双. 热量条件分析与最佳移栽期探讨[J]. 烟草科技,1991(2):4l-44.

[4] 程昌新,卢秀萍,许自成,等. 基因型和生态因素对烟草香气物质含量的影响[J]. 中国农学通报,2005,21(11):137-139.

[5] 杨铁钊. 烟草育种学[M]. 北京:中国农业出版社,2003.

[6] 中国农业科学院烟草研究所. 中国烟草栽培学[M]. 上海:上海科学技术出版社,2005:113-115.

[7] 于建军,邵惠芳,刘艳芳,等. 四川凉山烤烟叶片巨豆三烯酮含量与生态因子的关系[J]. 生态学报,2009,29(4):1668-1674.

[8] 刘雷,王俊,雷强,等. 凉山和宜宾烤烟烟叶中特征挥发性物质的聚类分析与产地识别[J]. 烟草科技,2013,46(7):58-62.

[9] 王鹏泽,刘鹏飞,来苗,等. 因子、聚类及判别分析在烟叶风格特色评价中的应用[J]. 中国烟草科学,2015,36(2):20-25.

[10] 于建军,代惠娟,李爱军,等. 鄂西南烤烟主要化学成分因子分析及综合评价[J]. 甘肃农业大学学报,2008,43(1):98-101.

[11] 毕淑峰,朱显灵,马成泽. 逐步判别分析在中国烤烟香型鉴定中的应用[J]. 热带作物学报,2006,27(4):104-107.

[12] 杜文,易建华,谭新良,等. 基于近红外光谱的烟叶SIMCA模式识别[J]. 中国烟草科学,2009,15(5):1-5.

[13] LIU L,HUANG Y B,WANG J,et al. Study on Discriminating Flue-Cured Tobacco by Volatile Compounds Related to Geographical Origin and Cultivar[J]. Asian Journal of Chemistry, 2013, 25: 7587-7592.

[14] 施丰成,李东亮,冯广林,等. 基于近红外光谱的PLSDA算法判别烤烟烟叶产地[J]. 烟草科技,2013,46(4):56-59.

[15] 王子芳,秦建成,罗云云,等. 基于模糊数学方法的烟叶品质评价[J]. 土壤通报,2008,39(2):349-353.

[16] 唐力为,顾会战,吴绍军,等. 广元市植烟土壤养分与其烟叶品质的灰色关联分析[J]. 贵州农业科学,2013,47(7):67-72.

[17] 邵惠芳,许自成,李东亮,等. 基于BP神经网络建立烤烟感官质量的预测模型[J]. 中国烟草学报,2011,17(1):19-25.

[18] 张毅,李强,王政,等. 一种基于分类-回归决策树的烤烟产区识别模型[J]. 中国烟草学报,2014,20(6):28-33.

[19] SADEGHI-BAZARGANI H, BANGDIWALA S I, MOHAMMAD K, et al. Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J]. Scientific Research and Essays, 2011, 6(20): 4369-4377.

[20] 国家烟草专卖局科教司.中国烟草科学技术数据库[DB/OL]. (2003-08-05)[2016-03-21]. http://sjk.ztri.com. cn/tobacco/index.jsp.

[21] TRYGG J, WOLD S. Orthogonal Projections to Latent Structures (OPLS)[J].Journal of Chemometrics, 2002, 16(3): 119-128.

[22] ERIKSSON L, JOHANSSON E, WOLD N, et al. Multiand Megavariate Data Analysis: Advanced Applications and Method Extensions(1st ed.)[M]. Umetrics AB; Umea: 2006.

[23] TRYGG J. Prediction and Spectral Profile Estimation in Multivariate Calibration[J]. Journal of Chemometrics, 2004, 18(18): 166-172.

[24] 李东亮. 数据处理方法及其在烟草质量评价中的应用[M]. 郑州:郑州大学出版社,2014.

[25] 中国烟草总公司郑州烟草研究院,中国农业科学院农业资源与农业区划研究所. 中国烟草种植区划[M]. 北京:科学出版社,2009.

The OPLS-DA Model of Tobacco Producing Areas Based on Chemical Measurements

WANG Jun1, XU Duokuan1, XIAO Yong2, WANG Yong1, CHEN Zhihua2, CHEN Weijian1
(1. Sichuan Tobacco Corporation Deyang branch, Deyang, Sichuan 618400, China; 2. China National Tobacco Corporation Sichuan Branch, Chengdu 610041, China)

In order to construct the pattern recognition model of tobacco producing areas based on chemical measurements, 21 chemical measurements from 1262 samples of flue-cured tobacco were collected from 2003 to 2007, and were used to construct a OPLS-DA model. The results showed that the OPLS-DA model was highly significant with the following model performance statistics (R2X=0.429,R2Y=0.702,Q2= 0.627). The OPLS-DA of the training set gave a model with two Y-predictive components, and gave the correct rate of 76.67%, 93.33% and 93.33% to distinguish samples from Sichuan, Yunnan and Fujian tobacco producing areas. The OPLS-DA model based on chemical measurements can recognize tobacco samples from different producing areas, and can be used in screening for biomarkers for different areas and providing interpretations for regional difference of tobacco samples.

flue-cured tobacco; chemical measurements; OPLS; discriminant analysis

TS41+1

1007-5119(2017)01-0091-06

10.13496/j.issn.1007-5119.2017.01.016

公益性行业(农业)科研专项“烟草增香减害关键技术研究与示范”(201203091);中国烟草总公司四川省公司“德阳雪茄烟移栽期研究”(201505)

王 俊(1986-),男,硕士,主要从事烟草化学相关研究。E-mail:599187325@qq.com

2016-05-10

2016-08-15

猜你喜欢
中国烟草产区正确率
"中国烟草科教网"平台简介
个性化护理干预对提高住院患者留取痰标本正确率的影响
各石材产区政府和市场积极推出应对措施
门诊分诊服务态度与正确率对护患关系的影响
澄海玩具产区:企业差异化发展
葡萄酒的产区品牌
葡萄酒的产区品牌(下)
基于完全垄断体制下的中国烟草企业伦理管理浅析
生意
生意