胡建军,李广才,李耀光,冯晓民,周冀衡,柳 昕
1.中国烟草总公司职工进修学院,郑州市金水区鑫苑路7号 450008
2.河南中烟工业有限责任公司技术中心,郑州市管城区陇海东路72号 450000
3.湖南农业大学烟草与健康重点实验室,长沙市芙蓉区农大路1号 410128
4.北京市烟草质量监督检验站,北京市朝阳区樱花西街10号 100029
烟叶化学成分与感官品质的关系较为复杂,一直备受广大研究者的关注[1-11]。事实上,二者之间存在着较为复杂的线性或非线性关系,其中线性关系得到了较为广泛的分析[2-9],而非线性关系的研究则较少[10-11]。统计上,两个变量之间的关系是一次函数关系的,其图像是直线,两个变量之间的这种关系就是“线性关系”;如果不是一次函数关系的,其图像不是直线,就是“非线性关系”。广义可加模型(Generalized Additive Model,GAM)作为一种能够较好地拟合变量间非线性关系的统计分析方法[12-13],为揭示烟叶化学成分与感官评吸质量间存在何种形式的非线性关系提供了新的途径。目前,广义可加模型在生态学、医学、环境科学等领域得到了广泛的应用[14-16],但在烟草科学研究领域尚未得到广泛而灵活的应用[10-11]。因此,构建了基于广义可加模型的非线性关系识别方法,并分析了国内烤烟4 种常规化学成分(总氮、烟碱、总糖和还原糖)含量与感官评价指标间的非线性关系。
2005—2007年采集云南、贵州、河南、湖南、福建、四川、山东、安徽等国内主产烟区烤烟中部烟叶(8~12叶位)497 个样本。
1.2.1 烟叶常规化学成分分析与感官质量评价
采用连续流动法[17]测定了各烟叶样本的总氮、烟碱、总糖和还原糖含量,并由省级以上卷烟感官评吸专家(5~8 名)按9 分标度制[6],对各卷制样品的香气质、香气量、杂气、刺激性和余味等感官评价指标进行定量评分,取其平均值作为各感官评价指标得分。
1.2.2 基于广义可加模型的非线性关系识别
设Y 为因变量,X1,X2,…,Xp为自变量,经典的线性回归模型一般可表示为:
式中:回归系数β0,β1,…,βp的参数估计一般通过最小二乘法获得。
可加模型是线性模型的扩展,其一般形式为:
式中:si(Xi)为光滑函数(i=1,2,…,p),满足E[sj(Xj)]=0。si(Xi)并不给定参数形式,而是以非参数形式来估计。它的非参数形式使得模型非常灵活,可以是光滑样条函数、核函数或局部回归光滑函数,以揭示自变量的非线性效应。
广义可加模型与广义线性模型类似,包括1 个随机成分(random component),1 个可加成 分(additive component)以及两者的连接函数(link function)。随机成分,即因变量Y,服从指数分布族,可以是正态分布、二项分布、负二项分布、Poisson 分布、Gamma 分布等,即:
式中:θi为该指数类分布的似然参数,不同yi对应不同的θi;φ 为尺度参数,它对所有yi都取相同值;b(·)和c(·)为 函数,它们决定了分布的特殊形式。
可加成分为:
连接函数g(·)将随机成分与可加成分联结成g(μ)=η。例如,对于服从正态分布的模型,其连接函数为恒等变换函数η=g(μ)=μ;对于二分类数据的非参数logit 模型,其连接函数则为logit 变换函数
广义可加模型的估计,是在最小二乘法的基础上增加了1 项惩罚项来保证节点处的光滑性,称为惩罚最小二乘法(penalized sum of squares)。实际计算中采用局部积分(local scoring)算法,即由迭代再复加权最小二乘法(Iterative Reweighted Least Squares,IRLS)与反向拟合(back-fitting)过程合并而成[12-13]。
广义可加模型中每一项不必都是非线性的,可以纳入线性等参数项,这种模型称为半参数广义可加模型(semi-parametric generalized additive models)。为揭示自变量Xi与因变量Y 之间的线性与非线性关系,同时构建了1 个半参数广义可加模型[18](模型1)和1个线性模型(模型2)。
第1 个模型对于变量Xi包括线性和非线性两部分,可表示为:
第2 个模型对于变量Xi是线性的,可表示为:
假设K1,K2分别表示模型1 和2 的对数似然函数值,则在原假设为两变量间不存在非线性关系的前提下,统计量D=K1-K2服从自由度为df 的卡方分布(Chi-square distribution)。其中,n 为样本量,tr()为“平滑系数”矩阵的逆矩阵的迹,“平滑系数”矩阵的定义与计算见文献[12]。假设α=0.05,进行统计假设检验。若P 值大于0.05,则说明两变量间不存在非线性关系;否则,两变量间存在非线性关系。
运用Trevor Hastie 开发的基于R 软件的GAM 软件包完成统计分析[19-23]。
对烤烟研究样本的常规化学成分与感官评价指标进行了描述统计,结果见表1。由表1 可以看出,样品烟叶4 种常规化学成分与感官评价指标在不同样品间存在较为广泛的变异,烟碱、总氮、总糖和还原糖等常规化学成分的变异明显大于香气质、香气量、杂气、刺激性和余味等感官评价指标的变异;常规化学成分以烟碱的变异最大、总糖的变异最小,感官评价指标中以香气质得分的变异最大、余味得分的变异最小。对于全部497 个样本,烟碱的偏度系数大于0,为正向偏态分布;总氮、总糖、还原糖、香气质、香气量、杂气、刺激性和余味的偏度系数都小于0,为负向偏态分布;烟碱、总氮、总糖、还原糖、香气质、香气量、杂气、刺激性和余味的峰度系数大于0,为尖峭峰,数据大多集中在平均值附近。
表1 样品烤烟常规化学成分与感官评价指标的描述统计
烤烟烟叶总氮含量与感官评价指标的广义可加模型分析结果(表2)表明,在样品烟叶化学成分的分布范围内和5%显著水平下,总氮与香气质、香气量、杂气、刺激性和余味呈显著线性负相关,与香气质、杂气、刺激性和余味呈显著非线性相关。统计检验结果(表3)也表明,只有总氮与香气量的非线性关系不显著(P 值大于0.05)。图1 表明,总氮与香气质、杂气、刺激性和余味间存在明显的“∩”型曲线关系。烤烟烟叶总氮含量为2.5%左右时评吸质量最佳,低于1.5%或高于2.8%时评吸质量明显下降,适宜区间为1.5%~2.8%。
表2 总氮含量与感官评价指标的广义可加模型分析结果
表3 总氮含量与感官评价指标的非线性关系统计检验结果
图1 烟叶总氮含量与感官评价指标的相互关系
烤烟烟叶烟碱含量与感官评价指标的广义可加模型分析结果(表4)表明,在样品烟叶化学成分的分布范围内和5%显著水平下,烟碱与香气量呈显著线性正相关,与余味呈显著线性负相关,与香气质、香气量、杂气、刺激性和余味均呈现显著非线性相关。统计检验结果(表5)也表明,烟碱与香气质、香气量、杂气、刺激性和余味均存在显著的非线性关系。图2 表明,烟碱与香气质、香气量、杂气、刺激性和余味之间存在明显的“∩”型曲线关系。烤烟烟叶烟碱含量为2.5%左右时评吸质量最佳,低于2.0%或超过3.5%时评吸质量明显下降,适宜区间为2.0%~3.5%。
表4 烟碱含量与感官评价指标的广义可加模型分析结果
表5 烟碱含量与感官评价指标的非线性关系统计检验结果
图2 烟碱含量与感官评价指标的相互关系
烤烟烟叶总糖含量与感官评价指标的广义可加模型分析结果(表6)表明,在样品烟叶化学成分的分布范围内和5%显著水平下,总糖与香气质、香气量、杂气、刺激性和余味呈显著线性正相关,与香气质、香气量、杂气、刺激性和余味呈显著非线性相关。统计检验结果(表7)也表明,总糖与香气质、香气量、杂气、刺激性和余味均存在显著的非线性关系。图3 表明,总糖与香气质、香气量、杂气、刺激性和余味间存在明显的“∩”型曲线关系。烤烟烟叶总糖含量为22%左右时评吸质量最佳,低于15%或超过28%时评吸质量明显下降,适宜区间为15%~28%。
表6 总糖含量与感官评价指标的广义可加模型分析结果
表7 总糖含量与感官评价指标的非线性关系统计检验结果
图3 总糖含量与感官评价指标的相互关系
烤烟烟叶还原糖含量与感官评价指标的广义可加模型分析结果(表8)表明,在样品烟叶化学成分的分布范围内和5%显著水平下,还原糖与香气质、香气量、杂气、刺激性和余味呈显著线性正相关,与香气质、香气量、杂气、刺激性和余味呈显著非线性相关。统计检验结果(表9)也证实,还原糖与香气质、香气量、杂气、刺激性和余味均存在显著的非线性关系。图4 表明,还原糖与香气质、香气量、杂气、刺激性和余味间存在明显的“∩”型曲线关系。烤烟烟叶还原糖含量为18%左右时评吸质量最佳,低于15%或超过25%时评吸质量明显下降,适宜区间为15%~25%。
表8 还原糖含量与感官评价指标的广义可加模型分析结果①
表9 还原糖含量与感官评价指标的非线性关系统计检验结果
图4 还原糖含量与感官评价指标的相互关系
在样品烟叶化学成分的分布范围内和5%显著水平下,总氮与香气质、香气量、杂气、刺激性和余味呈显著线性负相关,烟碱与香气量、余味分别呈显著线性正相关和负相关,总糖、还原糖与香气质、香气量、杂气、刺激性和余味均呈显著线性正相关。这与文献[6-8]研究结论基本一致,但总氮与香气的关系存在差异。
总氮与香气质、杂气、刺激性和余味之间,烟碱、总糖、还原糖与香气质、香气量、杂气、刺激性和余味之间都存在显著的非线性关系,且上述非线性关系均表现为明显的“∩”型曲线关系,而总氮与香气量的非线性关系在5%显著水平下是不显著的。因此,当非线性关系显著时,应慎重对待线性相关分析的结论。例如,在一些文献中,经常出现总氮与香气质、香气量的线性相关系数正负不一致的结论,主要是因为两者间的真实关系是“∩”型曲线关系,其线性相关系数的正负主要取决于烟叶样本总氮含量的分布范围。
烤烟烟叶总氮、烟碱、总糖和还原糖含量的适宜区间分别为1.5%~2.8%,2.0%~3.5%,15%~28%和15%~25%。这与中国烟草种植区划课题组确定的适宜区间(总氮含量2.0%~2.5%、烟碱含量2.2%~2.8%和还原糖含量18%~22%)基本一致[24]。需要指出的是,在实际应用中,若能综合考虑烟叶产区、品种、部位的影响,划分的化学成分适宜区间的实际意义将得到明显提升。
[1]谢剑平.烟草香料技术原理与应用[M].北京:化学工业出版社,2009:129-153.
[2]杜咏梅,张怀宝,付秋娟,等.烤烟非挥发有机酸、高级脂肪酸与其他成分及其感官品质的关系[J].烟草科技,2011(6):29-34.
[3]高远,张艳玲,张仕祥,等.不同香型烤烟类胡萝卜素及其降解产物含量与感官质量的关系[J].烟草科技,2014(2):38-43.
[4]薛超群,王建伟,奚家勤,等.烤烟烟叶理化指标与焦甜感程度的关系[J].烟草科技,2011(12):9-13.
[5]王丽丽,汤朝起,王以慧,等.贺州晒黄烟主要生物碱含量与其评吸质量的相关性研究[J].中国烟草学报,2013,19(3):23-27.
[6]邓小华,周冀衡,陈冬林,等.湖南烤烟还原糖含量区域特征及其对评吸质量的影响[J].烟草科技,2008(12):13-19.
[7]胡建军,马明,李耀光,等.烟叶主要化学指标与其评吸质量的灰色关联分析[J].烟草科技,2001(1):3-7.
[8]闫克玉,王建民,屈剑波,等.河南烤烟评吸质量与主要理化指标的相关分析[J].烟草科技,2001(10):5-9.
[9]胡建军,周冀衡,李文伟,等.烤烟香味成分与其评吸质量的典型相关分析[J].烟草科技,2007(3):9-15,20.
[10]胡建军,李广才,周冀衡,等.湖南烤烟生物碱含量与其评吸质量的相互关系研究[J].中国烟草学报,2011,17(4):31-42.
[11]李广才,余玉梅,胡建军,等.湖南烤烟主要化学成分与评吸质量的非线性关系解析[J].中国烟草学报,2012,18(4):17-26.
[12]Hastie T J,Tibshirani R J.Generalized additive models [M].London:Chapman and Hall,1990:89-90.
[13]Wood S N.Generalized Additive Models:An Introduction with R[M].New York:Chapman and Hall/CRC,2006.
[14]Lehmann A.GIS modeling of submerged macrophyte distribution using generalized additive models[J].Plant Ecology,1998,139(1):113-124.
[15]Johansen D,Grønbæk M,Overvad K,et al.Generalized additive models applied to analysis of the relation between amount and type of alcohol and all-cause mortality[J].European Journal of Epidemiology,2005,20(1):29-36.
[16]Politou C Y,Tserpes G,Dokos J.Identification of deep-water pink shrimp abundance distribution patterns and nursery grounds in the eastern Mediterranean by means of generalized additive modelling [J].Hydrobiologia,2008,612(1):99-107.
[17]黄嘉礽.烟草工业手册[M].北京:中国轻工业出版社,1999:625-870.
[18]Radomski D,Lewandowski Z,Roszkowski P I.An application of a generalized additive model for an identification of a nonlinear relation between a course of menstrual cycles and a risk of endometrioid cysts[J].Information Technologies in Biomedicine:Advances in Soft Computing,2008,47(1):482-487.
[19]Venables W N,Ripley B D.Modern applied statistics with S-PLUS[M].4th Edition.New York :Springer Verlag,2002.
[20]Brian S E.A handbook of statistical analyses using S-PLUS[M].2nd Edition.New York:CRC,2001.
[21]Wood S N.Fast stable direct fitting and smoothness selection for generalized additive models[J].Journal of the Royal Statistical Society Series B,2008,70(3):495-518.
[22]Michael J C.The R book[M].Chichester:John Wiley&Sons Ltd,2007.
[23]The R development core team.R:A language and environment for statistical computing[CP/OL].[2014-06-24].Vienna:R Foundation for Statistical Computing.http://www.R-project.org.
[24]王彦亭,谢剑平,李志宏.中国烟草种植区划[M].北京:科学出版社,2010.