基于判别分析的X射线荧光烟叶产地识别应用

2015-02-09 08:08邢为飞陆道礼戚雪勇
关键词:判别函数产地微量元素

陈 斌,邢为飞,陆道礼,戚雪勇

(1.江苏大学食品与生物工程学院,江苏镇江212013;2.江苏大学药学院,江苏镇江212013)

基于判别分析的X射线荧光烟叶产地识别应用

陈 斌1,邢为飞1,陆道礼1,戚雪勇2

(1.江苏大学食品与生物工程学院,江苏镇江212013;2.江苏大学药学院,江苏镇江212013)

烟叶品质的优劣不仅与品种、生长条件有关,还与其原产地的土壤及生长环境有着较大的关联.根据不同产地烟叶中金属元素分布的差异,提出了利用X射线荧光光谱技术快速检测出烟叶中各种金属元素的分布,结合判别分析法对烟叶产地进行识别的研究.首先对不同产地样品的金属元素的平均值进行分析,发现不同产地烟叶样品间存在较大差异;利用SPSS软件对其中样品数较多的4个地区的烟叶样品进行逐步判别分析并建立判别分析模型,当选入自变量的元素包括Cd,Rb,Ba,As,S等6种元素时,建立的判别函数判别回代准确率为92.9%,交互验证的准确率为90.5%,说明应用X射线荧光分析法来鉴别不同产地的烟叶具有较强可行性.

烟叶;金属元素;X射线;荧光光谱技术;判别分析

烟草是重要的经济作物之一,烟叶的品质与遗传因素、栽培措施、调制技术、产地土壤、气候条件等密切相关.其中,产地土壤和气候条件对烟叶品质的影响极为显著.近年来,对于产地与烟草品质的关系的研究开展得较为普遍和深入,积累了大量的资料.研究表明烟叶产地环境条件不同,烟叶的外观质量、化学成分特别是微量元素存在明显的差异,这种现象称为烟叶产地效应[1].

近年来,相关学者对烟叶产地的模式识别方法进行了研究.束茹欣等[2]对烤烟烟叶样品进行了产地、部位和等级的NIR模式识别,建模时先对NIR光谱数据进行必要的预处理,然后再使用不同的化学计量学算法建立多变量的预测模型.支持向量机算法(SVM)是基于Vapnik的严密数学理论“统计学习理论”上的新颖算法[3],能够提供高的泛化能力并避免过拟合现象.Liu Xu等[4]利用主成分分析(PCA-SVM)联用算法对烟叶中的总糖、还原糖、总氮、烟碱等成分进行了定量研究.在有关烟叶产地识别的报道中,多是运用近红外光谱技术并结合最小二乘支持向量机(LS-SVM)等算法对烟叶的产地进行鉴别[5].X射线荧光分析[6]作为一种确定物质中微量元素种类和含量的一种方法,在对烟叶产地进行识别的报道还比较少.

植物从土壤、肥料、杀虫剂处理、储藏、加工、包装和其他加工过程中吸收大元素[7].不同元素的荧光X射线具有各自的特定波长,因此根据荧光X射线的波长可以确定元素的组成,X射线荧光分析法可对周期表中S-U元素作常量、微量的定性和定量分析.从20世纪中叶起,X射线开始应用到光谱分析领域中,由于光谱干扰少、精确度高、准确度好、分析速度快、检测元素多、测量范围广(0.001%~100%)又可进行无损检测,逐渐成为实验室中主要的手段之一[8].不同品种、不同产地的烟叶,由于品种、环境及土壤等因素的差异,其所含元素种类及含量存在一定差异,本研究拟通过X射线荧光分析法分析烟叶中微量元素的组成及分布情况,结合其生长环境的特征,对烟叶的产地鉴别进行初步的探索.

1 材料与方法

1.1 试验材料和设备

试验所选择的烟叶样品均来自云南省的几个烟叶主产区,分别为保山(9个样)、楚雄(11个样)、大理(11个样)、昭通(11个样)、临沧(3个样)、玉溪(7个样)等6个市的总共52个样品.烟叶为成品烟叶,研磨成粉末状.

X射线荧光分析使用的是江苏天瑞仪器公司的EDX3200SPLUS能量色散型重金属分析仪,见图1.采用超高速SDD探测器,每秒计数可达1 000 kcps;能量分辨率可达到129 eV;采用铑靶光管,功率50 W;3个准直系统,可以采用不同的条件测不同的元素,从而达到最佳效果;分析精度≤10%;测量时间200~1 800 s(根据测试元素及含量高低调节时间长短).

图1 EDX3200SPLUS能量色散型重金属分析仪

试验以已知元素含量的2种巴西烟叶INCTOBTL-5和INCT-PVTL-6为标准品,选定上述52个样品测定元素质量分数w,所测元素包括Cd,Mn,Fe,Ni,Cu,Zn,Br,Rb,Sr,Ba,K,Ca,Pb,As,P,S,Cl,Ti,V,Cr等20个元素,其中K,Ca,P,S,Cl测得量的单位是%,其余元素为10-6.测试的部分数据输出格式见表1.

表1 X荧光光谱仪检测参数及结果

由表1可知,仪器的性能良好,可以用来对样品元素含量进行检测.

1.2 试验过程及数据处理

试验检测过程:将适量烟叶粉末倒入样品杯(图1b)中,置于仪器样品室(图1c)内并设置检测参数,即可开始检测.

数据的统计及产地分析使用的是Excel 2003和SPSS 16.0软件.

2 结果与讨论

2.1 仪器稳定性

为了测试仪器的稳定性,对8号样品进行了3次连续测量,样品移位后进行了第4次测量,测量结果如表2所示,对其进行标准差分析,标准差最大的为Cr,仅为0.94×10-6,可见仪器具有良好的稳定性.

表2 8号样品4次测量结果及误差分析

2.2 不同地区的样品平均值分析

通过对来自6个地区烟末样品的检测数据(见表3)的平均值的观察,可以发现不同地区的烟叶粉末的微量元素的含量存在较大的差异,以表3保山地区为例,可以发现:该地区的Br,Rb,Pb的质量分数明显高于其他5个地区,其中Rb的质量分数为28×10-6比第2高的临沧高出了将近1倍,而P和V的含量又相对于其他5个地区较低,尤其是P,比其他地区的明显偏低.通过对不同地区样品微量元素含量的分析,能够实现产地识别.

表3 保山地区较其他地区含量差异较明显的元素及其平均值

为了对各个地区微量元素的含量有更直观的认识,对各个地区的微量元素进行了简单的定性分析,结果见表4,由表可见不同地区的烟草样品中微量元素含量的高低存在较大差异,用X射线荧光对烟叶产地进行快速识别具有较强的可行性,能够提供技术支持.

表4 各地区微量元素含量高低

2.3 烟叶产地的判别分析

判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法[9],对于要分为m类的研究对象,利用SPSS进行的判别分析可建立m个线性判别函数.对个体进行判别时,把测试的变量值代入各个判别函数,得出判别分数,根据所得判别分数的大小来确定该个体属于哪一类.

2.3.1 判别分析样品的选择

试验所测样品中临沧地区只有3个样,玉溪地区仅有7个样,样品数较少,说服力较弱,因此在判别分析时为了增强说服力选择了保山(9个样)、楚雄(11个样)、大理(11个样)、昭通(11个样)等4个区的样品.

2.3.2 判别模型的建立

判别分析模型的建立所用的方法是逐步判别分析法,逐步判别分析的思想是逐步引入变量,每次引入一个“最重要”的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新引入变量而变得不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束.根据实测数据,把试验所测20种元素全部作为判别指标(变量).这些指标相互有关,而且并非具有等同的判别效果,逐步判别法就是从它们中挑选出主要指标[10].使用Use F value选项,即使用F值进行逐步判别,当加入1个变量(或剔除1个变量)后,对在判别函数中的变量进行方差分析.当计算的F值大于指定的接受值(定为3.84)时,该变量保留在函数中;当该变量使计算的F值小于指定的剔除值(定为2.71)时,该变量从函数中剔除.即当被加入的变量F≥3.84时才把该变量加入到模型中,否则变量不能进入模型;或者当要从模型中移出的变量F≤2.71时,该变量才被移出模型,否则模型中的变量不会被移出.

用于对数据分类的线性判别函数系数见表5.

表5 分类函数系数表

最后进入自变量的是Cd,Rb,Ba,As,S等5个元素.表中数字1,2,3,4表示的地区分别为保山、楚雄、大理、昭通.可得到4个判别函数:

Y1=5.823X1+2.006X2+0.463X3+19.739X4+ 34.209X5-60.520,

Y2=7.141X1+0.311X2+0.435X3+13.604X4+ 15.968X5-27.833,

Y3=5.863X1+0.528X2+0.508X3+10.105X4+ 37.230X5-38.678,

Y4=11.886X1+0.618X2+0.253X3+24.622X4+ 27.493X5-40.586.

判别函数中X1,X2,X3,X4,X5分别表示的元素是Cd,Rb,Ba,As,S.

2.3.3 判别效果的显著性

对于判别分析,研究者最关心的是所建立的判别函数的准确程度如何,常用的验证方法有回代验证法、外部数据验证法、样本二分法和交互验证法等[11].如果建立的判别函数是显著的,则说明构成判别函数的指标的确与事件的发生有显著关系.在本研究中,运用回代验证法和交互验证法2种方法同时对所建立的烟叶产地识别模型进行检验,结果见表6.

表6 判别回代以及交互验证统计表

回代验证法,即用判别函数对已知的样本进行判别回代,如果计算分类中不符合原来实际类属的样本点个数越少,则认为判别效果越好.采用以训练样本为基础的回代估计法计算误判率.回代验证时,以所有的训练样本作为新样本,依次代入建立的判别函数中,并且利用判别准则进行判别,该过程也称为回判.通过判别正确的个数计算出判别准确率[11].

交互验证(cross-validation)是一种重要的判别效果验证方法.若采用交互验证法和回代验证法检验的结果相同,说明模型稳定,用这种方法可以非常有效地避免强影响点的干扰[12].

通过判别回代及交互验证统计分析,4个地区判别回代的准确率为92.9%,只有楚雄的1个样被错分到了昭通,大理的2个样被错分到了楚雄,由此可以说明判别函数具有较强的可信性.又通过交互验证结果可知:楚雄地区有1个样品被错分到了大理,大理地区有3个样品被错分到了楚雄,总体交互验证的判别准确为90.5%.楚雄与大理出现相互被错分到对方地区的原因可能与两地距离比较近采样地区相互接壤有关.

3 结 论

1)不同产地的烟叶样品由于其生长环境、产地土壤和气候条件的不同,而导致其各种金属等微量元素含量存在一定差异,故可以利用烟叶中各种金属等微量元素分布规律作为烟叶产地识别的依据.

2)通过对平均值的观察以及逐步判别分析的结果可以发现,不同产地烟叶某些重金属含量存在一定的差异,因此应用X射线荧光光谱分析法来鉴别不同产地的烟叶是可行的.

3)在现有的烟草样品中,通过初步的逐步判别分析结果可知,判别回代及总体交互验证的准确率分别为92.9%,90.5%,说明模型的稳定较好;通过分类函数系数表可知,对产地识别有较大影响的元素主要包括Cd,Rb,Ba,As,S等5种元素.

[1]Derek Yach.The origins,development,effects,and future of the WHO framework convention on tobacco control:a personal perspective[J].The Lancet,2014,383:1771-1779.

[2]束茹欣,王国东,张建平,等.国产烤烟烟叶的NIRS模式识别[J].烟草科技,2006(8):12-15. Shu Ruxin,Wang Guodong,Zhang Jianping,et al. NIRS-based pattern recognition of domestic flue-cured tobacco[J].Science and Technology of Tobacco,2006(8):12-15.(in Chinese)

[3]Dan Margolis,Walker H Land Jr,Ron Gottlieb,et al. A complex adaptive system using statistical learning theory as an inline preprocess for clinical survival analysis[J].Procedia Computer Science,2011,6:279-284.

[4]Liu Xu,Chen Huacai,Liu Taiang.Application of PCASVR to NIR prediction model for tobacco chemical composition[J].Spectroscopy and Spectral Analysis,2007,27(12):2460-2463.

[5]章 英,贺立源,叶颖泽,等.基于LS-SVM的烤烟烟叶产地判别[J].湖北农业科学,2012,51(3):583-585. Zhang Ying,He Liyuan,Ye Yingze,et al.Identification of producing area of tobacco leaf based on LS-SVM[J].Hubei Agricultural Sciences,2012,51(3):583-585.(in Chinese)

[6]吉 昂.X射线荧光光谱三十年[J].岩矿测试,2012,31(3):383-398. Ji Ang.Development of X-ray fluorescence spectrometry in the30 years[J].Rock and Mineral Analysis,2012,31(3):383-398.(in Chinese)

[7]Martinez T,Lartigue J,Zarazua G,etal.Application of the total reflection X-ray fluorescence technique to trace elements determination in tobacco[J].Spectrochimica Acta Part B:Atomic Spectroscopy,2008,63(12):1469-1472.

[8]Furuhashi K,Uo M,Kitagawa Y,etal.Rapid and nondestructive analysis ofmetallic dental restorations using X-ray fluorescence spectra and light-element sampling tools[J].Applied Surface Science,2012,262:13-18.

[9]张红涛,毛罕平,韩绿化.基于核Fisher判别分析的粮虫特征压缩方法[J].江苏大学学报:自然科学版,2012,33(1):16-20. Zhang Hongtao,Mao Hanping,Han Lühua.Feature compression of stored-grain insects based on kernel Fisher discrimination analysis[J].Journal of Jiangsu University:Natural Science Edition,2012,33(1):16-20.(in Chinese)

[10]Sajad Sabzi,Payam Javadikia,Hekmat Rabani,et al. Mass modeling of Bam orange with ANFIS and SPSS methods for using in machine vision[J].Measurement,2013,46(9):3333-3341.

[11]郑国强,张洪江,刘 涛,等.基于Bayes判别分析法的密云县山洪泥石流预报模型[J].水土保持通报,2009,29(1):208-211. Zheng Guoqiang,Zhang Hongjiang,Liu Tao,et al. Prediction model of flush flood and debris flow in Miyun county based on bayes discriminatory analysis[J].Bulletin of Soil and Water Conservation,2009,29(1):208-211.(in Chinese)

[12]陈红江,李夕兵,刘爱华,等.用Fisher判别法确定矿井突水水源[J].中南大学学报:自然科学版,2009,40(4):1114-1120. Chen Hongjiang,Li Xibing,Liu Aihua,et al.Identifying ofminewater inrush sources by Fisher discriminant analysismethod[J].Journal of Central South University:Science and Technology,2009,40(4):1114-1120.(in Chinese)

(责任编辑 祝贞学)

Producing area identifying of tobacco leaf by X-ray fluorescence spectrometry based on discriminant analysis

Chen Bin1,Xing Weifei1,Lu Daoli1,Qi Xueyong2
(1.School of Food and Biological Engineering,Jiangsu University,Zhenjiang,Jiangsu 212013,China;2.School of Pharmacy,Jiangsu University,Zhenjiang,Jiangsu 212013,China)

The quality of tobacco leaf is not only related to the variety and growth conditions,but also shows great relationship with soil and growing environment of original producing area.Based on the distribution difference of metallic elements in tobacco leaves from different producing areas,X-ray fluorescence spectrometry was proposed for rapid detection of metallic elements in tobacco leaves and combined with discriminant analysis for identifying the producing areas of tobacco leaves.Through analyzing the mean value of metallic elements in tobacco leaves from different producing areas,a big difference was observed among tobacco samples from different producing areas.By SPSS,an analytical model was established based on stepwise discriminant analysis of tobacco leaf samples from 4 producing areas withmore contributed samples than other areas.The results show thatwhen Cd,Rb,Ba,As and S were included as independent variables,the discrimination function has discriminative accuracy of back substitution of 92.9%with cross validation accuracy of 90.5%.The identifying producing area of tobacco leaf by X-ray fluorescence analysis is highly feasible.

tobacco leaf;metallic elements;X-ray;fluorescence spectrometric technology;discriminant analysis

O434.19

A

1671-7775(2015)05-0545-05

陈 斌,邢为飞,陆道礼,等.基于判别分析的X射线荧光烟叶产地识别应用[J].江苏大学学报:自然科学版,2015,36(5):545-549.

10.3969/j.issn.1671-7775.2015.05.009

2014-11-18

国家自然科学基金资助项目(31271874);镇江市科技计划项目(2014023)

陈 斌(1960—),男,江苏镇江人,教授,博士生导师(ncp@ujs.edu.cn),主要从事光谱技术的研究与应用.邢为飞(1989—),男,江苏徐州人,硕士研究生(410481596@qq.com),主要从事光谱技术的研究与应用.

猜你喜欢
判别函数产地微量元素
Fisher判别法在个人信用风险评估中的应用
ICP-OES法测定钢和铁中微量元素
游乐设施事故与危险量化判别函数的构建
警惕“洗产地”暗礁
解析中微量元素
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
探究上市公司财务预警的数学模型
加强产地检疫实现以检促防
基于Fisher判别函数的酒店员工离职预警研究