ICPAES结合主成分分析和决策树模型的四种品牌白酒鉴别方法研究

2016-02-17 03:11吴文林万渝平梁恒兴肖全伟朱霞萍

食品工业科技 2016年24期

郑劼,吴文林,万渝平,梁恒兴,肖全伟,朱霞萍

(1.成都理工大学材料与化学化工学院,四川成都 610059;2.成都市食品药品检验研究院,四川成都 610100)

郑劼1,吴文林2,*,万渝平2,梁恒兴2,肖全伟2,朱霞萍1

(1.成都理工大学材料与化学化工学院,四川成都 610059;2.成都市食品药品检验研究院,四川成都 610100)

采用电感耦合等离子体原子发射光谱(ICP-AES)测定了四种品牌56个白酒样品(五粮液,郎酒,全兴,五津醇)中的16种元素含量。通过对结果进行z-score标准化,消除各元素间量纲差异,再对其进行主成分分析。结果表明,第一主成分的方差贡献率为40.3%,前十主成分的贡献率达96.3%,基本保留了原变量的所有信息。选择前十主成分建立决策树分类预测模型,模型的交叉验证准确率高达97.6%,再用模型预测未参与建模的15个白酒样品,准确率高达100%。模型能够准确区分五粮液,郎酒,全兴,五津醇四种品牌白酒。

白酒,元素,ICP-AES,主成分分析,决策树模型

酒是一种广受全世界人民喜爱,具有极高商业价值的饮品[1]。白酒是我国具有5000多年历史的传统特色食品之一,其制作工艺独特,和白兰地(Brandy)、威士忌(Whisky)、金酒(Gin)、伏特加(Vodka)、朗姆酒(Rum)并称为世界六大著名蒸馏酒[2-3]。

据报道[4],2015年全年全国白酒折65度商品量达1312.80万千升。但在白酒产业蓬勃发展的同时,白酒的制假售假案件屡禁不止。由于行业门槛低,小规模酒厂数量众多,白酒生产流通环节监管不力等因素,导致消费者买到以假充真,以次充好的假冒伪劣白酒的案件时有发生,严重损害了消费者的健康和合法权益,对白酒行业的健康发展产生了巨大的影响。

随着人们对白酒的深入研究,白酒中的元素越来越受到人们的重视。一方面,白酒中元素含量的高低直接影响消费者的身体健康,另一方面,元素可以直接影响白酒的感官。对于不同的品牌白酒,由于其生产原料、蒸馏设备、储存器皿等不同,某些微量元素的含量也不尽相同。国内外研究者采用ICP-OES[5],ICP-MS[8]等测定酒中元素含量,并用PCA[9],PLS-DA[12],SVM[15]等多元统计分析方法对采集的数据进行分析,挖掘数据内在联系,建立不同产地,不同品牌白酒的分类预测模型。Vivien F[16]用ICP-MS分析了加拿大两个主要产酒城市尼加拉瓜(Niagara)和奥肯那根(Okanagan)的酒的痕量金属指纹图谱。通过同时测定白酒中的34种痕量元素(Li,Be,Mg,Al,P,Cl,Ca,Ti,V,Mn,Fe,Co,Ni,Cu,Zn,As,Se,Br,Rb,Sr,Mo,Ag,Cd,Sb,I,Cs,Ba,La,Ce,Tl,Pb,Bi,Th,和U)浓度,并用统计学工具建模。结果表明,两种产地的酒能够区分,且准确度高达100%。Eugenio C[6]用ICP-MS研究了净化,过滤,储存等对白葡萄酒样品中的稀土元素(Rare Earth Elements,REEs)含量的影响。研究表明,净化、过滤等操作均会不同程度的影响稀土元素浓度但不会影响其它金属元素的含量,用木头或不锈钢储存会比用玻璃储存的浓度影响小。

现有研究多集中于白酒中香味物质的鉴别,通过白酒中微量元素浓度差异来区分各品牌白酒的研究较少。本实验采用ICP-AES测定了四种具有代表性的白酒(五粮液,郎酒,全兴,五津醇)中16种元素含量,再用Matlab软件分析其差异。对z-score标准化的数据进行主成分分析,并建立四种品牌白酒的决策树模型。建立的模型可正确预测四种品牌白酒,为白酒的鉴别提供科学有效的技术手段。

1 材料与方法

1.1 材料与仪器

白酒S1～S11为五粮液(WLY)、S12～22为郎酒(LJ)、S23～38为全兴(QX)、S39～56为五津醇(WJC) 其中五粮液的生产日期为2012～2014年,郎酒为2009～2014年,全兴为2012～2014年,五津醇2013～2014年;Al、As、Ca、Cd、Cr、Cu、Fe、K、Mg、Mn、Na、Ni、Pb、Se、Sr和Zn标准储备液由国家有色金属及电子材料分析测试中心提供;硝酸(优级纯) 由西陇化工股份有限公司提供;高氯酸(优级纯) 由天津鑫源化工有限责任公司提供;实验用水为一级水。

电感耦合等离子体原子发射光谱仪美国Varian公司VISTA-PRO型;Milli-Q净化系统美国Millipore公司;所有玻璃器皿均用10%硝酸浸泡24 h以上。

1.2 样品前处理

准确称取15 g(精确至0.1 mg)白酒样品于250 mL锥形瓶中,置于电热板(250 ℃)蒸发浓缩至1 mL,冷却后加入10 mL混合酸(硝酸∶高氯酸,5∶1),于电热板上消解至无色,继续加热至溶液剩约1 mL;转移至25 mL容量瓶,定容。

1.3 仪器分析条件

功率:1.25 kW;等离子气流量:18.0 L/min;助燃气流速:2.25 L/min;喷雾压力:200 kPa;进样延迟:25 s;泵速:15 r/min;清洗时间:10 s。

1.4 数据处理与分析

1.4.1 原始数据标准化对原始数据进行z-score标准化。将原数据减去该变量的平均数,然后除以该变量的标准差。以消除原始数据间的量纲影响,使数据更具可比性。

1.4.2 数据分析采用Matlab(R2015a)对不同品牌白酒元素浓度进行主成分分析并用经主成分分析降维的数据建立四种品牌白酒的决策树模型。

2 结果与讨论

2.1 白酒样品元素的测定

采用ICP-AES测定样品中Al、As、Ca、Cd、Cr、Cu、Fe、K、Mg、Mn、Na、Ni、Pb、Se、Sr和Zn等16种元素含量。测定结果如表1所示,箱型图如图1所示。结果表明,不同白酒样品中各元素含量差异较大,因此对数据进行标准化处理,消除量纲影响是很有必要的。

图1 56组白酒样品中的元素含量箱型图Fig.1 Concentration box plot of elements in the 56 analyzed spirit samples

表1 各品牌白酒元素浓度范围(mg/L)

2.2 主成分分析

主成分分析法(Principal Component Analysis,PCA)是一种降低数据维度并且能够最大限度地保留了样本所固有的原始信息的有效方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,使复杂的原始数据变成几个新变量,转换后的这组变量叫主成分。这是挖掘多变量间关联问题的有效方法[17]。

本研究以56个酒样中16种元素浓度构成56×16的矩阵,经z-score标准化后,利用Matlab软件进行主成分分析,其因子数目和特征值大小如图2所示。碎石图的拐点出现在第二和第三主成分之间。第一主成分的方差贡献率为40.3%,前三主成分特征值累积占方差的66.1%,解释了白酒样品间的大部分差异,后面的特征值贡献率越来越少。前十主成分方差贡献率为96.3%,基本保留了原来变量的所有信息,故选择前十主成分进行品牌白酒的建模分析。

图2 主成分碎石图Fig.2 Scree plot of PCA

以主成分PC 1为X轴,分别以PC 2,PC 3为Y轴,建立每个白酒样品的得分图(图3)。如图3A所示,五津醇白酒与郎酒、五粮液、全兴白酒相比差异明显,能与其它品牌白酒区分开,但其点相对离散,在主成分1上的得分范围较广。郎酒与五粮液可各自区分,但与全兴白酒部分分布存在交叉。

如图3B所示,四种品牌白酒能够有效区分,但其区分度不及图3A。郎酒被五津醇、五粮液、全兴从三个方向包围,虽然在图中并没有交点,但是建立分类预测模型时极有可能误判。前三组分的方差贡献率为66.1%,解释了四种品牌白酒样品的大部分差异,能将四种品牌白酒有效区分,但区分不明显,辨识度不高。由于白酒中各元素浓度受较多因素影响,同一品牌,不同品种、批次的样品的含量差异也较大。基于主成分分析的白酒区分方法体现了不同品牌白酒中16种元素种类和含量的个性和共性,反映了不同品牌白酒的典型性及相似性。

图3 白酒样品主成分得分图Fig.3 PCA score plot for spirit sample

2.3 分类预测模型建立

决策树(Decision Tree,DT)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果[17]。相比贝叶斯或偏最小二乘判别分析等算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。

交叉验证[11](cross-validation)是验证分类预测模型的最常用方法,它将样品分为两部分,一部分为训练集,另一部分为验证集,训练集和验证集均有不同类别的独立样品。模型的建立和验证过程会重复多次来保证每个样品都能作为训练或者测试的样本。通常采用的交叉验证方法分别为Leave One Out和N-flod。N-fold指所有样品被随机均分为N组,N-1组作为训练集,1组作为验证集。再以不同的组作为验证集,重复N次,直至每个样品都能作为一次训练集和一次验证集,输出其混淆矩阵。

本研究以经主成分分析降维后的数据为变量,将样品随机分为两组,训练集41个样品,验证集15个样品,以5-flod为交叉验证方法建立四种品牌白酒样品的决策树模型,验证结果如表2。模型的总准确率达97.6%。五粮液、五津醇、全兴的真阳率(Ture Positive Rates,TPR)为100%,郎酒的假阴率(False Negative Rate,FNR)为12.5%,有一个样品被误判,22号郎酒样品被误判为全兴。22号为郎酒原桨酒。8组郎酒样品中6组为酱香型,1组为浓酱兼香型,1组为浓香型。由于酱香型和浓香型白酒的生产工艺不同,导致22号白酒样品的16种元素的浓度特征与其余郎酒样品有所差异,在该模型中被误判为正常现象。再用经交叉验证的模型预测15个未参与建模的白酒样品,预测准确率高达100%。根据主成分分析结果(图3),郎酒和五粮液,五粮液和五津醇,全兴和五津醇均无重叠区域,能直接区分,不存在误判的可能性,郎酒与其余三种品牌白酒的区分度较低,可能存在误判。在本模型中,两组郎酒样品分别被误判为全兴和五津醇。决策树模型结果与主成分分析结果相符。

表2 决策树模型交叉验证及预测结果

图4为所建立的决策树模型。五津醇首先通过PC 1与其它3个品牌白酒分开,然后通过PC 3将样品分为2组,一组为五粮液和郎酒,另一组为郎酒和全兴。最后再分别分开。结果表明,通过ICP-AES测定酒中的16种元素含量,经z-score标准化,主成分分析降维,可以有效区分四种品牌白酒。

图4 决策树模型图Fig.4 plot of Decision Tree

3 结论

本文采用ICP-AES测定了四种品牌56个白酒样品中的16种元素含量。分析数据经z-score标准化后,进行主成分分析降维。前十主成分方差贡献率为96.3%,基本保留了原来变量的所有信息。选择前十主成分建立决策树模型,交叉验证结果表明模型的总准确率达97.6%,再用模型预测未参与建模的15个白酒样品,准确率高达100%。模型能够有效区分五粮液、郎酒、全兴、五津醇四种品牌白酒,建立的模型可为品牌白酒鉴别提供参考。

[1]Vaclavik L,Lacina O,Hajslova J,et al. The use of high performance liquid chromatography-quadrupole time-of-flight mass spectrometry coupled to advanced data mining and chemometric tools for discrimination and classification of red wines according to their variety[J]. Analytica Chimica Acta,2011,685(1):45-51.

[2]王传荣. 白酒的香型及其风味特征研究[J]. 酿酒科技,2008(9):49-52.

[3]刘玉平,黄明泉,郑福平,等. 中国白酒中挥发性成分研究进展[J]. 食品科学,2010,31(21):437-441.

[4]马勇. 中国白酒三十年发展报告(上)[J]. 酿酒科技,2016(2):17-22.

[6]Rossano E C,Szilágyi Z,Malorni A,et al. Influence of Winemaking Practices on the Concentration of Rare Earth Elements in White Wines Studied by Inductively Coupled Plasma Mass Spectrometry[J]. Journal of Agricultural and Food Chemistry,2007,55(2):311-317.

[7]Zhuang H,Ni Y,Kokot S. Combining HPLC-DAD and ICP-MS data for improved analysis of complex samples:Classification of the root samples from Cortex moutan[J]. Chemometrics and Intelligent Laboratory Systems,2014,135(2014):183-191.

[8]Kruzlicova D,Fiket Ž,Kniewald G. Classification of Croatian wine varieties using multivariate analysis of data obtained by high resolution ICP-MS analysis[J]. Food Research International,2013,54(1):621-626.

[9]Wang M,Avula B,Wang Y-H,et al. An integrated approach utilising chemometrics and GC/MS for classification of chamomile flowers,essential oils and commercial products[J]. Food Chemistry,2014,152(2014):391-398.

[10]Bannur Z,Teh L K,Hennesy T,et al. The differential metabolite profiles of acute lymphoblastic leukaemic patients treated with 6-mercaptopurine using untargeted metabolomics approach[J]. Clinical Biochemistry,2014,47(6):427-431.

[11]Zhu K,Nie S,Gong D,et al. Effect of polysaccharide from Ganoderma atrum on the serum metabolites of type 2 diabetic rats[J]. Food Hydrocolloids,2016,53:31-36.

[12]Zheng J,Liang R,Wu C,et al. Discrimination of different kinds of Luzhou-flavor raw liquors based on their volatile features[J]. Food Research International,2014,56:77-84.

[13]Worley B,Halouska S,Powers R. Utilities for quantifying separation in PCA/PLS-DA scores plots[J]. Analytical Biochemistry,2013,433(2):102-104.

[14]Almeida M R,Fidelis C H V,Barata L E S,et al. Classification of Amazonian rosewood essential oil by Raman spectroscopy and PLS-DA with reliability estimation[J]. Talanta,2013,117:305-311.

[15]朱焯炜,阙立志,吴亚敏,等. 三维荧光光谱结合PARAFAC和GA对中国白酒品牌的鉴别[J]. 中国激光,2015,42(06):315-320.

[16]Taylor V F,Longerich H P,Greenough J D. Multielement Analysis of Canadian Wines by Inductively Coupled Plasma Mass Spectrometry(ICP-MS)and Multivariate Statistics[J]. Journal of Agricultural and Food Chemistry,2003,51(4):856-860.

[17]Berrueta L A,Alonso-Salces R M,Héberger K. Supervised pattern recognition in food analysis[J]. Journal of Chromatography A,2007,1158(12):196-214.

Study on discrimination of four Chinese brand spirits based on ICP-AES coupled the principal component and decision tree analysis

ZHENG Jie1,WU Wen-lin2,*,WAN Yu-ping2,LIANG Heng-xing2,XIAO Quan-wei2,ZHU Xia-ping1

(1.College of Materials and Chemistry & Chemical Engineering,Chengdu University of Technology,Chengdu 610059,China; 2.Chengdu Institute for Food and Drug Control,Chengdu 610100,China)

The potential of ICP-AES for metal element profiling of Chinese spirit samples was examined. Sixteen elements in fifty six spirits samples representing four varieties of brands(Wuliangye,Lang Liquor,Quanxing,Wujinchun)were determined. The set of data was employed to construct a sample class prediction model based on z-score standardization followed by principal component analysis(PCA)and Decision Tree analysis(DT),which was employed to explore the structure of the data and construct classification and prediction model. The First principal component explained 40.3% of variance while the top ten components explained 96.3% of variance which was employed to construct the DT model. The validated DT model based on 5-fold cross-validation enabled correct classification of 97.6% of samples,and other 15 spirit samples could be predict correctly. The Wuliangye,Lang Liquor,Quanxing,Wujinchun could be classified intensively.

spirit;element;ICP-AES;PCA;decision tree

2016-07-05

郑劼(1992-)，男，硕士，研究方向：分析化学，E-mail：zhengj159@icloud.com。

*通讯作者:吴文林(1986-)，男，硕士，工程师，研究方向：食品化学，E-mail：wuwenlin@163.com。

科技部国家重大科学仪器设备开发专项(2012YQ09016705)。

TS207.3

1002-0306(2016)24-0000-00

10.13386/j.issn1002-0306.2016.24.000