大数据背景下对葡萄酒产地溯源的研究

2018-06-05 10:32赵政杰赵原爽
科技资讯 2018年1期
关键词:葡萄酒大数据

赵政杰 赵原爽

摘 要:研究发现葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性,通过检测葡萄酒中矿物质含量,以及相互比例,建立数学模型,可以实现葡萄酒的产地溯源。本文运用单因素方差分析、独立t检验、Duncan多重比较、主成分分析(PCA)、逐步距离判别分析、聚类分析等统计学方法成功实现了对两个葡萄酒样品的产地溯源。

关键词:大数据 葡萄酒 产地溯源

中图分类号:TS261 文献标识码:A 文章编号:1672-3791(2018)01(a)-0077-02

葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性[1],通过检测葡萄酒中矿物质含量,以及相互比例,建立数学模型,可以实现葡萄酒的产地溯源。

以Slavonia地区中16个葡萄酒2号待测样品4种矿物质的检测结果为例。

根据每组样品所含的m种矿物质含量数据,建立矿物质含量及组成比例与产地相关联的数学模型,由于需要分析产地类型,而数据所给矿物质含量较多,不能直接判断所给元素是否都能够来代表地区特征,我们通过对矿物质含量及组成比例进行Duncan多重比较、主成分分析(PCA)等统计方法[2]筛选出部分元素作为三个产地特征元素,然后在已知总体类别的基础上,由大量各类样品的观测值建立判别模型。

在已知1号待测样品来自Slavonia地區,2号待测样品来自Vojvodina地区的情况下,由于Slavonia地区要对葡萄酒产地进行进一步划分,我们先建立聚类分析模型将该产地进行进一步划分,再用模型二中的判别分析法模型判断1号待测样品来自哪个具体类别。

运用t检验来判断两个样品的归属产地。

按照下面的公式计算t统计量:

将置信区间设置为95%,P<0.05,数据具有统计意义,说明该元素在该地区内差异比较小,并且含量数值波动不大[1],所以可以用该元素作为该地区的特征元素,由此得出Fe、Li、Al、Be、Bi、Cr、Se、Sr、Ti、As元素符合上述条件。

该方法是考虑葡萄酒多个变量之间的相关性的一种多元统计方法,研究如何通过原始变量的几个主要成分,即特征元素,使它们尽可能保留原始变量信息,实现降维目的。

假设有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵:

当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的综合指标代替原来较多的变量指标,而且使这些综合指标既能尽可能地反映原来指标反映的信息,同时它们之间又是彼此独立的。

(1)利用下式将原始数据标准化:

(2)设X已标准化,计算变量Xi*的相关系数阵式中rij为原变量的Xi与Xj之间的相关系数:

(3)计算主成分贡献率及累计贡献率。主成分的贡献和率累计贡献率分别为:

一般取累计贡献率达85%~95%的特征值λ1,λ2,…,λm所对应的第1,2,…,m(m≤p)个主成分。

当选取Cu、Fe、Li等前16种矿物质元素时,累计贡献率达到了99.987%,可以作为辨别产地的指标。

经过对数据的Duncan多重比较以及主成分分析,筛选出的5种特征元素分别是Fe、Li、Al、Cr、Ti,使用这5种元素的含量及其比例建立与产地关联的模型。进一步对这些特征元素进行判别分析,从而分类待测样品。

所得数据见图1和图2。

经分析,1号待测样品和Slavonia地区Mahalanobis距离最近,即1号待测样品的数据与Slavonia地区的数据具有高度相似性,所以我们可认为1号待测样品属于Slavonia地区,同理我们可认为2号待测样品属于Vojvodina地区。

运用聚类分析(Cluster analysis)[3],该方法在Slavonia地区葡萄酒元素含量相似的基础上收集数据进行分类、衡量不同数据源间的相似性,将Slavonia地区进行进一步分类,分到不同的簇中。

设数据矩阵A=(xij)nxm,衡量被分类对象间的相似程度用rij=(ei,ej)表示xi,xj的相似程度,则称之为相似系数。由此得到模糊相似矩阵R=(rij)nxm,运用计算rij的欧氏距离法:

(1)取λ1=1最大值,对于每个xi作相似类:[xj]R={xj|rij=1},即使满足rij=1的xi和xj视为一类,构成相似类。

(2)取λ2(λ1<λ2)为次大值,从R中直接找出相似程度的元素(xi,xj)即rij≥λ2,并相应地将对应于λ1=1的等价分类中xi与xj所在的类合并为一类,即可得到λ2水平上的等价分类。

(3)依次取λ1>λ2>λ3…,按步骤(2)的方法依次类推,直到合并到X成为一类为止,最后可以动态聚类。

利用特征元素,对Slavonia地区的16个品牌建立聚类分析模型并通过SPSS计算。第2、7组Mahalanobis距离最近,即第2、7组数据具有高度相似性,因此我们可认为1号待测样品属于组别2,即Traminac。

参考文献

[1] 王丙涛,陈波,涂小珂,等.葡萄酒中元素分布与其原产地关系的分类模型[J].食品科学,2014,35(2):213-216.

[2] 孙淑敏,郭波莉,魏益民,等.多矿物元素分析在羊肉产地溯源中的应用[A].中国农业工程学会[C].2009.

[3] SPITZKE M E,FAUHL-HASSEK C. Determination of the 13C/12C ratios of ethanol and higher alcohols in wine by GC-C-IRMS analysis[J].Uropean Food Research and Technology,2010,231(2):247-257.

猜你喜欢
葡萄酒大数据
自酿葡萄酒的危害有哪些?
砸酒瓶
进口葡萄酒压境
第九讲 教你如何醒酒
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
酒水相溶