基于多元统计分析方法的葡萄酒评价问题研究

2013-04-29 07:05:30孙明未

金融经济 2013年9期

孙明未

摘要：葡萄酒的质量与酿酒葡萄的理化指标、葡萄酒的理化指标等紧密相关。本文以酿酒葡萄和葡萄酒为研究对象，利用多种统计方法研究葡萄酒指标和葡萄酒质量之间的定性和定量关系。找出评酒员对酒的评价之间存在的显著性差异，并对酿酒葡萄进行了分级，具有一定的应用价值。

关键词：葡萄酒评价多元配对比较检验聚类分析复相关回归分析逐步回归分析

1、引言

在我们日常的生活中，对葡萄酒的分析一般是通过聘请一批有资质的评酒员进行品评，从而确定葡萄酒的质量。根据每位评酒员品尝葡萄酒后对其分类指标的打分，求其总和作为该类酒的总分，以此来确定不同葡萄酒样本的质量。酿酒葡萄的好坏一般与所酿葡萄酒的质量有直接的关联，葡萄酒的理化指标和酿酒葡萄检测的理化指标均会在一定程度上反映出葡萄酒的优劣和葡萄的质量。2012年全国大学生数学建模竞赛A题中给出了一批评酒员对某一年份多种葡萄酒的评价结果，该年份这些葡萄酒的理化指标和酿酒葡萄的成分数据，以及酿酒葡萄和葡萄酒中含有的芳香物质数据，本文以此为基础，利用多元统计分析方法解决下列问题：

（1）分析两组评酒员的评价结果有无显著性差异；

（2）根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级；

（3）分析酿酒葡萄与葡萄酒的理化指标之间的联系；

（4）分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

2、基本假设

（1）建模仅依据赛题提供数据，不考虑其他信息；

（2）不考虑葡萄酒酿酒工艺的差异，即可认为选取的葡萄酒样本产自相同水平葡萄酒加工工艺的厂商；

（3）评酒员对选取的各葡萄酒样本的打分相互独立，不受他人影响及外界因素的干扰。

3、数据的预处理

（1）第一组红葡萄酒中的数据F76缺失，我们采用其他剩余九名评酒员评分的平均值代替该缺失数据；

（2）第一组白葡萄酒中数据J233的异常值为77（因该类评分最高分为8分），我们认为其为输入错误，所以把该数据定为7；

（3）酿酒葡萄工作表中的数据DD34，考察其它两组样本数据，我们认为其为输入错误，因此可将其定为226.1；

（4）因为问题2-4都涉及到理化指标数据的运用，又因为各种指标的量纲不同，所以必须先对附件2、3中的数据进行标准化处理，标准化处理的公式为：

再运用SPSS按以上公式对数据进行标准化处理。

4、模型的建立与求解

4.1 问题1的模型建立与求解

Ⅰ、多元配对分析的基本理论

配对样本是指同一样本进行测试所获得的两组数据，或对两个完全相同的样本在不同条件下进行测试所得的两组数据，分为自身配对和同源配对[1]。自身配对指同一试验单位在二个不同时间上分别接受前后两次处理，用其前后两次的观测值进行自身对照比较；或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较。同源配对指将来源相同、性质相同的两个个体配成一对，然后对配对的两个个体随机地实施不同处理，显然本题为同源配对问题。两配对样本t检验就是根据样本数据对两个配对样本来自的两配对总体的均值是否有显著差异进行推断。

（1）两配对样本t检验的前提条件：

1、两配对应该是配对的。（两样本的观测值数目相同，两样本的观测值的顺序不能随意更改）

2、样本来自的两个总体应该服从正态分布。

（2）两配对样本t检验的基本实现思路：

设X1服从正态分布其中，

这样，检验的问题就转化为单样本t检验问题，即转化为检验Y的均值是否与0有显著差异。

第二步，建立零假设

第三步：构造t统计量

第四步，利用SPSS自动计算出t值和对应的P值

第五步，作出判断：

若P值小于显著性水平α，则拒绝零假设，即认为总体存在显著差异

若P值大于显著性水平α，则接受原假设，即认为两总体不存在显著差异。

先对两组白葡萄酒评分进行样本检验，得配对变量的相关系数为r=0.245，对应答概率P值为0.28>0.05，可以认为两配对变量无相关关系。两配对样本的配对差的均值为-2.48929，T统计量的值为-2.602，对应的概率P值为P=0.015<0.05，故拒绝原假设，认为两组评酒员对白葡萄酒的评价结果有差异性。白葡萄酒两组评分配对样本T检验结果如下表4-1

表4-1白葡萄酒两组评分配对样本检验结果

同理，对两队红葡萄酒评分也进行二元配对分析，可以得到如表4-1所示的成对样本分析数据，分析可知：两组间的相关系数，即配对变量的相关系数为，对应答概率值为，可以认为两配对变量有相关关系。两配对样本的配对差的均值为，统计量的值为，对应的概率值为，故拒绝原假设，认为两组评酒员对红葡萄酒的评价结果有差异性。由此可以得出对于红白两种葡萄酒，两组评酒员的评价结果都有显著性差异的结论。然后再分别对两类葡萄酒分别做组内方差，可得如下结果：

表 4-2各组葡萄酒得分方差

则有，说明第二组评分员所得评分数据波动性更小，数据更稳定，即第二组结果更可信。

Ⅱ、单因素方差分析

根据附件一中各个评酒员分别对各种葡萄酒样品各种指标的分析评价打分，通过求和可以分别得到各类葡萄酒组内各名评酒员对各种葡萄酒样品的整体评分。

先对两组白葡萄酒的评分进行单因素方差分析可得如表1-1所示的单因素方差分析表。从表中可以看出，第五列是统计量F值，计算得1.313；表中第二行、第三行给出了方差的两个来源，即“组间”和“组内”；第三列是检验统计量的自由度，组间自由度为27，组内为28；总自由度为55。

第二列表示偏差平方和，其中组间偏差平方和为547.266，组内偏差平方和为432.375，总偏差平方和为979.641。均方为偏差平方和和自由度的商，分别为20.269和15.442，两者之比为F分布的观测值1.313。针对假设Ho，组间均值存在显著性差异，计算F分布观测值为1.313，而对应的概率P值为0.239。在默认显著性水平为0.05的前提下，由于F统计量的观测值对应的概率P值大于0.05，则应接受原假设，即认为两组评酒员对白葡萄酒的评价结果无显著性差异。

再对两组红葡萄酒的评分进行单因素方差分析，经分析，在默认显著性水平为0.05的前提下，由于F统计量的观测值对应的概率P值0.002<0.05，则应拒绝原假设，即认为两组评酒员对红葡萄酒的评价结果有显著性差异。又因为进行单因素方差分析的前提是：

1.样本要独立；

2.各样本符合正态分布；

3.各个总体方差是否齐性，要先进行方差齐性检验。

然而在该种情况下，不能够完全符合上述条件，所以在本题中进行单因素方差分析所得到的结果不可靠，而实际上，根据以上实验计算，进行单因素方差分析所得到的结果与多元配对分析的结果不太一样，因此接受多元配对分析的结果。

4.2 问题2的模型建立与求解

聚类分析法的原理是将参与聚类的每个个体（或变量）视为一类，根据各个个体之间的距离或相似性，逐步合并，直到合并为一个大类为止。根据分层聚类分析原理，对于任何数据都没有唯一正确的分类标准。不同的聚类方法得到的结果或多或少都有一定的差别。一般情况下，我们可以根据以下几个原则确定分类数[2]：

1.各类重心之间的距离必须很大；

2.确定的类中，各类中包含的元素一般都不要太多；

3.类的个数必须符合实用的目的；

4.若采用几种不同的聚类方法处理，则在各自的聚类途中应发现相同的类

由前面得到的红白葡萄理化指标的标准值矩阵分别对红白葡萄进行聚类。对于白葡萄，使用ward联接对其聚类可得图4-1、图4-2所示的聚类分析图。

图4-2 白葡萄分层聚类分析树形图

图4-2中所示的白葡萄分层聚类分析树形图显示了分层聚类过程中，从每个个体为单独的一类，逐次合并，一直到全部合并成一大类，整个过程都在树形图中得到体现。

图4-1是一幅纵向显示的冰挂图。从该图中可以很轻易地看出任何类数时的分类结果。对于白葡萄，根据分类原则，我们选取聚类类数为6时，根据图4-1可以将葡萄样品分为下列五类A

图4-3中所示的红葡萄分层聚类分析树形图显示了分层聚类过程中，从每个红葡萄个体为单独的一类，逐次合并，一直到全部合并成一大类，整个过程都在树形图中得到体现。图4-4是一幅纵向显示的冰挂图。从该图中可以很轻易地看出任何类数时的分类结果。对于红葡萄，根据分类原则，当我们选取聚类类数为5时，根据图4-4可以将葡萄样品分为下列五类A对上述五类葡萄进行标准差和均值计算，由各分类的均值大小可以对其分类级别高低有个客观的判断，即：E>B>C>D>A（Ⅰ>Ⅱ>Ⅲ>Ⅳ>Ⅴ），分类结果如下表4-4

表4-4 红葡萄聚类分级

4.3 问题3的建模与求解

对于负相关系数的求解，首先要建立葡萄酒的各项理化指标分别对酿酒葡萄的所有理化指标回归方程，然后测定系数，再计算其复相关系数，并由此说明变量之间的相关程度的高低，当相关系数计算出来后，还必须判断其是否有意义和使用价值，因此必须进行复相关系数的显著性检验。先利用SPSS做复相关回归分析得到复相关分析表和回归分析表，将复相关分析表转移至EXCEL，然后利用EXCEL相关性排序，但是因为考虑到有负相关的影响，因此要首先先加绝对值再由大到小进行排序。相关性排序后发现Pearson相关系数与显著性单侧检验有高度的一致性，所以通过EXCEL自动筛选功能，选出单侧检验值小于等于0.05的自变量即为与因变量相关的自变量。由此可以得出红、白葡萄酒的理化指标与红、白酿酒葡萄的理化指标的定量关系。再通过回归分析表即可得到模型的结果，将两复相关分析表和回归分析表结合可得到：

1. 红葡萄酒的理化指标与酿酒葡萄的理化指标的模型为：

2. 白葡萄酒的理化指标与酿酒葡萄的理化指标的模型为：

由回归方程式可以看出：

1. 对于红酿酒葡萄的理化指标x4（花色苷）、x6（苹果酸）、x9（褐变度）、x10（DPPH自由基）、x12（单宁）与红葡萄酒的理化指标y1（花色苷）呈显著正相关，而x7（柠檬酸）、x8（多酚氧化酶活力）、x13（葡萄总黄酮）、x25（果梗比）、x26（出汁率）与红葡萄酒的理化指标y1（花色苷）呈显著负相关。

2. 对于白酿酒葡萄的理化指标x12（单宁）、x15（黄酮醇）、x18（可溶性固形物）与白葡萄酒的理化指标y1（单宁）呈显著正相关，而x1（氨基酸总量）、x2（蛋白质）、x10（DPPH自由基）、x11（总酚）、x13（葡萄总黄酮）、x16（总糖）、x25（果梗比）、x27（果皮质量）与白葡萄酒的理化指标y1（单宁）呈显著负相关。

同样的可以得到以下红葡萄酒的理化指标与酿酒葡萄的理化指标的模型为：

以及白葡萄酒的理化指标与酿酒葡萄的理化指标的模型为：

4.4 问题的模型建立与求解

（1）逐步回归分析

逐步回归分析，首先要建立因变量y与自变量x之间的总回归方程，再对总的方程及每—个自变量进行假设检验。当总的方程不显著时，表明该多元回归方程线性关系不成立；而当某—个自变量对y影响不显著时，应该把它剔除，重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量，并建立“最优”回归方程[4] 。

回归方程包含的自变量越多，回归平方和越大，剩余的平方和越小，剩余均方也随之较小，预测值的误差也愈小，模拟的效果愈好。但是方程中的变量过多，预报工作量就会越大，其中有些相关性不显著的预报因子会影响预测的效果。

以红葡萄为例进行逐步回归分析，使用F的概率进入0.10删除0.15，当预测变量数为7个时，R 方值大于85%，说明此时模型的拟合程度比较高，继续对红葡萄进行分析，方差分析知：统计量为19.831，系统自动检验的显著性水平为0.0000（非常小），因此回归方程相关非常显著。

再对红葡萄建立逐步回归模型。

由 “非标准化回归系数”可得出多元回归模型预报方程为：

由回归方程式可以看出，红葡萄酒的质量（x）与y11（总酚）、y23（果穗质量）、y21（固酸比）、y15（黄酮醇）呈显著正相关，而与y6（苹果酸）、y8（多酚氧化酶活性）、y14（白藜芦醇）呈显著负相关。由此看出，总酚、果穗质量、固酸比、黄酮醇，苹果酸、多酚氧化酶活性、白藜芦醇是影响红葡萄酒质量的主要原因。

（2）论证

Ⅰ 对（1）分析

由（1）可知：逐步回归分析模型的R2=0.88，p=0.0000（非常小），即回归方程相关非常显著，说明得到的模型是一个乐观结论。然而，红葡萄酒的样本容量N1=27，白葡萄酒的样本容量N2=28，均为小容量样本，所以模型稳定性较差，且参数β的标准差较大，因此，完全用酿酒葡萄和葡萄酒的理化指标判断葡萄酒的质量不科学。

Ⅱ 相关分析

先利用SPSS做芳香物质和香气打分的相关分析得到相关分析表，将相关分析表转移至EXCEL，然后利用EXCEL相关性排序，但是因为考虑到有负相关的影响，因此要首先先加绝对值再由大到小进行排序。相关性排序后发现Pearson相关系数与显著性双侧检验有高度的一致性，所以通过EXCEL自动筛选功能，选出单侧检验值小于等于0.05的自变量即为与因变量相关的自变量，分析结果可知，香气打分与芳香物质x14（柠檬烯）、x31（乙酸辛酯）、x32（2-乙基-1-己醇）、x34（辛酸丙酯）、x37（3，7-二甲基-1，6-辛二烯-3-醇）、x41（3，7-二甲基-1，5，7-辛三烯-3-醇）、x45（辛酸3-甲基丁酯）、x47（丁二酸二乙酯）、x52（十二酸乙酯）、x56（2-吡咯烷酮）、x75（丙酮）、x90（á-蒎烯）、x113（1-辛醇）、x119（（Z）-3，7-二甲基-2，6-辛二烯醛）、x123（（R）-3，7-二甲基-6-辛烯醇）、x127（（E）-3，7-二甲基-2，6-辛二烯-1-醇）有显著关系。

5、结论

本文以酿酒葡萄和葡萄酒为研究对象，建立多元统计模型，对评酒员对酒的评价之间存在的显著性差异情况进行研究，同时研究了酿酒葡萄的分级、酿酒葡萄与葡萄酒的理化指标之间的联系，论证了葡萄和葡萄酒的理化指标对葡萄酒的质量评价情况。

参考文献：

[1]周凯，宋军全，邬学军，数学建模竞赛入门与提高，杭州，浙江大学出版社，2012。

[2]张庆利，SPSS宝典，北京：电子工业出版社，2011.2。

[3]黄贤玲，粮食征超购量与产量、农村留用量复相关分析，山西财经大学学报，1985.2。

[4]何晓群，多元统计分析（第三版），北京，中国人民大学出版社，2012。

[5]周文芳，李民，逐步回归分析法的一点不足之处，西北水电，2004，第4期。