何少芳,李梦祝
(湖南农业大学理学院,湖南 长沙 410128)
葡萄酒是用新鲜的葡萄或葡萄汁经发酵酿成的酒精饮料,通常分为红葡萄酒和白葡萄酒两种.在日常生活中,我们会从葡萄酒的外观、香气、口感等方面来评价酒质量的好坏,而酒的这些特质很大程度上是酿酒葡萄的各项理化指标的外在体现,如花色苷等物质的含量体现了葡萄酒的外观,总糖、各类酸、单宁等共同决定了葡萄酒的口感,芳香物质决定了葡萄酒的香气[1].然而由于其他因素的存在,葡萄酒的理化指标并不完全等同于酿酒葡萄的理化指标.为了了解酿酒葡萄与葡萄酒的理化指标之间的内在联系,我们对某一年份酿酒葡萄和葡萄酒样品的理化指标数据进行分析,考虑到酿酒葡萄的理化指标和葡萄酒的理化指标为两组多因素变量,我们利用SPSS软件对其进行典型相关分析.由于酿酒葡萄和葡萄酒的理化指标中包含的参数比较多,可先用主成分分析法将原来多个理化指标减至少数的几个主要成份,各个主要成份中包括原来的几种理化指标,然后利用SPSS软件做典型相关性分析,分析酿酒葡萄和葡萄酒的主成分这两组变量的典型变量之间的相关关系,从而得出酿酒葡萄与葡萄酒的各理化指标之间的联系.
某一年份葡萄酒样品和酿酒葡萄样品的理化指标数据,其中包括27个酿酒红葡萄及葡萄酒样品,28个酿酒白葡萄及葡萄酒样品.
根据酿酒葡萄与葡萄酒样品的各理化指标数据,利用SPSS10.0软件进行统计分析与数据处理.
数据结果的主成分分析:采用统计分析软件SPSSl0.0的Data Reduction中的Factor分析;
数据结果的典型相关分析:通过调用统计分析软件的“Canonical correlation.sps”宏包进行分析.
主成分分析是将多项指标重新组合成一组新的互相无关的几个综合指标,根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反映原指标信息的分析方法[2].由于酿酒葡萄和葡萄酒样品的理化指标数据中包含的指标比较多,因此我们用SPSS软件的主成分分析将原来多个理化指标减至少数的几个主要成份.在SPSS软件中输入酿酒葡萄与葡萄酒样品的理化指标数据,下面以红葡萄酒主成分分析输出结果摘要为例进行分析.
表1 相关矩阵表
表2 完全变量解释
表3 旋转后的因子(主成分)负荷矩阵
表1显示系统输出的相关系数矩阵,经Bartlett检验表明:Bartlett值 =431.157,P <0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析,KMO值=0.684,意味着因子分析结果能够接受.表2显示,使用主成分分析法得到三个因子(主成分),累计贡献率为87.294%,具有统计学上的意义.在旋转后的因子负荷矩阵中,变量与某个因子的联系系数的绝对值越大,则该因子与变量的关系越近.表3显示本例红葡萄酒的理化指标变量总酚与第一因子的值为0.970,与第二、第三因子的值分别为 -0.138、0.080,可见其与第一因子更近,与第二、三因子较远,应该将其放在第一主成分中.在系统进行主成分分析的过程中,已将各因子(主成分)的因子综合得分分别用变量名(如RW1)存入原始数据库中,这些值将用于对两组变量的典型相关分析.
酿酒红(白)葡萄和红(白)葡萄酒理化指标的主成分分析结果见如表4-7.
表4 红葡萄酒的理化指标主成分分析结果
表5 白葡萄酒的理化指标主成分分析结果
表6 白葡萄的理化指标主成分分析
表7 红葡萄的理化指标主成分分析
在统计分析软件SPSS10.0中分别输入酿酒红(白)葡萄与红(白)葡萄酒理化指标主成分因子综合得分数据,执行命令
得到主要输出结果见表8-13,下面对输出结果进行分析.
表8是酿酒红葡萄和红葡萄酒主成分两组变量的各变量间的两两相关矩阵,从表中可看出酿酒红葡萄的第一个主成分R1(花色苷、自由基、总酚、单宁、葡萄总黄、顺芦醇)与红葡萄酒的第一个主成分RW1(色花苷,单宁,总酚,酒总黄酮,白藜芦醇,半抑制体、色泽L)具有较很高的相关性,酿酒红葡萄的第三个主成分R3(还原糖、果糖、葡萄糖)与红葡萄酒的第三个主成分RW3(色泽b,色泽H)也具有较高的相关性,其他主成分之间的相关性较弱.
表8 红葡萄和红葡萄酒关系矩阵
表9 白葡萄和白葡萄酒的关系矩阵
表9是酿酒白葡萄和白葡萄酒主成分两组变量间各变量之间的两两相关矩阵,观察表中变量间的相关系数可知,酿酒白葡萄的第二个主成分W2(自由基、总酚、单宁、葡萄总黄、黄酮醇、异鼠李素)与白葡萄酒的第二个主成分WW2(单宁、总酚酒、总黄酮、半抑制体)具有很高的相关性,酿酒白葡萄的第一个主成分W1(VC、还原糖、果糖、葡萄糖、可溶、干物质)与白葡萄酒的第一个主成分WW1(色泽L、色泽a、色泽b、色泽H、色泽C)、酿酒白葡萄的第九个主成分W9(氨基酸、苹果酸)与白葡萄酒的第三个主成分WW3(白藜芦醇)、酿酒白葡萄的第五个主成分W5(总糖、果糖、出汁率)与白葡萄酒的第一个主成分 WW1(色泽L、色泽a、色泽b、色泽H、色泽C)也有较高的相关性,其他主成分之间的相关性较弱.
表10 酿酒红葡萄和红葡萄酒的典型变量相关系数
表11 酿酒红葡萄和红葡萄酒的显著性检验
表12 红葡萄的负载系数
表13 红葡萄的交叉负载系数
由表10、11可知,在酿酒红葡萄和红葡萄酒的典型变量相关系数中,第一、第二和第三典型相关系数分别为0.952、0.880和0.723,说明第一维度相关属于强相关;显著性检验的结果也表明,在0.05的显著性水平下,第一典型变量的相关性非常显著.
表14 红葡萄酒的典型负载系数
表15 红葡萄酒的交叉负载系数
图1 酿酒红葡萄和红葡萄酒的冗余分析图
典型负载系数是典型变量与本组观测变量之间的两两简单相关系数,可以从一定程度上反映典型变量与同属本组的观测变量进行简单回归时测量散点与回归线之间拟合程度[3],从表12-15可以看出,酿酒红葡萄的第一个主成分R1与本组的第一个典型变量呈很强的负相关性,且R1与红葡萄酒的第一个典型变量呈很强的负相关性;红葡萄酒的第一个主成分RW1与本组的第一个典型变量呈很强的负相关性,且RW1与酿酒红葡萄的第一个典型变量呈很强的负相关性.由两组变量的第一典型变量之间的强相关性可知,R1与RW1之间有很强的相关性.
冗余分析包括组内代表比例和交叉解释比例,是典型相关分析中很重要的部分.组内代表比例指本组所有观测变量的总标准方差中由本组形成的各个典型变量所分别代表的比例;交叉解释比例是指一组当中形成的典型变量对另一组观测变量的解释比例,是一种组间交叉共享比例,反映了自变量组各典型变量对于因变量组所有观测变量的解释能力[3].由图1可知,酿酒红葡萄的主成分变量被自身的三个典型变量均揭示了10%,红葡萄酒的主成分变量被自身的三个典型变量均揭示了33.3%;酿酒红葡萄的主成分变量被红葡萄酒第一典型变量解释了9.1%,被第二典型变量解释了7.7%,被第三典型变量解释了5.2%,红葡萄酒的主成分变量被酿酒红葡萄的第一典型变量解释了30.2%,被第二典型变量解释了25.8%,被第三典型变量解释了17.4%.
综合以上分析可以得出,由酿酒红葡萄和红葡萄酒主成分变量组成的典型变量之间相关性很高,其中,酿酒红葡萄的第一个主成分R1在本组的第一典型变量上发挥了解释作用,红葡萄酒的第一个主成分RW1在本组的第一个典型变量上发挥了解释作用,而显著性检验的结果表明,第一典型变量的相关性非常显著,因此R1与RW1之间有很强的相关关系,即酿酒红葡萄理化指标中的花色苷、自由基、总酚、单宁、葡萄总黄、顺芦醇与红葡萄酒理化指标中的色花苷、单宁、总酚、酒总黄酮、白藜芦醇、半抑制体、色泽L有很强的相关关系.
同理可以分析出由酿酒白葡萄和白葡萄酒主成分变量组成的典型变量之间相关性较高,其中,酿酒白葡萄的第一个主成分W1、W5在本组的第一典型变量上发挥了解释作用,第一主成分W2、第九主成分W9在本组的第二典型变量上发挥了解释作用,白葡萄酒的第一个主成分WW1在本组的第一个典型变量上发挥了解释作用,白葡萄酒的第二个主成分WW2在本组的第二个典型变量上发挥了解释作用,显著性检验的结果表明,第一典型变量的相关性非常显著,第二典型变量的相关性显著,因此W1、W5与WW1之间有很强的相关关系,W2、W9与WW2之间有较强相关关系,即酿酒白葡萄理化指标中的VC、还原糖、果糖、葡萄糖、可溶、干物质、总糖、果糖、出汁率与白葡萄酒理化指标中的色泽L、色泽a、色泽b、色泽H、色泽C有很强的相关关系,自由基、总酚、单宁、葡萄总黄、黄酮醇、异鼠李素、氨基酸、苹果酸与单宁、总酚、酒总黄酮、半抑制体有较强相关关系.
本文利用SPSS软件对某一年份葡萄酒样品和酿酒葡萄样品的理化指标数据(包括27个酿酒红葡萄及葡萄酒样品,28个酿酒白葡萄及葡萄酒样品)进行主成分分析及典型相关分析,得出酿酒葡萄与葡萄酒的理化指标之间的联系:酿酒红葡萄理化指标中的花色苷、自由基、总酚、单宁、葡萄总黄、顺芦醇与红葡萄酒理化指标中的色花苷、单宁、总酚、酒总黄酮、白藜芦醇、半抑制体、色泽L*(D65)有很强的相关关系;酿酒白葡萄理化指标中的VC、还原糖、果糖、葡萄糖、可溶、干物质、总糖、果糖、出汁率与白葡萄酒理化指标中的色泽L*(D65)、色泽 a*(D65)、色泽 b*(D65)、色泽 H(D65)、色泽C(D65)有很强的相关关系;自由基、总酚、单宁、葡萄总黄、黄酮醇、异鼠李素、氨基酸、苹果酸与单宁、总酚、酒总黄酮、半抑制体有较强相关关系.
[1]李运,李记明,姜忠军.统计分析在葡萄酒质量评价中的应用[J].2009,(4):79 -83.
[2]黄润龙.数据统计分析——SPSS原理及应用[M].北京:高等教育出版社,2010.
[3]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005.