冀德刚+陈亚婷+陈俊英
摘要:通过对两组专业品酒师(共计20名)对27种不同红葡萄酒的品评结果进行方差分析,确定其中第二组的品评结果更可信。然后对27个样品中16个指标进行主成分分析,确定影响红葡萄酒品质的13个主要理化指标,最后建立了品酒师品评得分与13个主要指标的二次回归方程。经过检验,其中回归相关系数为0.994 8,F为15.908 6 ,P= 0.049 1。结果表明,回归效果显著,能够用回归方程对红葡萄酒的品质进行评定。
关键词:方差分析;主成分分析;回归分析;红葡萄酒
中图分类号:O213文献标识码:A文章编号:0439-8114(2014)08-1867-03
Application of Multivariate Statistical Analysis in Assessing Red Wine Qualities
JI De-gang,CHEN Ya-ting,CHEN Jun-ying
(School of Science, Hebei Agricultural University, Baoding 071001, Hebei, China)
Abstract: 27 different red wine samples were evaluated by two groups of professional tasters (total of 20). The anova results showed that the second group was more credible. 13 main physicochemical indexes were defined as main factors affecting red wine qualities by principal components analysis of 16 indexes. A regression equation of the scores given by tasters was established. The test results showed that the equation had significant regression effects with squared correlation coefficient of 0.994 8, F-test of 15.908 6 and P value of 0.049 1.
Key words: anova; principal component analysis; regression analysis; red wine
随着经济的快速发展,人们生活质量的提高,红酒不再是少数人的奢侈品,它已经作为普通的消费品走进千家万户的餐桌。
随着红酒的普及,红酒的品质越来越引起大众的关注。那如何来鉴定葡萄酒的品质呢,一般情况下葡萄酒的品评都是借鉴美国著名的葡萄酒评论家罗伯特·帕克的100分制评分体系[1],聘请专业的品酒师来完成,这里完全凭借品酒师的经验,具有很强的主观性,而且对于一般人很难做到。本研究试图通过多元统计分析[2-4],给出葡萄酒品评的量化方法。一方面,可以为葡萄酒的生产及相关企业提供品评葡萄酒的可靠、稳定的量化评价方法;另一方面,为消费者在选择葡萄酒时提供简单易行的方法。
1数据来源
本研究中的数据均来自2012年全国大学生数学建模大赛A题的附件,其中包含两组评酒员(其中每组10人)分别从外观分析、香气分析、口感分析、平衡/整体评价4个方面10个子指标对27个样本的评分结果,以及27个样本葡萄酒中16个理化指标[5,6],包括花色苷、单宁、总酚、酒总黄酮、白藜芦醇、反式白藜芦醇苷、顺式白藜芦醇苷、反式白藜芦醇、顺式白藜芦醇、DPPH半抑制体积、L*(D65)、a*(D65)、b*(D65)、H(D65)、C(D65)、C(D65)等的测量数据。
为了方便地描述问题,引进以下符号:
1)xij为第i个红葡萄酒样本的第j个指标的数值(i=1,2,…,27;j=1,2,…,16)。
2)Xj,j=1,2,…,16分别表示葡萄酒中花色苷、单宁、总酚、酒总黄酮、白藜芦醇、反式白藜芦醇苷、顺式白藜芦醇苷、反式白藜芦醇、顺式白藜芦醇、DPPH半抑制体积、L*(D65)、a*(D65)、b*(D65)、H(D65)、C(D65)、C(D65)的含量。
2两组评酒员评价结果的可靠性分析
为了评价两组评酒员评价结果的可靠性,采用方差分析的办法,即分别计算每组评酒员对每个样品打分的均值和方差。如果每个评酒员在对样品作出评价时是客观公正的,那么每个人的评价结果与均值的偏离程度应该不大,也就是方差应该很小;反之,方差会很大。因此分别计算出每组评价结果的标准差数据如下:
第一组27个样品的结果:σ1=[0.93,1.30,0.88, 1.13,1.73,0.93…0.87,1.50,19.84]1×27
第二组27个样品的结果:σ2=[0.86,1.24, 0.97,1.08,1.69,0.94…0.88,1.41,0.63]1×27
由图1可知,第一组的评价结果的方差在很多点处很大,显然评价结果不可信。而第二组的评价结果的方差几乎分布在0的附近,说明第二组评酒员中每个评酒员的评价结果较客观公正,能够真实反映出27个葡萄酒样品的实际品质。
3影响葡萄酒品质的主成分分析
3.1主成分分析的原理
主成分分析是研究如何把存在相关关系的多个指标通过线性变换为少数几个相互独立的综合指标的统计分析方法,综合后的新指标称为原来指标的主成分或主分量[7-9]。
设有n个样品,每个样品观测m个指标,得到原始数据资料矩阵:
(X■1,X■,…,X■)=x■x■…x■x■x■…x■………x■x■…x■
式中,xji是第j个样品的第i个指标的观测值。
X■=x■x■…x■ x■x■…x■
式中,xni为第i个指标(变量)n个样品的观测向量。
用数据矩阵的个观测向量,作线性组合:
F■=a■X■+a■X■+…+a■X■
F■=a■X■+a■X■+…+a■X■
……
F■=a■X■+a■X■+…a■X■
要求满足:
1)a21i+a22i+…+a2mi,i=1,2,…,k;k≤m;
2)当i≠j时,Fi与Fj不相关,即Fi与Fj的协方差是0;
3)F1是X1,X2,…,Xm的一切线性组合中方差最大的,F2是与F1不相关的X1,X2,…,Xm的一切线性组合中方差最大的,…,Fi是与F1、F2、…、Fi-1不相关的X1,X2,…,Xm的一切线性组合中方差最大的,…,Fk是与F1、F2、…、Fk-1不相关的X1,X2,…,Xm的一切线性组合中方差最大的。
3.2主成分分析结果
由于16个指标的数据的量级和量纲据差异很大,因此首先对数据进行标准化处理。在这里数据标准化可采用将原始数据的各列除以各列的标准差,然后进行主成分分析。由图2可知,5个主成分的累积贡献率达到 88.98%,因此,重点分析前5个主成分。
从表1可以看出,在第一个主成分中X1、X2、X3、X4、X10的权重比较大,在第二主成分中X12、X15、X16的权重比较大,而在第三主成分中X13、X14的权重比较大,在第四主成分中X7、X11的权重比较大,在第五主成分中X8的权重比较大。综合分析影响葡萄酒的品质的主要因素有X1、X2、X3、X4、X7、X8、X10、X11、X12、X13、X14、X15、X16,将其作为评鉴葡萄酒的主要指标。
3.3二次回归分析
回归分析是能够通过数据处理建立变量之间的量化数学模型,可对问题的分析、判断、预测提供很好的帮助。
在本研究中,令y为葡萄酒的品质得分,以下建立y与Xj的二次回归方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
则回归方程可表示为
y=Xb+e
式中,e为随机误差。
以下为回归方程参数的估计:
采用Matlab 7.5 软件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回归效果的显著性检验(α=0.05):
其中回归相关系数为0.994 8,回归方程的F=15.908 6,P=0.049。表明变量之间99.48%的信息能够由该方程来反映。
为了进一步讨论回归方程的回归效果,以下做了原始数据与回归预测数据的对比,由图3可以看出回归效果很好,可以用来评定葡萄酒的品质。
4小结
帕克的团队通过颜色和外观、香气、风味和收结、总体素质及潜力几个方面给葡萄酒打分。本研究通过分析帕克评分体系下葡萄酒的得分与各种有效成分的相关性,最终建立了由葡萄酒的16个主要理化指标与葡萄酒品质的回归方程,并检验了方程回归效果的显著性。通过给定回归方程能够简单、快捷地给出一种葡萄酒的品质得分,方便了葡萄酒的评定。惟一不足的地方是,葡萄酒的主要理化指标[10]还要一些特定的方法去测量,以后可以考虑各指标的简单测量方法。
参考文献:
[1]王麟,陈辉.葡萄酒投资价值与策略分析[D].上海:上海交通大学,2012.
[2]姜起源,谢金星,叶俊.数学模型[M].第四版.北京:高等教育出版社,2011.
[3]苏金明,张莲花.刘波.Matlab工具箱应用[M].北京:电子工业出版社,2004.
[4]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,2006.
[5]蔺红苹,邱翠婵,刘嘉玲.自酿葡萄酒的卫生指标和理化指标的检测[J].湛江师范学院学报,2010(3):98-102.
[6]张琳.傅立叶变换红外光谱法快速测定葡萄酒理化指标[D].广州:暨南大学,2012.
[7]何少芳,李梦祝.SPSS软件在葡萄与葡萄酒理化指标的相关性分析中的应用[J].长沙大学学报,2012(5):11-14.
[8]彭德华.影响葡萄酒质量的主要因素分析[J].中外葡萄与葡萄酒,2004(5):40-44.
[9]李华,刘曙东,王华,等.葡萄酒感官评价结果的统计分析方法研究[A].中国食品科学技术学会第五届年会暨第四届东西方食品业高层论坛论文集[C].北京:中国食品科学技术学会,2007.
[10]丁春晖.多频脉冲电子舌对昌黎原产地干红葡萄酒的检测[D].陕西杨凌:西北农林科技大学,2008.
(责任编辑程碧军)
3.3二次回归分析
回归分析是能够通过数据处理建立变量之间的量化数学模型,可对问题的分析、判断、预测提供很好的帮助。
在本研究中,令y为葡萄酒的品质得分,以下建立y与Xj的二次回归方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
则回归方程可表示为
y=Xb+e
式中,e为随机误差。
以下为回归方程参数的估计:
采用Matlab 7.5 软件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回归效果的显著性检验(α=0.05):
其中回归相关系数为0.994 8,回归方程的F=15.908 6,P=0.049。表明变量之间99.48%的信息能够由该方程来反映。
为了进一步讨论回归方程的回归效果,以下做了原始数据与回归预测数据的对比,由图3可以看出回归效果很好,可以用来评定葡萄酒的品质。
4小结
帕克的团队通过颜色和外观、香气、风味和收结、总体素质及潜力几个方面给葡萄酒打分。本研究通过分析帕克评分体系下葡萄酒的得分与各种有效成分的相关性,最终建立了由葡萄酒的16个主要理化指标与葡萄酒品质的回归方程,并检验了方程回归效果的显著性。通过给定回归方程能够简单、快捷地给出一种葡萄酒的品质得分,方便了葡萄酒的评定。惟一不足的地方是,葡萄酒的主要理化指标[10]还要一些特定的方法去测量,以后可以考虑各指标的简单测量方法。
参考文献:
[1]王麟,陈辉.葡萄酒投资价值与策略分析[D].上海:上海交通大学,2012.
[2]姜起源,谢金星,叶俊.数学模型[M].第四版.北京:高等教育出版社,2011.
[3]苏金明,张莲花.刘波.Matlab工具箱应用[M].北京:电子工业出版社,2004.
[4]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,2006.
[5]蔺红苹,邱翠婵,刘嘉玲.自酿葡萄酒的卫生指标和理化指标的检测[J].湛江师范学院学报,2010(3):98-102.
[6]张琳.傅立叶变换红外光谱法快速测定葡萄酒理化指标[D].广州:暨南大学,2012.
[7]何少芳,李梦祝.SPSS软件在葡萄与葡萄酒理化指标的相关性分析中的应用[J].长沙大学学报,2012(5):11-14.
[8]彭德华.影响葡萄酒质量的主要因素分析[J].中外葡萄与葡萄酒,2004(5):40-44.
[9]李华,刘曙东,王华,等.葡萄酒感官评价结果的统计分析方法研究[A].中国食品科学技术学会第五届年会暨第四届东西方食品业高层论坛论文集[C].北京:中国食品科学技术学会,2007.
[10]丁春晖.多频脉冲电子舌对昌黎原产地干红葡萄酒的检测[D].陕西杨凌:西北农林科技大学,2008.
(责任编辑程碧军)
3.3二次回归分析
回归分析是能够通过数据处理建立变量之间的量化数学模型,可对问题的分析、判断、预测提供很好的帮助。
在本研究中,令y为葡萄酒的品质得分,以下建立y与Xj的二次回归方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
则回归方程可表示为
y=Xb+e
式中,e为随机误差。
以下为回归方程参数的估计:
采用Matlab 7.5 软件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回归效果的显著性检验(α=0.05):
其中回归相关系数为0.994 8,回归方程的F=15.908 6,P=0.049。表明变量之间99.48%的信息能够由该方程来反映。
为了进一步讨论回归方程的回归效果,以下做了原始数据与回归预测数据的对比,由图3可以看出回归效果很好,可以用来评定葡萄酒的品质。
4小结
帕克的团队通过颜色和外观、香气、风味和收结、总体素质及潜力几个方面给葡萄酒打分。本研究通过分析帕克评分体系下葡萄酒的得分与各种有效成分的相关性,最终建立了由葡萄酒的16个主要理化指标与葡萄酒品质的回归方程,并检验了方程回归效果的显著性。通过给定回归方程能够简单、快捷地给出一种葡萄酒的品质得分,方便了葡萄酒的评定。惟一不足的地方是,葡萄酒的主要理化指标[10]还要一些特定的方法去测量,以后可以考虑各指标的简单测量方法。
参考文献:
[1]王麟,陈辉.葡萄酒投资价值与策略分析[D].上海:上海交通大学,2012.
[2]姜起源,谢金星,叶俊.数学模型[M].第四版.北京:高等教育出版社,2011.
[3]苏金明,张莲花.刘波.Matlab工具箱应用[M].北京:电子工业出版社,2004.
[4]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,2006.
[5]蔺红苹,邱翠婵,刘嘉玲.自酿葡萄酒的卫生指标和理化指标的检测[J].湛江师范学院学报,2010(3):98-102.
[6]张琳.傅立叶变换红外光谱法快速测定葡萄酒理化指标[D].广州:暨南大学,2012.
[7]何少芳,李梦祝.SPSS软件在葡萄与葡萄酒理化指标的相关性分析中的应用[J].长沙大学学报,2012(5):11-14.
[8]彭德华.影响葡萄酒质量的主要因素分析[J].中外葡萄与葡萄酒,2004(5):40-44.
[9]李华,刘曙东,王华,等.葡萄酒感官评价结果的统计分析方法研究[A].中国食品科学技术学会第五届年会暨第四届东西方食品业高层论坛论文集[C].北京:中国食品科学技术学会,2007.
[10]丁春晖.多频脉冲电子舌对昌黎原产地干红葡萄酒的检测[D].陕西杨凌:西北农林科技大学,2008.
(责任编辑程碧军)