陈 爱
(南京财经大学 应用数学学院, 江苏 南京 210046)
基于主成分回归的我国居民主要蔬菜人均年消费量的预测
陈爱
(南京财经大学 应用数学学院, 江苏 南京 210046)
摘要:基于SAS软件,通过建立主成分回归模型对我国主要蔬菜的人均年消费量进行了估计.首先从影响蔬菜人均年消费量的因素出发,通过主成分分析,构造主成分关于时间T的函数,预测城镇、乡村居民蔬菜的总人均年消费量.再通过假定主要蔬菜品种的人均年消费量与所有蔬菜的总人均年消费量的比例等于主要蔬菜品种的年产量与所有蔬菜的总年产量的比例,拟合预测该比例的变化形势,得到主要蔬菜品种的人均年消费量占总人均年消费量的比例,从而预测了主要蔬菜品种2015-2020年的人均年消费量.
关键词:蔬菜; 主成分回归; 拟合预测
2001年国务院颁发的《中国食物与营养发展纲要(2001-2010)》中确定了2010年食物与营养发展总体目标,并就城乡居民人均每年主要食物摄入量进行了明确要求.2003年11月,国家食物与营养咨询委员会又提出了食物消费的阶段性目标及质量要求,分别对2003年、2010年和2020年的具体情况进行了规定.由此可见,营养安全已经成为我国新时期下“食物安全”的重点议题[1].自改革开放以来,我国居民的生活水平大幅度提高,营养和健康状况已经得到很大改善,而居民的营养健康状态直接取决于人们的饮食习惯和饮食结构.因此,如何在满足居民身体健康所需营养均衡的条件下,进行适度的蔬菜消费,是目前一项重要课题[2].
1主成分回归模型简介
1.1主成分分析
(1)
它是一个p阶非负定矩阵.按照主成分分析的思想,我们首先构造X1,X2,…,Xp的线性组合
Y1=aT1X=a11X1+a12X2+…+a1pXp
(2)
(3)
若第一主成分Y1在a1方向上的分散性还不足以反映原变量的分散性,则再构造X1,X2,…,Xp的线性组合
Y2=aT2X=a21X1+a22X2+…+a2pXp
(4)
为使Y1和Y2所反映的原变量的信息不相重叠,要求Y1和Y2不相关,即
(5)
一般地,若Y1,Y2,…,Yk-1还不足以反映原变量的信息,则进一步构造X1,X2,…,Xp的线性组合
Yk=aTkX=ak1X1+ak2X2+…+akpXP
(6)
(7)
各主成分的总方差为
(8)
1.2主成分回归模型
主成分回归模型就是利用少数几个主成分的得分作为新的自变量进行回归建模[4].
2主要蔬菜人均年消费量的主成分回归预测
2.1人均蔬菜量消费状况分析
以下数据来自2014年全国研究生数学建模大赛D题[5].
改革开放以来,中国蔬菜消费呈现出有规律的变化[6].从图1中可以看出,蔬菜人均消费量逐渐降低,在2012年,城乡蔬菜人均消费量分别是112.3kg和84.7kg.
图1 城乡居民蔬菜年平均消费量趋势值
从居民生活费用支出方面来看,由于农村居民的蔬菜消费基本达到自给自足[7],所以本文仅用城镇居民的生活费用支出数据进行分析.2012年城镇居民的恩格尔系数为36.2%,而蔬菜的消费支出占当年食品消费支出的9.8%[8].
从表1中可以看出,蔬菜消费支出在城镇居民的食品消费支出中所占比重较大,处在第二位,约为肉类消费支出的一半.而且值得注意的是,中国城镇居民的蔬菜消费支出已经超过居民粮食消费支出.这表明,中国城镇居民生活水平趋高,人们将眼光投向满足身体所需的其他营养成分.
表12012年城镇居民家庭人均年消费支出
项目金额/元结构/%食品粮食干豆类及豆制品油脂类肉禽及制品蛋类水产品类菜类糖类其他6040.85458.5372.68161.481183.59119408.92591.9755.062989.621007.591.202.6719.591.976.779.800.9149.49
从2004-2012年中国蔬菜消费支出金额所占比例(表2)来看,蔬菜消费金额不断上升,而图1中显示人均蔬菜年消费量却呈现递减的趋势,除了物价上涨的因素外,也从相当程度上说明,城镇居民蔬菜消费品质的不断提高.
表22004-2012年中国城镇居民蔬菜消费支出金额在食品结构中所占的比重
项目200420052006200720082009201020112012蔬菜金额/元256.51276.61298.53348.61409.31446.57501.65527.32591.97食品支出/元2709.62908.63111.936284259.84478.54804.75506.36040.9结构比重/%9.479.519.599.619.619.9710.449.589.8
2.2影响人均蔬菜消费量的主要因素分析
2.2.1收入因素
收入的高低直接影响人们的消费支出金额和结构.根据图2发现城镇居民可支配收入与蔬菜消费量之间存在密切关系.已有研究表明,蔬菜的收入弹性为正数,其大于粮食,小于肉类、水产品与蛋类[9].这说明随着收入水平的提高,城镇居民也相应地增加蔬菜的消费.
图2 1990-2012年城镇居民可支配收入与蔬菜消费量散点图
从图2中可以看出,城镇居民可支配收入与人均年蔬菜消费量之间存在负相关性(-0.4712).这说明在解决温饱问题之后,城镇居民会将更多的购买力用于其他高档食品的消费.
2.2.2价格因素
除了收入作为主要的影响因素外,各类食物的价格之间也存在相互影响.根据理论得知,粮食和蔬菜对中国居民来讲是基础性食物,需求量受价格的影响没有其他的食物强,但是作为副食品,蔬菜和其他食物之间有一定的替代关系[9].从表3可以发现,蔬菜的消费价格指数相对其他食品价格指数的波动率在-0.2~0.2之间,这说明在多数年份里,蔬菜与肉禽、蛋类和水产的价格变动幅度处于一种竞争关系.这也从一定程度上说明其他食品的价格对蔬菜的人均消费量是有一定影响的.
表3蔬菜与其他食品消费价格指数变化幅度
年份蔬菜∶粮食蔬菜∶肉禽蔬菜∶蛋类蔬菜∶水产品1994-0.1155-0.05860.15910.10811995-0.06940.00710.11080.112819960.11830.13970.02230.123619970.0977-0.05210.2610-0.002019980.02790.0957-0.01290.060719990.04230.11360.10260.082520000.18170.06290.23910.029520010.0161-0.0069-0.04810.03912002-0.0010-0.0131-0.04290.015520030.15050.13940.19370.17352004-0.2476-0.1913-0.2088-0.156220050.07590.06440.04300.030220060.05360.11430.12710.069220070.0151-0.1807-0.11410.026620080.0374-0.08790.0642-0.028020090.07580.24420.11810.108320100.05990.15160.09420.09622011-0.0989-0.1754-0.1147-0.098120120.09330.11360.17100.0528
除了蔬菜相对于其他食品的价格指数波动之外,蔬菜本身的消费价格指数也作为一项重要的影响因素.从蔬菜价格对人均年蔬菜消费量的总体影响来看,蔬菜价格的上升会制约蔬菜的消费量.从两者的关系可以看出,两者之间具有负相关,说明蔬菜价格的确是影响其人均消费量的重要因素.
2.2.3恩格尔系数
恩格尔系数是食品支出总额占个人消费支出总额的比重.恩格尔系数是用来反映居民生活水平的一项重要指标.生活水平直接影响消费结构,而消费结构对于消费量又有较大影响[6].因此,为了直接而全面地考察城镇居民人均蔬菜消费量变化的因果关系,本文将恩格尔系数也作为影响变量.
综上,本文把可支配收入与总收入之比、蔬菜价格指数分别相对粮食、肉类、蛋类、水产品的价格指数之比、蔬菜价格指数、恩格尔系数等作为影响变量,并分别记为X1~X7.
2.3模型建立
2.3.1建模思路
本文从影响人均年蔬菜消费量的影响因素出发,通过主成分分析,构造主成分关于时间T的函数,预测城镇、乡村居民蔬菜的总人均年消费量.再通过假定主要蔬菜品种的人均年消费量与所有蔬菜的总人均年消费量的比例等于主要蔬菜品种的年产量与所有蔬菜的总年产量的比例,拟合预测该比例的变化形势,得到主要蔬菜品种的人均年消费量占总人均年消费量的比例,从而预测主要蔬菜品种的人均年消费量.其中蔬菜的总人均年消费量=0.5×城镇居民的人均年蔬菜消费量+0.5×农村居民的人均年蔬菜消费量(0.5为近年来的城镇、农村人口比例).
2.3.2建立模型
1) 因素间相关性分析—皮尔逊相关系数
根据皮尔逊相关系数
得到相关系数表4.
表4影响城镇居民人均年蔬菜消费量各因素的相关系数表
X1X2X3X4X5X6X7X11X2-0.86861X3-0.05470.27391X40.0331-0.13250.07431X50.1907-0.04230.29150.66881X6-0.13070.21610.43410.65170.56261X7-0.25370.27150.66450.56720.75610.59411
2) 主成分分析
从相关系数表4中不难发现,某些变量之间相关系数较大,这说明这些影响因素之间可能存在共线性.因此我们采用主成分分析解决共线性的问题.
3) 各主成分对城镇居民人均年蔬菜消费量C1的拟合
因为7个影响变量都是0~1之间的数,而城镇居民人均年蔬菜消费量特别大,使得方程两边的数相差太大.为了得到更好的拟合效果,这里对年消费量取对数后再进行拟合回归.考虑表达的简洁与拟合的优度,我们采用一次线性拟合方式.由SAS软件得到
(9)
4) 预测城镇居民人均年蔬菜消费量C1
(1)对3个主成分进行关于时间T的拟合预测
(2)利用上面的拟合函数可以预测到各年的主成分数值,再把它们代入回归方程(9),即可预测到城镇居民人均年蔬菜消费量C1.综上,主成分回归预测方程为
lnC1=4.745704-0.001171sin0.933T+
0.002397cos0.2426T+0.001291T
(10)
5) 预测农村居民人均年蔬菜消费量C2
各主成分对年消费量拟合以及3个主成分关于时间T的拟合结果如下:
(11)
利用上面拟合函数可以预测到各年的主成分数值,再把它们代入回归方程(11),即可预测农村居民人均年蔬菜消费量C2.综上,主成分回归预测方程为
lnC2=4.410474-0.001085sin0.8701T-
0.003755cos0.4843T-0.002591T
(12)
6) 综合考虑城镇、农村人均年蔬菜消费量,得出我国人均年蔬菜消费量C
C=0.5C1+0.5C2
(13)
7)确定主要蔬菜品种
本文选取中国1994-2012年间各种蔬菜的年产量进行了分析,认为年产量占比靠前并且能够每年出现在前几名的蔬菜种类极有可能是主要的蔬菜品种.理由如下:
(1)自1994-2012年,产量比重占据前4位的分别为红薯、土豆、根及块茎当量、以及西红柿,这说明,这几种蔬菜的产量较高,并且相对较为稳定.
(2)随着时间的推移,根及块茎当量逐渐退出蔬菜种类的前3,而西红柿却逐渐进入到蔬菜种类的前3中.这说明随着经济进步,营养知识的普及,人们越来越认识到,相较于根及块茎当量,西红柿可能更满足人们的健康需求,这也解释了西红柿产量逐年递增的原因.
(3)随着时间的推移,土豆的年产量逐渐从第3上升到第2,并最终跃居第1,这说明人们对土豆营养成分认识的变化,同时也因为土豆易食、方便、营养成分均衡.
这几种蔬菜种类同时也是日常生活中常见的种类,侧面反映了居民的消费习惯及对生活必需品的购买习惯,从而我们可以认为这些蔬菜品种可以满足日常人体健康需求.因此,我们选择主要的蔬菜品种为:土豆、根及块茎当量、红薯以及西红柿,并分别记为第1~4种蔬菜.
8) 对主要蔬菜品种的消费率进行模拟预测
考虑土豆、根及其块茎、西红柿的消费率关于时间T呈现线性趋势,所以对它们进行线性拟合,拟合方程分别为:
r1=0.1492868-0.0024325T
r2=0.059649-0.000563T
r4=0.04266+0.25467T
红薯的消费率关于时间T呈线性递减趋势,若拟合线性回归方程,虽模型显著,但从2015年开始预测值均为负数,与事实不符.考虑到短时间预测,转而采用移动平均法,经多次尝试,三步移动平均拟合效果最佳,故采用三步移动平均法来预测红薯的消费率r3,从2015到2020年其值依次为0.077235,0.077232,0.077467,0.077311,0.077336,0.077372.
9) 拟合预测主要的蔬菜品种人均年消费量—基于主成分的回归估计模型
通过上面的步骤,我们可以建立最终的模型,即
(14)
其中Ci是第i种蔬菜的人均年消费量.
3模型结果分析
利用式(14)预测2015-2020年主要蔬菜品种的人均年消费量,结果见表5.
表52015-2020年居民主要蔬菜品种的人均年消费量kg
年份土豆根及块茎当量红薯西红柿201510.68064.03996.51327.5834201610.50833.99606.48347.5812201710.38333.93286.34837.5837201810.26083.88306.26197.5901201910.12623.83716.19847.5986202010.00223.79186.12827.6066
预测的结果显示,主要品种的蔬菜消费量只有西红柿呈现逐渐递增的趋势,而土豆、红薯的人均年消费量逐年递减,这可能是由于随着经济水平的提高,人们对于蔬菜类食品消费减少,转而消费动物性食物,或转向消费一些高品质的水果类型.
参考文献:
[1]常平凡.我国粮食供求形势浅析[J].中国食物与营养,2004(10):9-12.
[2]谭向勇.中国主要农产品市场分析[M].北京:中国农业出版社,2001:256-266.
[3]梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2010:113-125.
[4]侯媛媛,王礼力.基于主成分分析基础上的中国蔬菜家庭消费预测[J].统计与决策,2010(23):91-93.
[5]2014年全国研究生数学建模竞赛题目[EB/OL].(2014-09-18)[2014-09-19].http://www.shumo.com/home/html/2396.html.
[6]王选选,刘娟英.中国农村居民省际间消费结构差异分析[J].数理统计与管理,2007,26(5):846-851.
[7]陈铁飞.我国蔬菜产业供需状况及其走向[J].重庆社会科学,2013(2):84-93.
[8]张峭,王克.中国蔬菜消费现状分析与预测[J].农业展望,2006,2(10):28-31.
[9]王方舟.河北省农村居民蔬菜消费量的因素分析[J].广东农业科学,2012,39(5):225-228.
[10]李瑾,冯献,韩瑞娟.北京市城镇居民蔬菜消费现状及趋势预测[J].北方园艺,2015(6):197-202.
(编辑:郝秀清)
较大,战略整合对企业绩效影响最小,这与文中选择的企业绩效指标有较大关系,考虑到数据的准确性,本文主要选取的运行指标和财务指标,表征企业竞争力的定性指标选择较少所致,文化整合能力对企业绩效影响位居中间.此外,由于IT能力内部结构之间的关系,战略整合能力、业务与IT系统整合能力、文化整合能力也对企业绩效有着间接的正向影响.战略整合能力对企业绩效影响为0.232;业务与IT系统整合能力为0.424;文化整合能力为0.411.从综合影响系数数值上看,业务与IT系统整合对企业绩效影响为最大,战略整合对企业绩效影响最小.
A forecast based on principal component regression of the main vegetable consumption per person in residents in China
CHEN Ai
(Department of Applied Mathematics, Nanjing University of Financeand Economics, Nanjing 210046, China)
Abstract:This article estimated annual per capita consumption through the establishment of the principal component regression model of the main vegetables based on SAS software. Firstly, considering the influence factors of affect vegetables per capita annual consumption, through the principal component analysis,we constructed the principal component of a function of time T, predicted the total annual per capita consumption of rural and town residents′ vegetables. Secondly,we assumed that the main vegetable varieties of annual per capita consumption and the proportion of total annual per capita consumption of all vegetables was equal to the main vegetable varieties of production and the proportion of the total annual output of all vegetables, fitting to predict the percentage changes in the situation, and got the main vegetable varieties of annual per capita consumption accounts for the proportion of the total annual per capita consumption, so as to predict the main vegetable varieties from 2015 to 2020, the per capita annual consumption.
Key words:vegetables; principal component regression; fitting prediction
中图分类号:F222.1
文献标志码:A
文章编号:1672-6197(2016)02-0067-06
作者简介:陈爱,女,1571308214@qq.com
收稿日期:2015-05-10