李非
[摘 要] 如何在教学中用案例展开相应的统计研究以及预测,通过案例对统计结果变动进行多次试验。预测变动的结果对多元线性回归方程的整体会不会造成影响,或者是造成怎样的影响?举出实例进行分析与讨论,同时将模型与其他的方法相结合,这样检测结果的准确性才能得到更多保障,让学生直观地理解多元统计分析。
[关 键 词] 多元线性回归;预测模型;案例分析
[中图分类号] G712 [文献标志码] A [文章编号] 2096-0603(2019)08-0086-02
一、引言
(一)研究背景
在统计教学中,涉及元统计分析时,其中多元线性回归方法是最常见常用的,也是最难理解的。在使用多元线性回归方法时,需要建立回归方程,将自变量和因变量之间的关系、两者之间的联系进行相应的分析与讨论。
由于线性回归在不少行业中都得到了广泛应用,学生一定要理解清楚。在教学中,一般需要做的就是两件事,一是评定自变量对因变量的影响程度,二是最优方案的偏离度。通过这一系列实验的验证、分析、讨论,然后总结,从而进行相应的比较。
本文通过从不同角度的分析,探索了多元线性回归统计预测模型的运用情况,这样在教学中可以让学生更好的理解和应用。
(二)研究创新点
本文将统计教学之中的线性回归理论与一定的数学模型相结合,对随机变量以及其他变量之间的关系展开相应的分析与研究,让学生能够更直观地理解多元线性回归这个问题。通过已知的数据展开一定的分析和统计,建立相应的预测以及统计模型,对未来的变化展开预测,从而让学生能够更加准确的理解,并且本文利用实例作为补充,进一步加深了研究的可行性,提高了研究具有的价值和意义。
二、多元线性回归统计预测模型的建立
多元线性回归分析一般分为两步,第一步是建多元线性回归方程。参考因变量与多个自变量的观测数值,根据实验情况,分析和讨论因变量受到自变量的影响情况和因变量自身的线性影响情况,想要选择最适合的多元线性回归方程,必须选择有显著线性影响的自变量才行。
第二步是在测定因变量受不同自变量影响程度的同时,把多元线性回归方程的最优偏离度测定出来。
(一)建立预测模型
设因变量y与自变量x1,x2,…,xm-1的现实测量数据共有n组
其中y作為一个可观测的随机变量,它的变化被m-1个非随机因素x1,x2,…,xm-1和ε共同影响。假设y与x1,x2,…,xm-1有着下列的线性关系:
y=β0+β1x1+β2x2+...+βm-1xm-1+ε (2.1)
在这个式子中,自变量是x1,x2,…,xm-1,因变量是y,未知参数是β0,β1,β2,...,βm-1一共m个;ε是误差项,认为是均值为零,方差为σ2>0的不可观测的随机变量,通常假定ε~N(0,σ2)。
在进行了n(n≥p)次独立观测后,得到n组样本数据,即(2.1)式用矩阵形式表示为:
Y=Xβ+εε~N(1,σ2In) (2.2)
(二)模型的参数估计
在确定了回归的理论模型后,下一步就是通过收集、整理样本数据对模型的未知参数进行参数估计。我们常用的经典估计方法就是普通最小二乘法。
根据最小二乘法β0,β1,β2,...,βm-1,设一个Q值,这个值是未知参数向量的非负二次函数。Q值越小越好,它表示的是在多次观察中总的误差程度。即:
有最小值。由于Q是β0,β1,β2,...,βm-1的非负二次式,最小值一定存在。
矩阵A满秩,然后求解这个矩阵方程,得:
(三)检验回归模型
回归模型初步建立起来后,接下来就是要检验多元线性回归关系的显著性,就是将多个自变量与因变量的线性关系进行检验。
1.对回归方程进行拟合优度检验
拟合优度即SST=SSR+SSE,就是对样本值进行观测,测得拟合度。
其中要测定判定系数R2,这个值反应的是因变量y的总变差与自变量所解释的那部分变差之间的比重,建立成数学模型即为:
拟合效果通过R2的值来反应,R2介于0与1之间,接近于1,表明实际观测值和回归方程之间的拟合度越好,接近于0,拟合度越差。
2.检验回归模型的显著性
由于在多元线性回归中,回归系数显著性检验的t检验和回归方程显著性检验的F检验不等价了,于是,F检验显著只能说明线性回归效果对自变量x整体是显著的,但不能说明这个结果对每一个自变量x的效果都显著。反之也不成立。所以要分别对回归系数和回归方程进行检验。
3.检验回归系数的显著性
在多元线性回归中,每个自变量对因变量的影响的显著性,通过回归方程检验是不行的,因此针对每个回归系数,都要进行显著性检验。于是假设,H0 ∶ βj=0?圮H1 ∶ βj≠0检验统计量t为
如果回归效果没有预期的理想,可以采用后退的依次剔除法,根据 tj的大小,依次剔除 tj相对的不显著自变量,最后将剩余的显著因素进行一次回归。
(四)残差分析
回顾之前的多元线性回归方程,我们是假设模型建立起来的,所以还需要对这个模型进行残差分析,剔除模型假设由于缺乏真实性的影响。我们一般采用DW检验。这个基本思路是:由于残差是按照时间顺序收集的,根据(2.7)公式,如果是正相关,那么残差的相邻值之间就会比较接近,分子项相对较小,于是DW值也会比较小;如果是负相关,就正好相反。
三、多元线性回归统计预测模型的应用
(一)计算预测的模型
由于一般统计模型所使用的参数变量都比较多,计算量也很大,所以一般采用计算机软件来操作,如SPSS、SAS、TSP等。预测模型时,一般采用如下步骤。
首先,输入具体数据。以SPSS为例,在数据编辑窗口中输入搜集到的数据。
然后,确定分析方法。
最后,进行回归分析。软件会直接计算出回归预测的结果。
(二)案例
本文就是在教学中举出相应的案例,让学生能够通过一些实验验证与分析,判断自变量在线性影响程度上对因变量的作用,将影响显著的自变量选出并进行一定的分析与讨论,自主找到多元回归的最优方案。
另外,在此基础之上,确定模型统计是否准确,有效评定影响因子及最优方案偏离度,并将结果运用到多元线性回归方程中,也是本文的目的所在。
案例:我国民航客运量(万人)基本会受到以下几个因素的影响,x1民航航线里程(万公里)、x2来华旅游入境人数(万人)、x3消费额(亿元)、x4国民收入(亿元)、x5铁路客运量(万人)。(民航客运量1998至2013年统计数据来自《中国统计数据库》)
通过对模型进行一定的运用,然后对回归方程的拟合情况得出了相应的结果。通过软件计算,得到结果如下:模型的标准估计的误差为49.480,负相关系数为0.999,判定系数0.997,由此可知,模型拟合效果较好;而DW值为1.994,接近于2,可认定为模型不存在自相关。接下来进行方差分析,平方和=1.38287,残差的平方和=24482.857,总计平方和=1.38487,回归方程的F值=1128.862。所以,自变量对因变量的影响是显著的。
最后進行残差统计,预测值的标准误差19.563~38.794之间,残差-50.234~79.844之间。
根据数据统计可以看出,残差在基本假设范围内,所以说模型的设定是可行的。
通过上述计算得出的回归模型、影响因素、固定因素以及其他的一些因素,都说明了自变量对因变量有很大的影响,并且它们之间还是线性关系。通过数据可以看到一些结论:民航客运量的增加或者减少和民航里程增加、来华游客增加、铁路客运量减少都有着正相关。足以说明模型的拟合情况还是不错的,它的预测结果也不是盲目定论的,也是合乎情理的、可靠的,值得相信的。
在现实生活中,有很多这样的事例,都可以说明因变量与自变量之间的关系,且因变量会受其他因素的影响,并且会随之而改变,并且影响因素不止两个,当影响因素达到了一定的数量,才能更好地解释因变量的变化原因。学生通过理解这个案例,可以举一反三,达到教学目的。
四、结论
第一,本文深入分析和详细介绍了如何建立和运用多元线性回归模型的步骤,并且进行了实例分析,从实例分析的结果可以看到,多元线性回归模型的拟合效果明显,预测结果真实有效,学生容易理解,也容易掌握,可以自主分析。
第二,本文研究的多元线性回归模型,是在多个变量中选择有显著影响的变量,选用的模型对变量的控制在预测范围内。
第三,由于多元线性回归的统计预测模型,在其他学科上也有着广泛的应用,藉此说明本模型在后期相关学科的教学研究上也存在可行性。
参考文献:
[1]仇海全,曹炳元.模糊线性规划的一种解法[A].中国运筹学会第八届学术交流会论文集[C],2014.
[2]徐百兴.关于企业产品决策的LP/CPV集成数学模型的最优解计算公式[A].1998中国控制与决策学术年会论文集[C],2013.
[3]杨吉会.一类灰正项几何规划的解法[A].中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C],2010.