刘佳
(淄博职业学院,山东淄博 255314)
回归分析预测模型是研究变量间相关关系的一种数学模型,利用回归方程估计因变量的值,是一种根据事物内部因素变化的关系来预测事物未来趋势的分析方法。本文对回归分析模型做简要介绍,并详细讨论了几类常用的可线性化的曲线回归分析模型。
回归分析方法是研究变量间相互关系的一种定量预测方法,我们通过已观测到的数据资料进行分析,若已知变量之间存在因果关系,但由于各变量间关系受其他因素影响,使得变量之间的关系出现了不确定性,则这种不确定的相关关系,可以通过回归分析方法进行分析描述。
回归分析方法主要有以下几步,首先建立因变量与自变量之间的回归方程,即建立模型,再次对模型合理性进行分析,并诊断所建的模型是否符合该组数据,最后利用回归模型对因变量进行预测。
设因变量为y,自变量有m个分量x1,x2,xm,因变量y与自变量之间的关系由两部分组成,一部分是由自变量确定给出的,可表示为函数f(x1,x2,xm)的形式,另一部分由其他因素决定的,称为随机误差,表示为ε,数学模型可以表示为y=f(x1,x2,xm)+ε,在该模型中,通常可以假设随机误差ε服从均值为零的正态分布[1],即E(ε)=0,D(ε)=σ2。若自变量是一个,则回归模型称为一元回归模型,若自变量有多个,则回归模型称为多元回归模型。
首先简要介绍线性回归模型,若因变量y与自变量x1,x2,xm之间存在线性关系:
其中β0,β1,……βm,σ2都是与x1,x2,xm无关的未知参数,β0,β1,……βm称为回归系数。若得到n个独立观测的数据(yi,xi1,......,xim),i=1,2,......n,n>m,则得到
则线性回归模型可表示为
利用回归模型预测的基本思路是先根据自变量、因变量的观测数值求出回归系数,从而建立回归模型,再运用模型计算出不同自变量所对应的因变量的值。回归系数的求解主要应用最小二乘思想。模型参数的估计值β0,β1,……βm应使得预测值与实际观测之差的平方和最小,记为预测值,也就是
则所求回归系数应使得
的值最小。利用矩阵理论数值Q可表示为
可求得
由此建立线性回归模型
回归模型是否合理需要进行检验[2],常用的检验方法有t检验,F检验,相关系数检验等方法。
多元线性回归模型是最为简单的一种回归模型。多数情况下,自变量与因变量呈非线性关系,此时应用线性回归模型进行预测误差较大。这就需要根据历史观测数据建立合理的回归模型,下面介绍几类常用的曲线回归模型。
在进行回归分析之前若通过散点图观察到各自变量和因变量之间均呈线性关系,则可用线性回归模型进行预测分析,否则就需要考虑其他方法。常用的方法是将曲线线性化,对变量进行代换,从而将曲线方程转化为直线方程进行分析。这里列举几类可以通过变量代换转化为线性回归模型的几类曲线回归分析方程。
(1)一元多项式回归模型是一种常用的回归模型,若通过散点图观察到变量间有较为明显的高次函数关系,则可选用此模型。一元m次多项式回归模型表示为:
y=β0+β1x+β2x2+......+βmxm+ε,ε为随机误差,β0,β1,……βm为回归系数。
该模型实际是关于变量x,x2,......xm的线性回归模型,利用最小二乘法依然可以计算出回归系数。
(3)若变量之间联系可能如y=β0β1x形式,其中β0>0,β1>0,则可取对数变换,得到lny=lnβ0+xlnβ1,这里变量lny与变量x呈线性关系,用最小二乘法可求解。类似的,若变量之间关系可能形如y=e(β0+β1x),也可通过对数变换,转化成关于变量lny与变量x之间的线性关系,进而可求解回归系数。
下面以回归方程y=e(β0+β1x)为例说明如何利用曲线线性化这一思想求解回归系数。
例:给定一组观测数据见表1,已知自变量x与因变量y成指数方程,试用y=e(β0+β1x)对下列数据进行拟合。
表1 观测数据
方程y=e(β0+β1x)两端取对数,得到lny=β0+β1x,这里变量lny与变量x成线性关系,记:
则线性回归模型可表示为
求解回归系数=(XTX)−1XTlnY=(β0,β1)T=(1.289.−0.35)T
因此求得回归预测模型为y=e(1.289−0.35x)
总之,当变量之间呈比较简单的曲线关系时,可以通过变量代换将曲线关系转化为直线关系来进行拟合,但是曲线直线化也是有一定困难的。变量代换可解决义部分的曲线拟合问题,直线回归采用的是最小二乘法,它保证的是变量代换之后的残差平方和最小,若转化回原变量,并不一定就是最优模型。
曲线关系较为复杂时,通常不能通过变量代换法转化为直线方程,此时不能再利用线性回归模型进行求解。这样就需要寻找其他分析方法解决问题,非线性回归分析可以有效解决部分问题。非线性回归模型是指因变量y对回归系数β0,β1,……βm是非线性的,而不是对自变量是非线性的[3]。此类模型求解难度较大,需要借助计算机软件。基本思想设法求得某回归方程,使得各观测值与模型方程的距离的平方和最小,此时回归方程是曲线而不是直线。因回归方程是曲线,计算回归系数难度大,统计软件SPSS中nlr过程可进行非线性回归模型的拟合。
本文介绍了多元线性回归模型求解的基本思想,列举了几类通过变量代换可转化为线性回归模型的曲线回归方程,详细说明了变量代换的具体方法,并结合案例说明求解过程。