易志杰
【摘要】简单线性回归是研究两个可测变量之间线性关系的方法,可被用于预测和控制,是统计学中最基本也是最重要的方法之一,被广泛应用于各个研究领域。本文系统的研究并总结了简单线性回归的步骤,包括用最小二乘法进行参数估计,以及F检验和测定系数R2两种优度检验,并研究了如何用统计软件R语言实现简单线性回归。
【关键词】简单线性回归 最小二乘法 F检验 R2 R语言
【中图分类号】G42 【文献标识码】A 【文章编号】2095-3089(2018)40-0217-02
回归分析是研究变量与变量之间关系的方法,起源于19世纪50年代,由生物学家、统计学家高尔顿在研究父母和孩子身高关系时最早提出[1]。回归分析对科学研究方面帮助极大,很多关系式都是先进行试验得出数据,再通过回归分析得出的。回归分析的作用是可以进行预测与控制,可以利用拟合得出的关系式,对变量进行预测,对想要的因变量值进行反解得出需要控制的自变量的值。回归分析有多种具体方法,分别为线性回归,对数回归,多元回归等。本文重点以线性回归为研究对象进行研究。
1.线性回归模型步骤
1.1模型的建立
我们根据实际试验并测量,得到n对观测案例数据(xi,yi)。假设x与y是变量,x是自变量,y是因变量,他们之间有某种函数关系f,即y=f(x)。通过对f进行形式上的假设,然后用类似于解方程的方法去求得f中参数的值,从而得出f的具体表达式。
简单线性回归是最基本的回归方式,它假设f是一元线性方程,即y=ax+b,图形上画出来是一条直线。简单线性回归可以说是回归分析的基础,因为大量其他函数表达式的形式都是线性函数的变种,例如y=ax2+b与y=lnx可看作为简单线性回归的变种或叠加,即y=a*g(x)+b。
残差,也可称作统计误差,即因为人为因素或工具精度问题导致的测得的实际数据与通过模型推导出的拟合值之间产生的误差。残差用e表示,第i组的残差用ei表示。简单线性回归通常假设ei服从正态分布,且均值为0(即残差的固定成分是可以忽略不计的)。
由此简单线性回归模型可描述为[2]:
yi=β0+β1xi+ei i=1,2,……n
其中E(ei)=0,cov(ei, ej)=0
1.2參数的估计——最小二乘法
要推导该函数关系中的β0与β1,通常使用最小二乘法。最小二乘法,即以使得残差的平方和(设为RSS)最小为准则求得参数β0、β1的方法。
即:求出使得RSS=■[yi-(β0+β1xi)]2最小时的β0、β1[3]。
求解的方法是让RSS分别对β0、β1求导并让导数为0[2],即
■=■=-2■[yi-(β0+β1xi)]=0
■=■=-2■[yi-(β0+β1xi)]xi=0
整理上述两式,得出:
β0n+β1■xi=■yi
β0■xi+β1■xi2=■xiyi
为方便表示,记x=■, y=■, SXX=■(xi-x)2,SXY=■(xi-x)(yi-y),
则可解出:
■1=■,■0=y-■1x
最小二乘法的优点:仅依赖数据,计算方便。
最小二乘法的缺点:
(1)任何两个相同的数据集都会有相同的回归拟合。
(2)y其实跟x并没有关系,也可以通过最小二乘法得出一个线性关系式,但实际上此关系式并非真实,因此需要判定拟合效果是否真实。
1.3拟合效果检验
由前述最小二乘估计的缺点可知,需要对得出的简单线性回归公式进行检验。检验方法通常有两种。
1.3.1 F检验
F检验是用来检验x是否跟y存在线性关系的方法,它检验的是β1是否显著的不为0。如果显著不为0,则说明确实存在线性关系,若并不显著的不为0,即x对y的影响并不显著,那么线性关系就不显著,模型的拟合效果就不好。
若β1=0,则模型为:yi=β0+ej
此时,同样可以用最小二乘法算出,最佳的估计■0=y,此时,模型的残差平方和RSS=■(yi-y)2 =SYY (1)
而若β1不等于0,可以将■1=■,■0=y-■1x
带入
RSS=■[yi-(β0+β1xi)]2
得出RSS=SYY-■ (2)
可知(1)-(2)=SYY-(SYY-■)= ■
代表原简单模型加入变量x之后残差平方和减少的量,把它记为SSreg,称为回归平方和,SSreg越大则说明加入x对模型的改进越大,则说明x跟y之间的线性关系越强[2]。
统计上构造变量F=SSreg/RSS来进行上述问题的判断,可以证明SYY=SSreg+RSS 所以,F=■,因此F跟SSreg是正相关关系。SSreg大则F大,F大则SSreg大,x跟y就具有更显著相关关系。而在ei服从均值为0且相互独立的前提假设下,统计上容易证明,如果β1=0,那么F将服从f分布:F~F(1,n-2),其中n为样本点个数[4],可以通过查表查到F将在99%概率下不会超过多少,记为F(0.01;1,n),若通过观测值带入得出的F比该值还要大,则说明“几乎不可能的事情”(1%概率)发生了,也就是说β1=0这个假设是错的,由此简单线性模型拟合程度较高。
通过F检验验证回归模型是否合理,就是通过对比实际算出的F值和查表得出的F(0.01;1,n)值,若F> F(0.01;1,n),那我们说在p值为0.01的情况下模型显著,反之则不显著。
P值是在β1=0为真的情况下,F值比观察值更大的条件概率。一般以0.1、0.01、0.05作為评判标准,若p值小于这些值,则说明相应的系数显著不为0。
1.3.2 测定系数:R2
测定系数R2定义为R2=■
通过公式可以推算出SYY=SSreg+RSS,统计上一般用一个变量的方差来代表这个变量本身所承载的信息量,上式中SYY就是Y的方差,由关系式可知它由RSS和SSreg两部分组成,如前所述SSreg代表加入x的线性项之后模型残差的减少量,可以理解为Y的信息中可由x的线性关系解释的部分,而RSS则是除去这部分之后的非线性以及统计误差的部分。
因此,测定系数R2越大,则说明回归所承载的y的信息量就越大,也越能表示回归模型的真实性。
2.简单线性回归的R语言应用
R语言是一种有强大统计计算和绘图功能的数据分析软件,由一个强大的专门的研究型社区维护,R语言中有很多开源的数据包可供直接调用。R语言中通常用lm()函数回归进行线性回归[5],用法为:lm(formula,data),其中formula要拟合的模型,用“~”连接,对于简单线性回归来说,假设x、y分别为自变量、因变量,则formula为y~x,data为用于拟合的数据。
输出结果示例如下:
在Estimate下的两个值即分别β0与β1,而后面的“?鄢”则表示与之对应的回归系数显著不为0的p值所代表的显著性,“?鄢”越多则越显著,得出的系数就越有效。Multiple R-squared即测定系数R2,F-statistic即F检验,后面的p-value即对应的p值,可将之与0.01或0.05等进行比较,若更小,则说明拟合较优。示例图中表示,F检验下,拟合程度很好,但R2并不高,应对模型进行适当改进再进行拟合。
参考文献:
[1]于忠义.高尔顿发现相关与回归的历史回顾与反思[J].统计与信息论坛,2009,24:17-25
[2]邵鸿翔.线性回归方法在数据挖掘中的应用和改进[J].统计与决策,2012,14:76-80
[3]田生昌.最小二乘法的统计学原理及在农业试验分析中的应用[J].数学的实践与认识,2015,45:124-133
[4]S.Weisberg.应用线性回归[M].北京:中国统计出版社,1998:15-20
[5]Robert I.Kabacoff.R语言实战[M].北京:人民邮电出版社,2013:161-163