由偏差平方和分解公式我们知道,残差平方和越小,回归平方和就越大,回归变量[y](亦即解释变量x)对预报变量y的贡献就越大,用回归变量[y]作为预报变量y的估计值就越准确,从而x与y的线性相关性就越强。在偏差平方和分解公式的两边同除以[i=1n(y1-y)]2,我们得到:
[i=1n(yi-yi)2i=1n(yi-y)2]+[i=1n(yi-y)2i=1n(yi-y)2]=1。
等式左边第一项是随机误差ε对预报变量
[R2=i=1n(yi-y)2i=1n(yi-y)2]=1-[i=1n(yi-y)2i=1n(yi-y)2]。
[R2]叫做相关指数。
学习《数学(选修)》,感觉相关系数与相关指数是两大难点,只要突破这两点,线性回归的学习就容易多了。本文沿着课本上用最小二乘法求线性回归方程的系数的推导做下去,揭示相关系数与相关指数的来龙去脉和它们的关系。
已知n组数据[xi,yi],[i=1,2,3,…,n],设线性回归模型为:[y=y+ε]。其中[y=a+bx],将这n组数据代入回归模型得:
[yi=yi+εi],[i=1,2,3,…,n],其中[yi=a+bxi]。
残差平方和[Qa,b]=[i=1nε2i]=[i=1n(yi-yi)2]=[i=1n(yi-a-bxi)2]。
记[x=1ni=1nxi],[y=1ni=1nyi],则
[Qa,b]=[i=1nyi-y+y-a+bx-bxi-x2]
=[i=1nyi-y2]+[ny-a+bx2]+[b2i=1n(xi-x)2]
+[2y-a+bx·i=1nyi-y-2by-a+bx·i=1nxi-x]
-[2bi=1nxi-xyi-y],
其中,[2y-a+bx·i=1nyi-y-][2by-a+bx·i=1nxi-x]
=[2y-a+bxi=1nyi-y-bxi+bx]
=[2y-a+bxi=1nyi-bxi-y-bx]
=[2y-a+bxi=1nyi-bxi-ny-bx]=0
所以,[Qa,b]
=[i=1nyi-y2+ny-a+bx2+b2i=1nxi-x2-2bi=1nxi-xyi-y]
=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b2-2bi=1nxi-xyi-yi=1nxi-x2]
=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22]
[-i=1nxi-xyi-y2i=1nxi-x2]。
由于[xi,i=1,2,3,…,n]这n个数据一般不会相等(否则这n对数据已经在一条平行于y轴的直线上了,再求回归直线已失去意义),所以
[i=1nxi-x2≠0]
观察上面最后的表达式,其中[yi,y,n,x,xi]都是常数,而含a,b的兩项是非负数,当且仅当它们等于0时,[Qa,b]取最小值,这就是说,当
[b=i=1nxi-xyi-yi=1nxi-x2],[a=y-bx]
时[Qa,b]达到最小值。
以上是课本上利用最小二乘法求线性回归方程系数的过程。我们沿着这个思路继续下去,就能得到相关系数和相关指数。
一、相关系数r的产生
由上面的推导可知,在[b=i=1nxi-xyi-yi=1nxi-x2],[a=y-bx]
时,[Qa,b]达到最小值,最小值为
[m=i=1nyi-y2-i=1nxi-xyi-y2i=1nxi-x2]=
[i=1nyi-y2[1-i=1nxi-xyi-y2i=1nxi-x2i=1nyi-y2]
记[r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2],则[m=i=1nyi-y21+r2]。
m的值就是残差平方和的最小值,m的大小就能描述变量[x,y]的线性相关的程度,m越小,变量[x,y]的线性相关程度就越强,m越大,变量[x,y]的线性相关程度就越弱,但是,m是一个有单位的量,同时m的值受样本容量的影响很大,为了使不同的样本和不同的样本容量的数据有一个统一的评判标准,我们选择r来刻画变量[x,y]的线性相关程度,r叫做相关系数,它是一个没有单位的量,并且无论样本容量多大,总有[-1≤r≤1],所以,用r来描述变量[x,y]的线性相关程度显得更方便一些[∣r∣]。越大,m的值就越小,两个变量的线性相关性就越强,[∣r∣]越小,m的值就越大,两个变量的线性相关性就越弱,通常,当[∣r∣>0.75]时认为两个变量有很强的线性相关关系,当[0.30≤∣r∣<0.75]时认为两个变量相关性一般,而当[∣r∣<0.30]时认为两个变量不具有线性相关性。
由m与r的关系式我们还可以得到:因为[m≥0],[i=1nyi-y2≥0],所以[1-r2≥0],所以,[∣r∣≤1]。由此可以得出著名的柯西不等式。
若[∣r∣=1],则[m=0],样本数据[xi,yi,i=1,2,3,…,n]全部落在直线[y=a+bx]上,这时变量x,y的关系已经不是相关关系而是函数关系。所以,函数关系是相关关系的一种极限状态,是一种特殊的相关关系。
由r和b的表达式我们得到r和b的关系式:[bi=1nxi-x2=ri=1nyi-y2],由此看到,r和b的符号是相同的,当r>0时,b>0,[y=a+bx]是增函数,所以x与y是正相关关系,当r<0时,b<0,[y=a+bx]是减函数,所以x与y是负相关关系。
二、相关指数R2的产生
由上面的推导可知,残差平方和的最小值[m=i=1nεi2=i=1nyi-y2=i=1nyi-y21-r2=i=1nyi-y2-r2i=1nyi-y2][=i=1nyi-y2-b2i=1nxi-x2=i=1nyi-y2-i=1nbxi-bx2=i=1nyi-y2][-i=1na+bxi-a+bx2=i-1nyi-y2-i=1nyi-y2],
即:[i=1nyi-y2=i=1nyi-yi2+i=1nyi-y2]。
这个公式叫做偏差平方和分解公式,我们对它的统计意义作一点分析。
在一元线性回归模型[y=y+ε=a+bx+ε]中,预报变量y值的变化效应由回归变量[y](即解释变量x)和随机误差ε共同决定。我们知道,描述一个随机变量的变化、分散程度的量是这个随机变量的方差,我们用随机变量的样本方差估计它的方差。
预报变量y的样本方差为[1ni=1nyi-y2],其中[i=1nyi-y2]叫做总偏差平方和。
下面我们来求随机误差ε的样本方差。由上面的推导可知,[y=a+bx+ε],并且[y=a+bx],所以,[ε]=0,即隨机误差ε的样本均值为零,所以,由样本方差的定义得[σ2=1ni=1nεi2],所以,随机误差ε的样本方差为[1ni=1nεi2],其中[i=1nεi2=i=1nyi-yi2]就是残差平方和。
我们来看[i=1nyi-yi2]:因为[1ni=1nyi=1ni=1na+bx][=a+b1ni=1nxi][=a+bx=y],所以[y]不仅是预报变量y的样本均值,也是回归变量[y]的样本均值,所以[1ni=1nyi-y2]就是回归变量[y]的样本方差,我们把[i=1nyi-y2]叫做回归平方和。所以,偏差平方和分解公式的意思就是:
总偏差平方和=回归平方和+残差平方和。
偏差平方和分解公式精确的刻画了这样一个事实:预报变量y变化的总效应是由回归变量[y](即解释变量x)与随机误差ε的变化效应的和决定的。
由偏差平方和分解公式我们知道,残差平方和越小,回归平方和就越大,回归变量[y](亦即解释变量x)对预报变量y的贡献就越大,用回归变量[y]作为预报变量y的估计值就越准确,从而x与y的线性相关性就越强。在偏差平方和分解公式的两边同除以[i=1nyi-y2],我们得到:
[i=1nyi-yi2i=1nyi-y2+i=1nyi-yi2i=1nyi-y2=1]
等式左边第一项是随机误差ε对预报变量y的贡献率,第二项是回归变量[y](亦即解释变量x)对预报变量y的贡献率。记
[R2=i=1nyi-y2i=1nyi-y2=1-i=1nyi-yi2i=1nyi-y2]
定义:[R2]叫做相关指数。
显然有[R2≤1],[R2]表达的是回归变量[y](即解释变量x)对预报变量y的贡献率,[R2]越大,即回归平方和越大,残差平方和就越小,表明回归变量[y](即解释变量x)对预报变量y的贡献率就越大,这也就表明了变量x,y的线性相关程度越强。[R2]越小,即回归平方和越小,残差平方和就越大,表明回归变量[y](即解释变量x)对预报变量y的贡献率就越小,这也就表明了变量x,y的线性相关程度越弱,所以,用[R2]的大小可以检验变量x,y的线性相关程度的强弱。
三、相关系数与相关指数的关系
定理:[R2=r2]。其中r是相关系数,[R2]是相关指数。
证法一:[m=i=1nyi-yi2][=i=1nyi-y21-r2r2=][1-i=1nyi-yi2i=1nyi-y2][=i=1nyi-y2i=1nyi-y2=R2]。
证法二:
因为当[∣r∣>0.75]时认为两个变量有很强的线性相关关系,所以,一般认为当[R2>0.752=0.5625]时,认为两个变量有很强的线性相关关系。
用相关系数r和相关指数[R2]检验两个变量的线性相关性各有优缺点,由于相关指数表示解释变量x对预报变量y的贡献率,所以用相关指数
进行检验,显得直观一些,但是相关指数[R2]的计算需要先求出线性回归方程,计算它太麻烦,一旦两个变量不线性相关,求出的线性回归方程就变得毫无意义。用相关系数r进行检验,只需用原始的数据,显得更方便一些,如果经检验两个变量不线性相关,就不必求回归方程了,免得走弯路。
上面借助最小二乘法论述了相关系数和相关指数是怎样产生的,揭示了这两个量的来龙去脉,同时打通了回归系数b,相关系数r和相关指数[R2]的关系,即:
[b=i=1nxi-xyi-yi=1nxi-x2?ri=1nyi-y2=bi=1nxi-x2]
[?i=1nyi-yi2?i=1nyi-y21-r2?i=1nxi-x2][=i=1nyi-yi2+i=1nyi-y2?R2=r2]。
指导教师点评:线性回归内容是从大学教材上下放下来的,在下放的过程中,原有的知识体系和原有的逻辑被打破了,这些下放的知识不能只是一放了之,必须重新整合,新旧知识要加以熔合和整改,重塑新的知识体系和逻辑体系,只有这样,才能被中学生接受,否则,中学生对这些知识的学习必成夹生饭,对学生的发展,对中学数学教学是无益的。有鉴如此,本文作者在这方面所做的努力和尝试,是值得肯定的。
参考文献
[1]高中数学2-3(A版)[M].人民教育出版社,2016.
[2]高中数学2-3(B版)[M].人民教育出版社,2016.
[3]刘婉如,徐信之.概率与统计[M].高等教育出版社,2010.
作者简介
马锦赫(1999.09—),男,汉族,北京市海淀区,现就读于中国人民大学附属中学分校高三4班,在学习上喜欢独立思考。