摘要:通过对最小二乘法的系数确定、相关指数、首发权等问题提供初等解释,加深对最小二乘法的理解,体会统计思想的数学基础。
关键词:最小二乘法;线性回归;首发权。
对两个线性相关变量做回归分析时,我们会用最小二乘法。看似平常的最小二乘法,实则来之不易,高斯凭借法国子午线弧测算而生与勒让德的首发权之争,延续数年。即便是回归方程的系数的推算,究竟是用微分方法、偏差理论还是矩阵法,亦是值得推敲的。离开了这些思考,单纯把结论告诉学生,那当然就不会重视散点图、残差分析、相关指数等与统计思想有关的概念,听者就只能如坠五里云中。
在最小二乘法的学习中,如果只重视公式和结论,掐头去尾烧中段,就会失去深入领会统计学思想的契机,在大学后续学习最小二乘法的改进方法,比如岭回归估计、主成分回归、稳健回归等时就产生困难。统计思想才是统计学习中最为重要的。
下面以高中生的关切度为序,谈几个问题。
一 系数公式重要吗?
对于具有线性相关关系的两个变量的一组数据,对它们做线性回归,由最小平方法,得到
的公式究竟是怎么得到的?首先得明白:需要考察“差异”的总和,而且它越小越好。但是为啥要考察“差异”的平方和,而不是直接考察呢?这当然是从大量计算的方便性来考虑的:不需要进行符号判断,就可以直接进行计算,避免了进行符号判断的麻烦。还有一个原因。举个例子:如果实际值与估计值的差是20(或-20),差异较大,平方后会被放大20倍,变为400;如果这一差异较小,是0.2,那么它平方后就变为0.04.。我们发现,对实际值与估计值的差异平方后,意外地收到了“放大大错误,缩小小误差”的效果。所谓“人非圣贤,孰能无过”?大错不放过,小错看不见,这不也是我们经常做的吗?
一般的高等数学教材,是把 视作二元函数,分别求偏导,得到驻点。以中学生能够理解的写法,简略表达如下:
在未学习导数时,如何证明呢?选修2-3的推导如下:
上式中,后两项与无关,前两项为非负数,因此当前两项为0时,最小。
如果按照这个方式来讲,其中最大的问题是
这里,一减一加 “”的原因是什么?技巧性太強、太突兀。
还有一种解释方法,与大学里的偏差理论有关。其实,在现行课本里已经做了暗示,只是很少有人注意到了。这就是选修2-3课本里章节复习里的一道题:
其中,为总偏差平方和,记为;为残差平方和,记为;为回归平方和,记为。
可以说,这个问题是进入偏差理论的一个重要契机,而且回归分析最后的残差分析环节就要用到。如果能理解这个思想,处理下面的非典型的线性回归问题就很轻松了:
例 关于与有以下数据:
有如下两个线性模型:(1);(2),试比较哪一个拟合效果比较好?
由于,所以方程(1)的拟合效果比较好!
统计学上刻划回归效果的量是相关指数,其计算公式为:,的值越大,说明残差平方和越小,回归效果越好。在本题中,分母实际上就是总偏差平方和,对两个回归方程都是一样的,所以没有必要计算相关指数,而直接考虑残差平方和即可,这其实就是最小二乘法的实质所在。
回到前面的问题:一加一减“”的原因是什么?咋突然从帽子里跑出来一只兔子了呢?其实,这只是二次函数的最值问题而已!先确定,再求:
是一个二元函数,先把它看成关于的函数,它是二次的,形如
又由二次函数的知识知:当 时,取得最小值。至此,都确定出来了。本质上,这是一个初中的二次函数最值问题,用不着“你记住,这是技巧”,或者骗学生说“到了大学再学习”。
不知大家注意到没有:在上述过程中,“回归直线通过样本中心点()”这一结果是先得到的,这跟用(偏)导数的方法时得到的顺序是恰好相反的。世人都知道“回归直线必然通过样本中心点()”,但是理由是什么呢?不同的方法会得到不同的解释,看来还远不是“记住”那么简单。
二 散点图与相关指数
一般的教科书或者教师在讲授线性回归时,都热衷于引用现实案例中的数据,在输入后用Excel,SPSS,TI图形计算器等软件得到回归直线。这样的处理,美其名曰“建模”、“数学实验室”,但是不得不说是一种莫大的遗憾:难道来了数据就一定可以做(线性)回归?绝不是!这种做法忽略了线性回归的前提条件是“线性相关”!因此,首先应该是作散点图。
高考里对此已经做了考察,2007年广东高考第17题是一道解答题,开了高考解答题考察“两个统计案例”的先河。这道题第一问是根据所提供的数据画散点图。当年好多学生不费吹灰之力就描出了那4个点,然后就把它们用折线图或者直线连接起来,导致煮熟的鸭子飞了,一分也得不到(散点图是不能把这些点连起来的)。这与不重视“散点图”有没有关系?可想而知!
对于一组数据,根据散点图判断出成线性相关关系后,用最小二乘法得到回归直线,是不是就完事了?没有!还要对这种回归进行评估,要作残差分析,算算相关指数,在此不展开讲。
三 首发权之争
最后说说最小二乘法的首发权之争。
1805年初,法国数学家阿德里安·玛丽·勒让德发现并公布了最小二乘法(当时称为最小平方法)。后来,美国人罗伯特·艾德里安在1808年末或1809年初发表了这种方法,德国数学家卡尔·弗里德里希·高斯则于1809年发表了这种方法。照此说来,最小二乘法的首发者就是勒让德。事实上,也只有一位科学家使该方法变成了普通大众都可以理解的方法,那就是勒让德。
但是,在1809年高斯发表他的最小二乘法时,他在概念和技术发展方面已经远远超出了勒让德,这使高斯坚信自己的方法才是真正的最小二乘法,他更是宣称自己从1795年起就一直使用这种方法。因为高斯在世界数学界享有无与伦比的崇高的地位,他的这番话导致了科学史上最著名的首发权纠纷。
后人通过对高斯提出的证据的著作《世界星历概论》的考察,尤其是通过对高斯用最小二乘法测算法国子午线弧的复盘,认为高斯确实是在早于1800年就独立想出了最小二乘法。但是,享有“数学王子”美誉的高斯实在太牛了,他没有认为这个方法有多重要,就没把它发表出来,也没跟任何人交流过。可以说,正是因为太过于聪明,使得高斯错过了像勒让德那样让最小二乘法产生直接和广泛效果的机会。
【参考文献】
[1] 茆诗松,周纪芗. 概率论与数理统计[M].北京:中国统计出版社,2000:359-362.
[2] (美)斯蒂格勒 著,李金昌 等译.统计探源:统计概念和方法的历史[M].杭州:浙江工商大学出版社,2014:248-256,287-288.
[3] 高惠璇.统计计算[M].北京:北京大学出版社,1995:297-343.
广东省深圳中学 张红兵