最小二乘法:勒让德与高斯*

2011-09-07 10:10王文平朱春浩
武汉船舶职业技术学院学报 2011年6期
关键词:正态分布高斯乘法

王文平 朱春浩

(武汉船舶职业技术学院公共课部,湖北武汉 430050)

1 引 言

设有n个数a1,a2,…,an,要找一个数x反映这组数的总的情况,我们希望x和这n个数的偏差x-a1,x-a2,…,x-an在总体上说来尽可能地小。

对于二维情形,已知两点(x1,y1),(x2,y2)可确定一条直线y=a+bx,这只需将两点坐标代入直线方程,解出a,b即可。将两点推广到n个点(x1,y1),(x2,y2),…,(xn,yn),如何确定线性回归直线呢?

1805年,法国数学家勒让德在研究天文学和测地学处理数据时最先发明最小二乘法,但因不为世人所知而默默无闻。高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,后来高斯等数学家对最小二乘法进行了大量的理论研究和应用,在统计学中发挥着重要的作用,是十九世纪统计学的“中心主题”。正如美国统计史学家斯蒂格勒(S.M.Stigler)所说:“最小二乘法之于数理统计学犹于微积分之于数学”[1]。

2 勒让德与最小二乘法

勒让德(A.M.Legendre,1752-1833)是法国军事学校的教授,曾任多届政府委员,后来成了多科工艺学校的总监,直至1833年逝世。他一直保持热情而有规律的数学研究工作,由于解决了许多类型的的问题,其名字常存于许多定理之中。数学史家克莱因(M.Kline,1908-1992)认为勒让德之所以名列拉格朗日(J.L.Lagrange,1736-1813)、拉普拉斯、蒙日(G.Monge,1746-1818)之后,是因为其工作不如这三人深刻。尽管勒让德的工作引起许多重要理论的产生,但这只是在他的研究成果被更强有力的思想接受后才实现的,最小二乘法就是一个典型实例。

最小二乘法最早出现在勒让德1805年发表的论著《计算彗星轨道的新方法》附录中。该附录占据了这本80页小册子的最后9页,在前面关于卫星轨道计算的讨论中没有涉及最小二乘法,可以推测他当时感到这一方法尚不成熟。勒让德在该书72-75页描述了最小二乘法的思想、具体做法及其优点。以引进这种方法的理由为开端:“所研究的大多数问题都是由观测值来确定其结果,但这几乎总产生形如E=a+bx+cy+fz+…方程的方程组,其中a,b,c,f,… 是已知系数,它们从一个方程到另一个方程是有变动的。x,y,z,…是未知的,它们必须根据将每个方程E化为0或很小的量来确定”[2]。用现代术语可描述为,一个n未知量m个方程的线性方程组(m>n),

寻找“最佳”近似解,以使所有Ej都变小。勒让德认为:“赋予误差的平方和为极小,则意味着在这些误差间建立了一种均衡性,它阻止了极端情形所施加的过分影响。这非常好地适用于揭示最接近真实情形的系统状态”[3]。

为了确定误差平方的最小值,勒让德运用了微积分工具。即为使平方和

在xi变动时有最小值,则它对xi的偏导数必为0。由此得如下线性方程组

这样,就得到一含有n个未知量n个方程的线性方程组,用“现成的方法”是可以解出的。

关于最小二乘法的优点,勒让德指出以下几条:

(1)通常的算术平均值是其特例。即n=1,aj1=-1时,令bj=aj0,则误差的平方和为

对其求关于X的偏导数,则使此和极小的方程是

它正是m个观测值的算术平均值。

(2)如果观测值全部严格符合某一方程组的要求,则此解必是最小二乘法的解。

(3)如果舍弃或增加观测值,则修改所得方程组即可。

勒让德的成功在于他从一个新的角度来看待这个问题,不像其前辈那样致力于找出几个方程(个数等于未知数的个数)再去求解,而是考虑误差在整体上的平衡。从某种意义讲,最小二乘法是一个处理观测值的纯粹代数方法。要将其应用于统计推断问题就需要考虑观测值的误差,确定误差分布的函数形式。

3 高斯与最小二乘法

德国慕尼黑博物馆的高斯(C.F.Gauss,1777-1855)油画像下写有:“他的思想深入数字、空间、自然的最深秘密,他测量星体的路径及地球的形状和自然力,他推动了数学的进展直到下个世纪。”的确,高斯是“能以九霄云外的高度按照某种观点掌握星空和深奥数学的天才。”由正态分布的导出可对高斯创造性思维略见一斑。

1809年,高斯发表论著《天体运动理论》。在该书末尾,他写了一节有关“数据结合”的问题,以极其简单的手法导出误差分布——正态分布,并用最小二乘法加以验证。关于最小二乘法,高斯宣称自1795年以来他一直使用这个原理。这立刻引起了勒让德的强烈反击,他提醒说科学发现的优先权只能以出版物确定,并严斥高斯剽窃了他人的发明。他们间的争执延续了多年,因而,这两位数学家之间关于优先权的争论,在数学史上的知名度仅次于牛顿和莱布尼兹之间关于微积分发明权的争论。现在一般认为,二人各自独立地发明了最小二乘法,尽管早在10年前,高斯就使用这个原理,但第一个用文字形式发表的是勒让德。高斯较之于勒让德把最小二乘法推进得更远,他由误差函数推导出这个方法并详尽阐述了最小二乘法的理论依据。

其推导过程如下[4]:

设误差密度函数为f(x),真值为x,n个独立测定值为x1,x2,…,xn,由于观测是相互独立的,因而这些误差出现的概率为

再对此式求导

即正态分布 N(0,σ2)。

这样可知(x1,x2,…,xn)的误差密度函数为

要使此式达到极大值,必须选取x1,x2,…,xn之值而使表达式达极小值。于是,可得x1,x2,…,xn的最小二乘法估计。

在推证过程中,高斯创新之处:用逆向思维来思考这个问题,即先承认算术平均值是所求的估计,即“如果在相同的环境和相等的管理下对任一个量经由多次直接观测确定,则这些观测的算术平均值是最希望要的值”。这是高斯大胆采用了人们千百年来的实际经验,实为高斯之独创性思维。这也正如他所说:“数学,要有灵感,必须接触现实世界”。

4 结 语

最小二乘法在十九世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔(F.W.Bessel,1784-1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致[5]。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概率论》中。正态分布作为一种统计模型,在十九世纪极为流行,一些学者甚至把十九世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用极其广泛的统计模型。到二十世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。

综上可知,勒让德和高斯发现最小二乘法是从不同的角度入手的:一个是为解线性方程组,一个是寻找误差函数;一个用的是整体思维,考虑方程组的均衡性,一个用的是逆向思维,首先接受经验事实;一个是纯代数方法,一个致力于应用。相比而言,高斯不愧为数学王子,他把最小二乘法推进得更远、更深刻,这极大地推动了数理统计学的发展[6]。

1 H.O.Lancaster.Encyclopedia of Statistical Science[M].New York:John Wiley and Sons Inc,1988.

2 R.A.Plackett.The Discovery of the Method of Least Squares[J].Biometrika,1972(59):239-251.

3 S.M.Stigler.The History of Statistics[M].Cambridge:Havard University Press,1986.

4 W.C.Waterhouse.Gauss’s First Argument for Least Squares[J].Archive for History of Exact Science,1991(41):41-52.

5 J.K.Victor著,李文林译.数学史通论[M].北京:高等教育出版社,2004.

6 贾小勇等.最小二乘法的创立及其思想方法[J].西北大学学报(自然科学版),2006(3):507-511.

7 于忠义.高斯与观测误差分布的发现[J].统计与信息论坛,2006(6):28-30.

8 朱春浩.简明概率论学术史纲要[J].武汉船舶职业技术学院学报,2010(5):103-107.

9 朱春浩.概率论思想方法的历史研究[M].四川:电子科技大学出版社,2007.

10 朱春浩.最小一乘法与最小二乘法:历史与差异[J].统计与决策,2007(6):9-10.

11 朱春浩.正态分布与统计学的关系史研究[J].武汉船舶职业技术学院学报,2010(6):117-122.

12 朱春浩.极大似然估计:兰伯特与丹尼尔·伯努利[J].武汉船舶职业技术学院学报,2011(1):105-110.

猜你喜欢
正态分布高斯乘法
算乘法
关于n维正态分布线性函数服从正态分布的证明*
我们一起来学习“乘法的初步认识”
《整式的乘法与因式分解》巩固练习
数学王子高斯
把加法变成乘法
天才数学家——高斯
偏对称正态分布的若干性质
正态分布及其应用
关于二维正态分布的一个教学注记