正态分布与统计学的关系史研究*

2010-08-15 00:47朱春浩
武汉船舶职业技术学院学报 2010年6期
关键词:皮尔逊正态正态分布

朱春浩

(武汉船舶职业技术学院公共课部,湖北武汉 430050)

形如“中间高,两头低”的钟形曲线所代表的正态分布,由于其强大的普适性,是概率论中最重要的一种连续型分布。从形式上看,它属于概率论的范围,但同时又是统计学的基石,因此它的提出和应用具有独特的双重理论背景和重要价值。

现有文献大多只是谈论某一个人物或某一阶段对正态分布理论所做的工作,并且以详实地记录其理论上的推导和证明为主,对于正态分布从开始不受重视到之后大行其道的发展背景和历史根源并没有进行详尽地挖掘和明确地表述,而后者对于数学研究则更具有理论价值和指导意义。

本文以正态分布的历史发展为题材,对其不同阶段的发展背景——同期概率论和统计学的发展状况及其代表人物的重要工作做了系统的分析与总结,并以此为线索来考证概率统计理论由互相孤立到彼此渗透,再到相互交融的发展特点。笔者试图从这些角度入手,对正态分布与统计学的关系史的演化作一个全面的梳理和考察,以期为相关历史研究和教育提供借鉴意义。

1 正态分布与统计学的关系史

从历史上看,正态分布从问世到作为分析统计数据的概率模型经历了4个阶段:18世纪30年代,棣莫弗最初在研究对一个概率作近似计算时发现了正态曲线,但由于多种原因它并没有作为刻画随机现象的概率分布;1809年,高斯在研究测量误差时,第一次以概率分布的形式重新提出此分布,并赢得了人们的普遍关注和研究,然而人们对统计数据与观测数据不相容性的认识,使得它的应用范围却仅限于天文学、测地学等误差论领域;19世纪中叶至末期,凯特勒在社会领域,高尔顿等人在生物学领域的工作,使正态分布迅速扩大到许多自然科学和社会科学领域,并最终进入统计学,成为一系列核心理论的基础和导火索;20世纪初,以戈塞特为先驱,费歇尔为主将,掀起了小样本理论的革命,大大提升了正态分布在统计学中的地位,使得用正态分布拟合数据继续占据应用的主流,相关回归分析、多元分析、方差分析、因子分析等统计方法,陆续登上了历史舞台,成为推动现代统计学飞速发展的一个强大动力。

1.1 发现

在概率论的研究中,棣莫弗(A.De Moiver,1667-1754)第一次引入了正态密度函数。正态分布的发现,在相当长时间里被人遗忘了。直到1924年卡尔·皮尔逊(K.Pearson,1857-1936)著《正态曲线史》(A History of the Normal Curve)一文,重新提到棣莫弗的工作,人们才认识到他的贡献。

1733年11月12日,棣莫弗将其一篇7页的论文送给了几位朋友,后来,棣莫弗听取朋友的意见做了修改,又增加一些内容,收录在《机遇论》(The Doctrine of Chances)(第2版)。正是在这篇文章中,他第一次导出了正态概率曲线的表达式。

棣莫弗指出:如果视二项式展开式的各项为一系列竖直线段的长度,把这些线段摆在同一直线上方且与之垂直,那么线段的上端点将描绘出一条曲线。由此得到的曲线具有两个拐点,它们分别位于最大项对应点的两侧。该曲线就是今日的正态概率曲线,进而棣莫弗又得到以下近似公式,即在n次独立重复试验中事件出现m次的概率之期望值满足

棣莫弗曾说:“我中断了这一步的研究,后来我值得尊敬的、有学问的朋友斯特林①James Stirling,1692-1770。先生做了进一步的探讨和研究,找到了”1774年,拉普拉斯(P.S.Laplace,1749-1827)首先证明了,并对棣莫弗的结果进行推广,建立了中心极限定理较一般的形式,即今天的棣莫弗一拉普拉斯中心极限定理。

棣莫弗的二项式正态逼近的工作,是概率论应用及统计学中最富有成效及最具有指导意义的发现。之后,经拉普拉斯、俄罗斯学派等学者的努力,到20世纪30年代独立变量和的中心极限定理最一般的形式最终完成,嗣后统计学家发现,一系列的重要统计量,在样本量时,其极限分布都具有正态形式,这构成了大样本方法的基础。如今,大样本方法在统计方法中占据了很重要的地位,饮水思源,棣莫弗的工作可以说是这一重要发展的源头。

二项概率逼近的研究固然重要,可在当时棣莫弗的工作并未引起人们更多的重视,正态曲线也仅仅停留在一个数学表达式的层面,在实际应用中还没有找到其适合存活的土壤。

在实质等同原则的引领下,美国经过几十年的自由蓬勃发展起来的转基因技术领先全世界,在技术发展的同时,为了防止转基因技术被滥用从而影响正常的社会秩序,美国在世界上最早开展了规范转基因技术发展的立法实践,建立了相比其他国家来说非常完善的转基因技术法律法规规范体系。

陈希孺先生认为:棣莫弗本人并不是一个统计学家,他从未从统计学的观点去考虑其工作的意义。棣莫弗的出发点始终是:把P作为一个已知值,如何在数值上去逼近二项式概率及其指定次数的和,而不是把看p作未知,如何通过观察结果去对p进行推断的问题。

英国数学史学家托德亨特(I.Todhunter,1820-1884)在其文献中完全遗漏了棣莫弗的“逼近”在《机遇论》中的扩展及其划时代性。他没有强调这是斯特林公式的起源,是正态曲线的第一次出现,是先于拉普拉斯和高斯的工作;他也没有提出棣莫弗扩展了牛顿的术语以及指导了统计学几乎一个世纪的发展路线。卡尔·皮尔逊认为托德亨特在抓住科学革命的趋势,以及挖掘当时与科学革命相关的思想方面几乎全部失败。

正是在托德亨特的影响下,棣莫弗的这篇论文才没有被作为对统计学的数学理论和统计实践有广泛影响的原则被使用,我们现在所知的正态分布也没有被称作“棣莫弗分布”②"Stigler命名律"这篇文章最初发表在纪念美国著名社会学家R.K.Merto的论文集"Science and social structure"上。"没有什么科学发现是以他的最初发明者命名的"这一说法最初就是来源于Merton,Stigler将其文章的题目命为"Stigler命名律",就是为了以一种强烈与幽默的方式,表达这一规律的有效性。。在这种意义下,我们可以看出史学家在科学的传播和发展中所起到的向导性作用。由此看,在棣莫弗时代,使正态分布作为一种有效的概率模型的时机还远不成熟。

1.2 再生

无论是对自然现象还是对社会现象进行观测,总会产生误差,这一点在很早以前人们就注意到了,但是对于其观测值所呈现出的随机性,人们总是认识模糊,众说纷纭,不能达成统一。进入18世纪,数学呈现出一个很重要的特征:“工作的目标不是数学,而是求解社会问题;数学是实现实践目的的一种方法”。这段时期,数学、物理学和天文学是自然科学的主体。数学的主流是由微积分发展起来的数学分析,由于分析方法广泛而卓有成效的应用,致使天文学和物理学变得数学化起来;随着科学数学化进程的深入,概率论的地位也就日益增强,它不仅得到传统哲学和神学的认可,而且为众多的科学成果所证实。这样,概率论就进入到广泛应用的时期,而把概率论应用到描述误差的问题中来就推动了误差论的发展。

天文学家伽利略(G.Galileo,1564-1642)可能是第一个提出随机误差概念并对其有所研究的学者。他在1632年出版的著作《关于两个主要世界系统的对话》中提及这个问题。虽然他没有提出“随机”和“分布”这样的概念,而是使用“观测误差”的名称,但他揭示了正态概率定律的许多特征,所描述的性质实则为现在的随机误差分布。

1809年,高斯(Gauss,1777-1855)发表论著《天体运行论》,在该书末尾,他写了一节有关“数据结合”的问题,以极其简单的手法导出误差分布——正态分布①这个分布第一次在1893年被卡尔·皮尔逊称为正态分布。,并用最小二乘法②最小二乘法最早出现在勒让德(Legendre,1752-1833)于1805年发表的论著《计算彗星轨道的新方法》附录中。该附录占据了这本80页小册子的最后9页,在前面关于卫星轨道计算的讨论中没有涉及最小二乘法,可以推测他当时感到这一方法尚不成熟。关于最小二乘法,高斯宣称自1795年以来他一直使用这个原理,这立刻引起了勒让德的强烈反击,他提醒说科学发现的优先权只能以出版物确定,并严斥高斯剽窃了他人的发明,他们间的争执延续了多年。因而,这两位数学家之间关于优先权的争论,在数学史上的知名度仅次于牛顿和莱布尼兹之间关于微积分发明权的争论。现在一般认为,二人各自独立地发明了最小二乘法,尽管早在10年前,高斯就使用这个原理,但第一个用文字形式发表的是勒让德,高斯较之于勒让德把最小二乘法推进得更远,他由误差函数推导出这个方法并详尽阐述了最小二乘法的理论依据。加以验证。

最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔(Bessel,1784-1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概率论》中。

正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用极其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。

总之,高斯对误差正态分布的提出,以及与之相伴的最小二乘法和中心极限定理一般形式的诞生,对后世的影响极大,这也使正态分布同时有了“高斯分布”的名称。现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线,这无疑传达了一种观念:在高斯的一切科学贡献中,对人类文明影响最大者就是正态分布,这也充分预示了正态分布之后在概率论和统计学中所取得的重要性地位。

1.3 融合

把正态分布的舞台拓展出去的当属凯特勒(A.Quetelet,1796-1874),他与正态曲线有关的工作分为两个方面:一是把误差理论应用到新的领域,二是“平均人”的概念。前者的灵感来源于人口普查,后者则是使统计方法获得广泛应用的理论基础。二者相辅相成,共同构成了凯特勒思想的根基。他首次强调了正态分布的用途,并将以它为基础的统计方法应用到天文学、数学、物理学、生物学、社会统计学及气象学等研究范围,在他的影响下,正态分布获得了普遍认可和广泛应用,以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。

在凯特勒的启发下,高尔顿(A.Galton,1822-1911)对正态分布怀有浓厚的兴趣,最早把统计方法应用于生物学,他继续研究和推广正态曲线,提出了中位数、四分位数、百分位数及四分位偏差等概念,并创立了回归分析,对英国生物统计学派的兴起起到了奠基性作用。

用他自己的语言可以最生动地描述这一点:“我第一次对误差的高斯定律——正规曲线产生兴趣应归功于一篇讨论某高山群海拔的地理学论文,我充分理解了他所展示的这个漂亮定律的广泛应用,之后我更是尝到了熟悉凯特勒工作的乐趣。我几乎不知道还有什么可以像误差的频数定律所表示的和谐秩序这样使人印象深刻,如果希腊人知道它的话,一定会把它奉为神灵来祭拜。它在最激烈的杂乱中平静地盛行着,并且不求闻达。”

他与凯特勒一样相信正态曲线是“适用于无数情况”的一般法则。他最早把统计方法应用于生物学,并作了两点突破:第一,他指出,若干个同质数据的混合体,可借助正态分布分离开,他极其广泛地搜集资料,目的就在于探索把大量已知数目归纳为能够用于描述和比较的几个简单公式的途径和方法;第二,引进了“统计尺度”的概念,把非数量性指标(如智力)数量化,从而能够进行计算和比较,并指出:同一物种若其某数量性指标(如身高)可用正态曲线拟合,则其他指标也可用正态分布拟合,这种思想在心理学和教育学中出现了很多追随者。

然而,这种无所不在的正态性也给高尔顿带来一些困惑:“身高曲线和正态曲线之间的一致性,形成了我对自然遗传定律研究的主要依靠。数学家基于描述误差的目的发现了误差定律,我们现在正带着另一种目的去利用他们的劳动成果。”,“但是总有机会去正当地疑惑,建立在误差定律严格性基础上的结论在逼近变量之间的相互作用时是否正确。当我们把理论上的结论放在频率试验中检验时,发现人类学者可能在使用误差频数定律的性质上比以前少了很多犹豫”。

高尔顿首先发现亲子两代身高数据服从同一正态分布,这引发了他两方面的考虑:①按照中心极限定理所述,正态分布是由大量微小因素的影响而形成的,但众所周知遗传是一个显著性因素,这应如何解释?②身高作为一种遗传性状,其优势传递给下一代,应出现两极分化的态势,但子代身高稳定的正态分布与此相悖。这成为他相关回归思想产生的萌芽,带着这些困惑,他开始对由实验和抽样得来的数据进行统计分析。高尔顿首先借助两个类比实验,分别回答了这两个问题。第一个是“正态漏斗”实验。他利用许多小球从漏斗中落下,途经有规律安置的障碍物,最终形成的正态曲线为例,以及在途中安插适当的阀门,形成大小不同的球源,继续下落,最终仍形成正态分布的结果,指出遗传作为一个显著性因素,仍可以分解为大量微小因素作用的叠加,这就与中心极限定理相一致了。高尔顿的发现表明,同质性表面的背后包含了许多“异质”的成分,这进一步回答了正态分布得以广泛应用的原因。第二个是种豌豆试验。1875年,他挑选了大小不同的豌豆种子,并分派不同的人去种。1877年,他对亲子代的数据分别进行分析,得到重大发现:相同大小的种子的后代仍符合正态分布,且方差与种子大小无关;子代的平均与母代的大小有对应关系,且有向母代平均线性收缩的趋势,总朝着一般平均数发展,这就初步回答了子代均值与母代一样的原因。

8年后,为进一步验证他的解释,高尔顿成立了一个“人体测量实验室”。他向社会征求了205对夫妇及他们的928个成年子女的身高数据,并进行了统计分析。他把父母的平均身高作为母代变量x,把子代变量记为y(其中,女子身高乘以1.08),并把相应的数据绘制成二维的,就发现相等强度的数据点出现在一条椭圆曲线上。于是问题就转化为去寻找一个(x,y)的二维分布,来解释这一现象。在数学家狄克逊的帮助下,他很快得到了二维正态分布的答案。虽然早在1846年,法国天文学家布雷瓦斯已经对二元和三元正态分布进行过探讨,但他并没有提到任何“相关”的术语。1886年,高尔顿发表了有关这种观察的论文,提出父子之间的身高,有显著的相关性:父代身材高,则子代的平均身材也高;但是从子代的组别观察中,发现有退步现象,即“回归”到父代平均数去。1888年,高尔顿在《自然遗传》中,提出了中位数、四分位数、百分位数及四分位偏差等概念,引进了回归直线,并赋予相关概念前所未有的重要性,成为相关回归理论的奠基者。这一理论后经埃其渥斯、卡尔·皮尔逊等人的发展,成为一种得力的统计方法。

这样,由于凯特勒和高尔顿的创新思想与实干精神的结合,正态分布逐步完成了从丑小鸭向白天鹅的蜕变。如果说,充斥着偶然性的世界是一个纷乱的世界,那么,正态分布为这个纷乱的世界建立了一定的秩序,直达理论的核心地位,使得偶然性现象在数量上被计算和预测成为可能。worth,1845-1926)、卡尔·皮尔逊和威尔顿(W.

1.4 影响

进入现代统计时期,以埃其渥斯(F.Edgeworth,1845-1926)、卡尔·皮尔逊和威尔顿(W.F.R.Weldon,1860-1906)等人为先导,引发了正态分布及其相关理论的一系列创新和深化。

在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。这种大样本统计学的顶峰和押阵大将,当属卡尔·皮尔逊。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意:凯特勒曾建议用二项分布去拟合“偏态”数据——这个思想后来成为卡尔·皮尔逊引进其著名的曲线族的出发点;高尔顿也认识到,一组观测值的几何均值可能更好地表示估计的最可能值,如果是这样的话,观测值的对数可以被假设服从正态分布,这就导致了对数正态分布,这也激发了卡尔·皮尔逊的工作;而直接吸引卡尔·皮尔逊注意力的是1892年威尔顿的提问,他在用正态曲线去拟合一组“那波里蟹”体宽数据时,得到一个双峰分布,并告知了皮尔逊,这引发了卡尔·皮尔逊的一系列成就。

皮尔逊首先认为这可能是两个正态分布的混合,于是给出复合分布函数去拟合,并提出用矩方法去估计其参数。随后,卡尔·皮尔逊认为,统计学需要的是一种能把观测数据转化为一个预测模型的方法,于是他希望找出一族曲线,去拟合从实际问题中得来的数据,以便在正态分布不适用时可供选择使用。1892-1895年,他依赖清晰的表达能力、精湛的数学功底以及坚持自我的精神在这项工作中获得了成功,并以《数学用于进化论》为总题目发表了一系列论文。由于正态分布在人们心中根深蒂固的地位,卡尔·皮尔逊的曲线族在当时同样引发了一场争论,并由于各种理由不被绝大多数学者承认,但它同对数正态分布、极值分布等分布一样,终究为人们提供了一种有用的工具,扩大了统计方法的武库。在理论上,多元正态分布的重要意义在于:它把起初纯属于误差分析的线性模型理论与“统计数据”的分析沟通起来。1892年,埃其渥斯从两元、三元以及四元变量开始工作,对于多元正态分布给出了第一个陈述。1896年,卡尔·皮尔逊在此基础上给出了更加明确的推导,并发展了一套比高尔顿的相关理论更一般化和精确化的复相关和多重回归理论,他指出,这样一个理论对于回答威尔顿提出的那类问题是很有必要的。在试图把数据拟合到他的频数曲线上时,卡尔·皮尔逊面临对拟合优度检验的需要,这使他于1900年建立了作为现代统计学牢固基础的x2拟合优度检验。

进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。卡尔·皮尔逊的理论指导和在酿酒公司工作的经历使得戈塞特(W.S.Gosset,1876-1937)具备了研究小样本问题的良好条件。1908年,他发表著名论文《均值的或然误差》(The Probable Error of a Mean),提出了正态样本中样本均值和标准差的比值的t分布,并给出了应用上极其重要的第一个分布表格。虽然其推导有一些漏洞,但这并不影响其在历史上的功绩。

随后费歇尔(R.A.Fisher,1890-1962)为解决这些漏洞,开始了与哥塞特的通信及长达二十余年的友谊和研究。费歇尔发展了“n维几何”的方法,这成为正态样本统计量的抽样分布中一个极为有力的方法。自1915年开始,沿用这个方法费歇尔获得了一些应用上极重要的统计量如相关系数,正态样本中绝对偏差、回归系数、相关比、多重回归和偏相关系数等的分布,以及来自两个正态总体的样本方差的比值的分布。同时,他发展了估计,充分性,似然,推断,方差分析和实验设计的思想,使得正态性假设在统计分析中发挥了关键性作用。此后,有关相关回归分析中一些重要统计量的精确分布如t分布、f分布以及x2分布的产生,与多维正态分布一起,始终雄踞于统计学的要津,发挥关键性作用。至此,这场革命再次从理论上鉴定了正态分布的基础性作用,在费歇尔的推动下,现代统计学开始出现各种分支并迅速发展起来。

2 结 语

正态分布从提出时的不受重视到之后在统计学中大行其道的历史过程,精辟地诠释了在发展的不同阶段概率论与统计学相关理论间的相互影响,成为相关研究的一个理论典范!

在统计学发展的历史中,没有哪一个理论,象正态分布那样被广泛地发展。人们总是设法利用改进了的新观念和新方法,去研究该理论的应用基础及其数学性质,它的产生和发展,它的新理论和新应用,它的传递性和同其它理论的相互作用,推动了整个统计学的发展。

1 A.Hald.A History of Probability and Statistics and Their Applications before 1750[M].New York:John Wiley and Sons Inc,1990.

2 A.Hald.A History of Mathematical Statistics from 1750to 1930[M].New York:John Wiley and Sons Inc,1998.

3 E.S.Person and M.G.Kendall.Studies in the History of Statistics and Probability[C].Charles Griffin &Company Limited London & High Wycombe,1970.

4 I.Todhunter.A History of the Mathematical of Theory of Probability from the Times of Pascal to That of Laplace[M].NewYork:Chelsea,1965.

5 I.Hacking.The Emergence of Probability[M].London:Cambridge University Press,1975.

6 K.Person.The History of Statistics in the 17th and 18th Centuries,Against the Changing Bachground of Intellectual,Scientific and Religious Thought[M].Charles Griffin & Company Limited London & High Wycombe,1978.

7 陈希孺.数理统计学简史[M].湖南:湖南教育出版社,2002.

8 贾小勇等.最小二乘法的创立及其思想方法[J].西北大学学报(自然科学版),2006(3):507-511.

9 徐传胜等.亚伯拉罕·棣莫弗的概率思想与正态概率曲线[J].西北大学学报(自然科学版),2006(2):339-343.

10 徐传胜,张梅东.正态分布两发现过程的数学文化比较[J].纯粹数学与应用数学,2007(1):137-144.

11 于忠义.高斯与观测误差分布的发现[J].统计与信息论坛,2006(6):28-30.

12 朱春浩.简明概率论学术史纲要[J].武汉船舶职业技术学院学报,2010(5):103-107.

13 朱春浩.概率论思想方法的历史研究[M].四川:电子科技大学出版社,2007.

14 朱春浩.最小一乘法与最小二乘法:历史与差异[J].统计与决策,2007(6):9-10.

猜你喜欢
皮尔逊正态正态分布
关于n维正态分布线性函数服从正态分布的证明*
利用二元对数正态丰度模型预测铀资源总量
现代统计学之父:卡尔·皮尔逊
现代统计学之父:卡尔·皮尔逊
偏对称正态分布的若干性质
Excel在水文学教学中的应用
卡方分布的探源
双幂变换下正态线性回归模型参数的假设检验
正态分布及其应用
关于二维正态分布的一个教学注记