粟琼
【摘要】正态分布又叫高斯分布,是反映自然界中事物“发生—到达顶峰—消亡”过程的规律总结,它在自然界,人类社会等都有大量体现。本文就一维正态分布与二维正态分布的特点做出分析,研究其特征。
【关键词】正态分布;一维;二维
正态分布是也叫常态分布或者高斯分布,最早由棣莫弗在求二项分布的渐近公式中得到,是一个在数学、物理及工程等领域都非常重要的概率分布,同时在统计学中都有很广泛的运用,影响极其深远。
一、一维正态分布的定义及密度曲线的分析
(一)一维正态分布定义
在多次高尔顿钉板试验中,掉入中间槽的球的个数多于掉入两边的槽的球的个数,并且从中间往两边递减。如果我们将球槽从左至右编号,以这些编号为横坐标,以每个球槽落入的小球个数为纵坐标建立坐标系,则可以做出频率分布直方图,将频率分布直方图上方中点用直线连接起来画出频率分布折线图,当我们的球槽足够多足够密时,这些折线近似一条光滑的曲线,我们把它称为总体密度曲线,在高尔顿钉板试验中的总体密度曲线就像一个倒扣的钟形,两头低中间高,并且两边对称,我们也把它叫做“钟形曲线”,也叫“正态分布密度曲线”。
(二)一维正态分布密度曲线的分析
正态分布密度曲线公式中的参数和为常数,它们的值决定了曲线的位置与高度,下面研究这两个常数的变化对正态分布密度曲线的影响。
1.当取固定值分别取值x1、x2、x3时,曲线图形如图所示:
2.当取固定值分别取值、1、2时,曲线图形如图所示:
由图可知只影响曲线的位置,不影响曲线的形状,只影响曲线的形状,不影响曲线的位置,越小,標准差就越小,图形就越“瘦高”,就越集中在期望的附近。
二、二维正态分布的定义及密度曲线的分析
在统计学中,正态分布的影响力极其深远,一维正态分布不管是定义还是性质都比较容易理解,但是现实生活中,对某一事物产生影响的不仅仅是一个变量,可能会有两个甚至多个变量,那也就需要二维甚至多维的正态分布数据进行分析。下面就二维正态分布作出分析:
在三维空间中,为了更形象地描述二维正态分布,我们在空间直角坐标系中研究二维正态分布密度曲线,其函数的图形像一个倒扣在xOy平面上的钟,中心点对应xoy平面中的点,由一维正态分布的经验我们容易知道不改变其它参数,只改变、的值,则该函数曲线的形状不会发生改变,只会改变这个“钟形”的中心位置。
我们考虑单个的值变化时图形的改变,下图从左至右是取固定值2时,分别取值1、2、3、4这四个值时对应的图形,显然,当的值越大时,在x轴方向上,图形就越“矮平”,X的值就越分散。
同理,如果我们只考虑的变化,则的值越大时,在y轴方向上,图形就越“矮平”,Y的值就越分散。
最后我们考虑的值对图形的影响,我们保持其他四个参数的值不变,的值分别取值0、0.25、-0.5、0.9这四个值,对应的图形分别如下图所示:
从图形可以看得出来,随着的值的绝对值越大,图形对应更“集中”,更集中在中心线的周围,所以我们也更容易理解,当的绝对值越大时,X与Y的线性相关关系就越强,的正负则说明了X与Y是正相关还是负相关的关系。
二维正态分布的两个边缘分布均为一维正态分布,X~,Y~。
二维正态分布的应用也比较广泛,比如当我们研究男女性别对学生数学成绩的影响时,我们就可以收集大量的成绩数据,利用二维正态分布模型就很容易看得出来性别差异与数学成绩的关系。
其实,实际问题中,当影响结果的变量较多时,也可以用多维正态分布来分析,在此文中就不再讨论了。
三、正态分布的应用
正态分布在变量分析中有非常广泛地应用,它描述了自然界中“产生——发展——高潮——消亡”的过程,能够用于辅助判断自然界中出现的事物的发展过程。大量的数据与实验结果表明,自然界中的现象大部分都可以看成服从或者近似地服从正态分布,所以,正态分布在人类社会中具有很广泛的研究应用价值和指导价值,正态分布的研究反过来也有利于促进人类的发展与进步。
现在,通过正态分布研究,我们可以确定在社会生产活动和科学实验中,很多变量的概率分布都可以近似地用正态分布来描述。例如,人类社会中某种疾病的出现和发展过程;某个地区一年的降水量的情况;人类在某个年龄段的身高、体重、脂肪率等情况;同一种植物种子的发芽情况;同一批考生的考试成绩情况;某个工厂同一批次的产品的质量情况等等,均近似地呈现正态分布的特点。
在关于正态分布的研究中,有一个很有趣的现象,很多事物的分布原本并不服从或者近似地服从正态分布,但是,当我们将样本容量扩充到一定程度以后,反倒服从或者近似地服从正态分布了。所以,正态分布是我们认识这个世界的有力武器,为我们揭示自然界的规律提供了强有力的指导。
既然正态分布能够解释这么多事物的规律,那满足什么样的特点的事物或者现象才服从正态分布或近似地服从正态分布呢?一般说来,只要某个事物或现象发生的最终结果是受到很多相互独立的微小因素的影响的,我们就认为这个事物或者现象符合正态分布的规律。比如,10岁女孩的身高情况,既受到先天因素的影响,又在后天也会受到多重因素的影响。先天因素当中包括父母的遗传因素,母亲的孕期营养等,后天因素包括睡眠、饮食、营养等等,由于有多种相互独立的随机因素影响女孩的身高情况,我们可以把这个年龄段的女孩身高情况看成服从或者近似地服从正态分布,从而加以研究。
当然,正态分布也不能解释这个世界上的所有事物,它的使用也受到一定的限制,这种限制主要表现在:
1.正态分布只能用来解释同一事物或者现象的分布情况,可以体现出同一事物或现象在自然状态下的规律,也能说明不同个体在这一规律下的差异,但是无法将其他不同的事物或者现象混合在一起解释。
2.正态分布只能用来描述在多种随机因素影响下的事物或者现象,如果是确定性的因素则无法描述,比如,函数关系这种确定性的关系则不能用正态分布来表达。
3.正态分布所描述的事物或现象的结果往往有非常多种,结果数量很有限的事物则往往无法用正态分布来解释,比如抛一枚硬币,其结果只有“正面向上”和“反面向上”两种结果,那么它的规律就无法用正态分布来解释。
总而言之,正态分布是我们研究、认识这个世界,揭示人类社会生产实践和科学研究,改造世界的强大武器。
参考文献:
[1]郑文兵.正态分布的哲学本质及世界观意义研究[J].毕节学院学报,2012(1).
[2]韩苗,周圣武.二维正态分布及其常用结论[J].数学学习与研究,2019.