李沁杭
摘要:为了弥补传统正态分布概率查表计算的局限性,本文根据定积分的极限定义,融合计算机的快速计算能力,设计和实现正态分布机器计算。数据仿真表明本文提出的机器计算精度达到了工程要求。
关键词:正态分布;概率;机器计算
1.引言
由大数定理和中心极限定理可知[1],自然界的许多随机变量均可由正态分布来模拟。如医学中同质群体的身高、红细胞数、血红蛋白量均呈现正态或近似正态分布,实验中的随机误差也可按正态分布规律处理。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,甚至在统计学的许多方面存在重大的影响力。
连续性正态分布的密度函数 为:
(1)
式中表示随机变量,是随机变量均值,是随机变量的方差。正态分布的密度函数的特点是:关于对称且在该处最大值,在正(负)无穷远处取值为0,在处有拐点, 它的形状是中间高两边低。当是为标准正态分布,如图1所示。服从正态分布的随机变量的概率规律为:邻近的概率大,而远离的概率越小;越小,分布集中在附近,反之,分布越分散。
對于标准正态分布概率计算常常采用查表计算方法,正态分布的概率计算一般使用将原来的分布转化为标准正态分布利用查表进行计算。
传统查表计算正态分布概率必须具有标准正态分布表,同时需要人为进行必要的的计算。上述因素使得传统计算方法效率较低,为了弥补这些不足,本文运用定积分的极限定义,结合计算机的快速计算能力,实现正态分布概率的快速计算。
2.机器计算
设随机变量服从期望为方差为 的正态分布,随机变量在区间的概率:
(2)
(2)无法运用牛顿积分法得到其解析解。本文运用定积分的极限定义[2],将区间等间隔划分为个子区间,如图2所示。运用矩形面积逼近(2)式:
(3)
(3)式的取值决定了得精度,越大,其精度越高,但计算量较大。
在实际应用中,除了计算区间的概率外,还存在和两种概率的计算,由于计算无法对进行数值计算,本文根据正态分布的对称性,将的概率转化为:
(4)
同理可得
(5)
3.实验仿真
为了验证本文算法的有效性,在1.6GHz主频CPU和4G RAM的个人计算机上,运用C语言编程实现[3],本文未采用任何优化计算,对服从标准正态分布的任意区间概率进行计算,并与人工查表计算相比较,部分结果如表1所示。本文算法的运行时间较短,其中最大为2.710ms。相对于人工计算,本文算法最大相对误差为0.877%,满足工程要求。
为了进一步验证本文算法的有效性,对服从期望为方差为 的正态分布的任意区间概率进行计算,并与人工查表计算相比较,部分结果如表2所示。本文算法的运行时间较短,其中最大为2.882ms。相对于人工计算,本文算法最大相对误差为0.961%,满足工程要求。
4.结论
传统查表计算正态分布概率必须具有标准正态分布表,效率较低,同时需要人为进行必要的的计算。为了弥补为了弥补传统正态分布概率查表计算的局限性这些不足,本文运用定积分的极限定义,结合计算机的快速计算能力,实现正态分布概率的快速计算。仿真结果表明,本文算法的计算效率较高,且计算精度满足工程要求。
参考文献:
[1]刘绍学 普通高中课程标准试验教科书 数学选修2-3 人民教育出版社,2009年4月第3版 2015年6月成都第7次印刷
[2]刘绍学 普通高中课程标准试验教科书 数学选修2-2 人民教育出版社,2007年1月第2版 2015年5月成都第7次印刷
[3]谭浩强 C程序设计(第四版)清华大学出版社 2012年07月