唐菲雨
(广州市第六中学, 广东广州 510399)
正态分布是概率统计理论的重要组成部分。人们在分析生活中符合正态分布的变量时,可以计算其数学期望、方差,从而得到描述变量分布的函数,绘制概率密度曲线。通过对函数进行积分计算,人们可以得到某一事件的发生概率。概率密度曲线可以帮助分析者更直观地认识某一变量的分布规律[1]。
中心极限定理同样是概率统计理论中的重要内容。它是由法国数学家棣莫弗提出的,它为人们提供了根据样本的特征推断总体的特征的重要方法。此外,中心极限定理还可以帮助研究者确定不服从正态分布的总体的一些重要统计参数。
正态分布和中心极限定理在生产生活中有着广泛的应用[2]。事实上,自然界中的多数变量都服从正态分布。在工业、商业、医疗等领域,人们常常需要应用正态分布和中心极限定理,才能准确地对随机变量的分布规律以及大样本的特征进行分析,得到可靠的结论。
正态分布是一种十分重要的概率模型。1733 年,棣莫弗在研究二项分布的极限形式时,提出了正态分布模型。1783 年,拉普拉斯(Laplace)尝试使用正态分布曲线来描述误差的分布。1809 年,高斯使用正态分布曲线分析天文数据。此后,研究者们尝试应用正态分布模型解决工业、商业、医药等领域的问题,得到了许多重要的结论。
正态分布曲线有如下几个特点:
(1)当σ 一定时,曲线的形状是一定的,曲线的位置由μ 决定。当μ 发生变化时,曲线会沿x 轴平移。
(2)当μ 一定时,曲线的位置是一定的,曲线的形状由σ 决定。σ 越小,曲线越“瘦高”,表示变量的分布较为集中;σ 越大,曲线越“矮胖”,表示变量的分布较为分散。
1.3.1 确定销售时机
渔场老板往往会面临这样的难题:养鱼时间过短,鱼的重量小、品相差,没有市场竞争力;养鱼时间过长,鱼的重量大,消耗的鱼粮多,成本也高,所以选择合适的养殖时间犹为重要。某渔场的老板养殖了一批鲤鱼,在最近试捕的100 条鱼里,他发现这批鲤鱼的平均重量为3kg,标准差为0.1kg,根据以往的市场行情,鲤鱼的平均重量在2.8kg ~3.2kg 时,净利润最高,渔场老板是否应开始捕捞,并将其运到市场上销售?
利用正态分布曲线进行概率分析后发现,老板应决定进行捕捞。若将频率近似为概率,设池塘里每一条鱼的重量为X,P(2.8 ≤X ≤3.2)=P(μ-2σ ≤X ≤μ+2σ)=0.9545, 可以认为,池塘里至少有95%的鱼达到市场的要求,所以养殖时间应开始捕捞,并将其运到市场上销售。
1.3.2 质量检测
根据以往经验,某面包厂生产的面包质量服从N(200,5)的正态分布,在一次生产时,负责检查的员工随机连续抽取的两个面包的质量均小于185g,该员工当即决定停机检查,请分析该名员工的决策依据。
生产的面包的质量是服从正态分布的。P(X<185)=P(X<μ-3σ)=[(1-0.9974)/2]×100%≈0.13%,此为独立事件,连续两次抽检得到面包质量小于185g 的事件记为A,P(A)=(0.13%)²≈0.0002%。这样的事件基本是不可能发生的,很可能是生产的某一环节出现了问题,如原料、机器等出现问题。这时,该名员工停机检查,有助于及时止损,降低生产成本,提高企业的经济效益。
1.3.3 确定医学参考值的范围
在医院的体检单上,我们常能发现这样一些数据:总蛋白参考范围(65.0g/L ~85.0g/L),葡萄糖(3.91mmol/L ~6.10mmol/L)……这些数据是怎么得到的?医学研究者在制定标准前,需要先获得多个健康个体的血清指标的数据,并根据正态分布函数,确定健康个体中相应指标的范围。
研究小组发现,血清中白蛋白的浓度可以反映患者的营养状况,他们采集了一些营养状况良好的患者的血清,并测定了白蛋白的浓度(g/L):69.1,74.2,68.5,67.6,68.4……,并通过计算得到:μ=70,σ=5。那么,应当如何确定白蛋白的医学参考值范围?
人体中白蛋白的浓度应服从正态分布。设白蛋白浓度为X,P(65 ≤X ≤75)=P(μ-2σ ≤X ≤μ+2σ)=0.9545 ≈95%,P(65 ≤X ≤75)的含义是总蛋白含量在65g/L ~75g/L的范围内的可能性较大。当检测的样本在65 以下或是75以上时,该个体的血清白蛋白浓度超过了95%的健康个体的白蛋白浓度范围,则可以认为出现这种情况是较为“不正常”的,该患者可能营养状况不佳或营养过剩。由此可见,正态分布在确定标准方面也发挥着重要的作用。
正态分布在生产生活中发挥着重要作用,人们可以通过以往的历史数据建立正态分布模型,依据3σ 原则,甚至是6σ 原则进行决策,达到提高生产效益的目的。同时,正态分布在医疗检测等领域的广泛运用也启发我们:正态分布能够帮助人们确定某些指标的标准,或者判断某一群体是否符合标准。
虽然中心极限定理的概念是由棣莫弗于1733 年首先提出的,但是直到1930 年,它才被匈牙利数学家乔治·波利亚正式命名为中心极限定理[4]。
中心极限定理(CLT)指出,无论总体服从何种分布,从同一总体中多次抽样时,假设每次抽样时样本容量相同,那么样本均值的分布近似服从正态分布。换句话说,CLT 是一种统计理论,它指出,对于具有有限方差的数据,所有样本的均值将近似等于总体均值。当样本容量等于或大于30 时,人们可以用CLT 分析总体的特征[5]。
在经济金融分析中,中心极限定理有着广泛的应用。例如,当金融从业者评估单个股票或股票指数的投资回报时,它可以帮助人们确定某股票或某股指基金的平均回报率,降低分析相关的金融数据的难度。事实上,几乎所有类型的投资者都需要借助中心极限定理分析股票收益、建立投资组合和规避投资风险[6]。
例如,假设一位投资者希望分析包含1000 只股票的股票收益率。在这种情况下,该投资者可以只研究其中数十只股票,就可以推断股票收益率。需要注意的是,在分析的过程中,分析者必须随机抽取至少30 个跨行业的股票,才能保证所得到的结论是可靠的[7]。
某保险公司的保户有n 名,每名保户一年缴纳保险金b 元,根据保险公司以往的调查,一年内保户发生事故的概率为p,事故发生后保险公司的理赔金额为c 元,试分析应如何使保险公司亏本的概率最小?
应当用二项分布和中心极限定理解决这一问题。设X 为出现事故的次数。X 服从二项分布,即X ~B(a,p),E(X)=ap,D(X)=ap(1-p),P(亏本)=P(cX>ab)=P(X>ab/c),根据棣莫弗—拉普拉斯中心极限定理P(亏本)≈∅(+∞)-∅(ab/c),保险公司为了不亏本,可以使P(亏本)<0.000001,甚至更小,求解此不等式即可得到对应的n、b。
由上述例子可以知道,保险公司可通过鼓励更多人投保或提高保险金,扩大总收入;可通过设置理赔条件,来降低需要理赔的概率,也可以通过降低理赔金额降低亏本的发生率。
假设M 市第一中学有4000 名学生,只有一间学校饭堂,现有打饭窗口30 个。为缓解午餐高峰期的打饭压力,一些学生提议增设打饭窗口。饭堂办公室调查发现,排队打饭大约会占用学生1%的就餐时间。那么,未新增打饭窗口前,拥挤的概率是多少?至少要有多少个打饭窗口,才能有99%的可能不拥挤?
实际上,考虑到不增设打饭窗口时,不拥挤的概率已经接近95%,饭堂办公室从成本的角度考虑,完全没有必要增设新窗口。
其实,中心极限定理不仅在保险领域和生活中有着广泛的应用,其在工业生产、医药等领域也发挥着重要的作用。它能够帮助人们将非正态分布转化为正态分布,扩大正态分布的适用范围[8]。
概率论与数理统计是一门应用性较强的学科。应用正态分布和中心极限定理,人们可以高效地解决生产生活、科学研究、经济金融等领域中的一系列问题。从事自然科学和社会科学研究的研究者以及企业的经营者应学好数理统计,加深对事物的本质的认识,更高效地做出决策。