(上海市新虹桥中学,上海 200051)
概率论和数理统计是数学的一个十分重要的分支,它主要研究随机事件的发生规律。根据概率统计理论,数学家可以更高效地收集数据、分析数据,挖掘其中的信息,更清晰直观地呈现计算结果。
在17世纪,人们尝试对赌博和保险中发生特定事件的可能性进行研究,这便是概率论的起源。如今,概率论与数理统计已成为生产生活、科学研究中不可或缺的工具。在进行人口普查、市场调研、销量预测时,概率统计都发挥着重要的作用。它能够帮助人们把握随机事件的发生规律,预测特定事件发生的可能性。不断完善概率统计理论,可以帮助人们更加高效地分析随机变量的分布规律、随机事件的发生规律,更准确地预测事物的未来发展方向。
在数学中,随机变量被定义为可以取不同值的变量。随机变量的取值是由随机变量的概率分布规律决定的。一般而言,随机变量的实际分布特征与均值和标准差有关,符合正态分布的随机变量就属于这类随机变量。随机变量的实际分布特征也与其偏态性和峰值有关。此外,当存在噪声或偶然事件时,随机变量的值也会受到随机扰动的影响。
在生活中,人们可以将用随机变量描述多种场景中不能确定的数值。例如,某地7月中旬的预期最高温度和最低温度、一项体育赛事的预期出勤率、体育队的评级以及一支球队赢得比赛或特定得分的概率,都是随机变量。
人们也可以将随机变量纳入多种用于预测的数学模型中,从而预测体育比赛或其他随机事件的结果。在这些情况下,分析人员需要根据随机变量的分布规律,估算结果变量的可能取值。
随机变量可以是离散值或连续值。离散随机变量只能取特定的数值。例如,体育比赛中的常见离散随机变量是球队的得分或主队得分与客队得分之间的差值。连续随机变量可以取一个区间内的几乎任何数值。理论上,连续随机变量的小数位数可以是任意值。但是,由于测量仪器的精度是有限的,连续随机变量有时只保留两位小数。例如,体育比赛中的连续随机变量可以是球队的实力等级或与场上表现相关的指标,如击球平均值(可以是无限循环小数)[1]。
在收集到相关数据后,人们通常用几个参数描述得到的数据,这些参数可以很好地展现数据的特征,帮助人们总结变量的分布规律或变化规律。在进行统计分析时,最常用的统计量是平均值、中位数、标准差、变异系数等。
平均值:也称算术平均值、简单平均值或等加权平均值。人们一般需要计算统计量的平均值,了解统计量大概位于哪个区间内。
中位数:中位数是比一半的统计数据的数值小、比另一半的统计数据的数值大的那个统计数据。也就是说,如果把统计数据按照数值大小排成一列,中位数是位于中间的那个数。如果人们收集到了偶数个统计数据,那么中位数是位于中间的两个统计数据的平均值。中位数通常不是唯一的。例如,在数据系列1、2、3中,中位数是2;但是在数据系列1、2、3、4中,中位数是2和3的平均值2.5。
标准差:人们通常用标准层描述均值附近的数据的分散程度。标准差较小表示数据大都接近均值,而标准差较大表示数据大都远离均值。标准差通常是数据的方差的平方根[2]。
变异系数:用标准差除以平均值就可以得到变异系数。人们可以用变异系数将数据归一化,以便“公平地”比较平均值不同的几组数据的离散度。例如,当人们评估每日或每月股票交易量的数据离散度时,他们不能直接比较标准差,因为每日和每月的基础交易量是不一样的,但是变异系数可以帮助人们相对准确地比较不同交易日和不同月份的交易情况。
偏度:衡量数据分布的对称性的一种方法。正偏斜表示多数数据比平均值大,在概率分布图像与x轴围成的图形中,平均值右侧的面积一般大于平均值左侧的面积。负偏斜表示多数数据比平均值小,在概率分布图像上,平均值右侧的面积一般小于平均值左侧的面积。偏度为零表示数据是对称的。偏度也被称为关于均值的第三阶矩。
峰度:峰度是对数据分布的峰值的度量。人们称峰度为负的数据分布为platykurtic分布,称峰度为正的数据分布为leptokurtic分布[3]。
正态分布是统计分析中最重要的概率分布之一。一般而言,自然界中的许多变量是服从正态分布的。在科学研究、工业领域、生态建设时,人们常常需要构建正态分布模型模型。当数据不完全服从正态分布时,人们可以借助通过正态分布进行近似,从而分析数据的分布特征。此外,在进行参数估计或建立回归模型时,正态分布是非常有用的。
接下来,笔者以接受气管隆突切除术的患者的年龄分布分析为例,说明正态分布模型的应用。134位被抽到的患者的平均年龄约为48岁,其年龄标准差(即σ值)约为16岁。求30岁以下的患者的百分比是多少?
30岁与年龄平均值—48岁的差值为-18岁,-18/16=-1.125。问题变成了:在标准正态分布中,变量小于μ-1.125σ的概率是多少?我们可以在标准正态分布表中查到,变量大于μ+1.125σ的概率是大概是0.13。由于分布是对称的,变量小于μ-1.125σ的概率也是0.13,也就是说,接受气管隆突切除术的患者中,年龄小于30岁的约占总数的13%。
在生活中,人们经常遇到只有两种可能结果的情况:健康或患病、治疗的成功或失败、体液中存在或不存在特定微生物[4]。我们可以用π表示任何随机试验中,第一种结果发生的概率。如果我们有n次机会进行随机试验,并得到n个结果。例如,n位患者是否在治疗后痊愈?则二项分布将告诉我们,第一种结果将出现多少次。
接下来,笔者以激光手术的有效率分析为例,说明正态分布在生活中的应用。挪威的一项研究评估了激光小梁成形术治疗开角型青光眼疗法的长期成功率。在第2年末,接受手术的患者复发的概率为1/3。假设一家医院中,有6例患者接受了小梁成形术。在2年末,有且只有一位患者手术复发的概率约为多少?
从6位患者中随机“选”出一位患者,有6种选法。在这一场景中p=1/3,P(1)=6*p1(1-p)5=192/729=26.34%。也就是说,在接受手术后的第二年末,有且只有一位患者复发的概率为26.34%。
1837年,Siméon Denis Poisson在研究发生概率较低的一系列事件时,提出了泊松分布模型。当时的人们用泊松分布预测1875—1894年期间被战马踢死的普鲁士军官人数[5]。
当随机事件的某一结果出现的可能性很低,且随机事件会发生多次时,该结果发生的次数服从泊松分布。此外,还可以将泊松分布定义为单位时间内某事件发生的次数。例如,在一段时间内,某常见病的新发例数服从泊松分布。
若随机变量X取0和一切正整数值,在n次独立试验中出现的次数x恰为k次的概率,式中λ是单位时间内随机事件的平均发生次数。
接下来,笔者以通过某路口的汽车是否发生交通事故为例,说明泊松分布的应用。假设在早高峰期间,通过某路口的每辆汽车发生事故的概率为p=0.0001,某日早高峰期间有10000辆车通过该路口,求此段时间内发生事故的次数超过一次的概率。
由于λ=np=10000*0.0001=1,此路段不发生交通事故的概率为,发生一次交通事故的概率为。
则此路段发生交通事故的次数超过一次的概率为P(X>1)=1-0.368-0.368=0.264。
在分析以上场景时,人们也可以应用二项分布模型计算不发生事故的概率。
P(X=0)=0.999910000=0.368,P(X=1)=10000*0.0001*0.99999999=0.368,但是计算量比泊松分布模型的计算量大。
应用概率模型或统计模型,人们可以高效地描述生活中的问题,得到较可靠的结论。但是,这种分析方法也有一定的局限性。在建立模型的过程中,人们只能将可量化的因素纳入模型中,但是无法在模型中体现不可被量化的因素的影响。这可能导致所建立的模型不能贴切地描述问题,得到的结论与实际不符。此外,人们只能借助模型得到某一事件发生的可能性,而不能得到其他信息。如果决策者仅根据计算结果进行决策,那么他可能遗漏一些重要因素的影响,无法做出周到的安排。例如,在预测股票的涨跌时,人们只能得到某只股票上涨、下跌的概率,但是无法得到与上涨和下跌背后的风险相关的信息。如果仅根据与概率统计相关的计算结果进行决策,可能会造成一定的损失。因此,建立概率统计模型只是辅助决策的手段,决策者需要在决策时考虑其他因素的影响,才能得到正确的结论[6]。
概率统计知识在生活中有着广泛的应用。预测股市走向、购买彩票、赌马赌球时,人们都需要应用与概率统计相关的模型,如正态分布模型、泊松分布等模型等分析问题,才能得到较为可靠的结论。需要注意的是,当需要分析的事件比较复杂时,人们需要尽量将所有的主要影响因素纳入模型中,并同时分析可量化的因素和不可量化的因素的影响,才能得到可靠的结论。