钟政达 华东政法大学附属中学
概率统计是数学的一个重要分支,它主要研究随机现象和随机事件的发生规律。在一些随机事件发生之前,人们无法确定事件的结果,但是事件发生的结果只可能是几种可能结果中的一种。可以应用概率统计知识对这些随机事件的结果进行分析,预测可能出现的情况。事实上,在城市交通管理、企业战略制定、金融产品设计等常见场景中,概率统计都有着广泛的应用。在进行经济学或金融学研究时,研究者常常需要以概率统计为工具分析收集到的数据,减轻随机因素对结论的影响。在分析市场中顾客的行为特征或预测某些商品的时,企业的经营者也需要应用概率统计知识。
在日常生活中,概率一词有多种含义。在数学中,概率指的是特定事件发生的相对频率的统计学数值。从数学的角度看,掷骰子、抛硬币等简单的游戏其实都是随机事件,都涉及一定的概率知识。在机会博弈中,随机事件的特征是,尽管大量试验的结果具有一定的规律性,但是人们无法准确地预测给定试验的结果。抛硬币便是机会博弈的一个很典型的例子。在抛硬币时,正面向上的概率等于二分之一。这意味着,在大量抛硬币时,正面向上的结果约为总抛掷次数的一半,但是如果一个人只抛一次硬币,那么这次抛掷的结果是不确定的。类似地,在进行遗传咨询时,医生会根据患有遗传性疾病的家族的谱系,推测生出患病个体的概率,但是医生并不能准确地预测某对夫妻的第一个孩子是否患病。也就是说,概率是对许多相似的场景中某一事件发生的相对频率的描述,而不是关于给定事件或给定个体的预测。
统计理论和统计模型是分析群体特征的重要工具。在对较为庞大的群体进行调查时,人们需要运用统计学知识,才能更充分地认识群体的特点,避免各种类型的偏倚。统计学知识可以帮助人们根据历史数据,对某一变量或指标的未来变化趋势进行高效的预测,其在企业决策、金融管理、生态环境保护中有着广泛的应用[1]。
在现代经济金融体系中,不确定性事件是非常多的,应用概率统计知识,研究者、经营者、投资者可以更高效地预测某些经济金融指标的变化,从而高效地做出决策。在分析股票价格的波动规律时,在预测原料价格走势时,人们都需要应用概率统计的知识。深入研究概率统计中的一些关键概念,探究其在不同的经济场景或金融场景中的应用,有助于人们更高效地解决遇到的问题,提高预测的准确性。
在应用概率统计知识解决实际问题时,实际问题应当具备一些基本的特征:在相同的条件下,试验的重复性是较高的,在不同的单次试验中,人们会得到几种不同的结果。
试验的所有可能结果的集合称为“样本空间”。如果人们进行一次抛硬币的试验,就会产生两种不同的结果,即“正面向上”和“反面向上”,这两种结果构成了一个样本空间[2]。如果人们投掷两个骰子,那么记录得到的结果的样本空间中包含36种可能的点数组合,每个结果都可以用有序对(i,j)标识,其中i和j的取值为1、2、3、4、5、6。
“事件”是定义明确的样本空间的子集。例如,事件“两个骰子上显示的点数之和等于6”包含五个结果(1,5),(2,4),(3,3),(4,2)和(5,1)。事件的发生概率是事件中包含的结果数与总结果数之比,在上述例子中,事件“两个骰子上显示的点数之和等于6”的发生概率为5/36。这种计算概率的方法是简单而原始的,但是,它是几乎一切概率统计理论的基础。
正态分布是统计学中最重要的分布。在分析一些受到多个因素影响的变量的变化规律时,人们通常需要根据现实情况,确定这些变量的分布规律。由于影响这些变量的因素很多,研究者很难建立能够纳入所有影响因素的、精确的模型。正态分布为解决这类问题提供了很好的分析方法。研究者只需要确定平均值和方差,即可基本确定变量的主要变化范围,评估某一数据是否来自于特定的总体[3]。
1.正态分布的简介
正态分布(也称为高斯分布)是一种非常常见的变量分布形式。服从正态分布的变量通常关于均值对称,接近均值的数据比远离均值的数据更频繁地出现。如果研究者以待研究的变量为横坐标,以变量的概率为纵坐标,并根据统计结果画出相应的曲线,那么这条曲线将会是一条钟形曲线。但需要注意的是,并非所有对称分布都是正态的。实际上,生活中遇到的大多数分布都不是完全正态的。根据正态分布的模型得到的数据通常和实际情况有一定的出入,不过,正态分布仍然是无可置疑的最实用的概率分布模型之一。深入研究正态分布的特征,有助于人们更好地把握变量的变化规律,更准确地对异常状况进行判断,找到更有效的解决方法。
在应用正态分布解决实际问题时,人们首先需要判断某一变量是否服从正态分布。如果变量是服从正态分布的,那么可以在抽样后分析样本的特征,确定相关变量的平均值μ和标准差σ,样本的概率密度函数为。根据概率密度函数,研究者可以高效地推断总体的特征[4]。
2.正态分布在经济金融领域的应用
经济金融领域中的一些变量会受到人为因素的影响,这些变量通常不服从正态分布。不过,当经济变量或金融变量同时受到多个个体的行为的影响,或者同时受到多个互不相关的因素影响时,这些变量通常近似地服从正态分布。
一些金融学家提出,股票的价格变化幅度是服从正态分布的。假设一位金融分析师在收集股市的历史数据后,发现每年1月某只股票的跌幅平均值为1%,其标准差为0.1%。由于在不发生重大经济金融事件时,股票的涨幅和跌幅是基本服从正态分布的,该分析师可以据此推测该股票的涨跌情况:股票的跌幅与跌幅平均值相差一个标准差的概率是68.3%,即股票在1月下跌0.9%至1.1%的概率为68.3%;股票的跌幅与跌幅平均值相差两个标准差的概率是95.5%,即股票在1月下跌0.8%至1.2%的概率为95.5%。该分析师可以据此决策是否买入或卖出该股票。
1.泊松过程
泊松过程是关于一系列离散事件的模型,其中,发生两个事件的平均时间间隔是已知的,但发生事件的确切时间是随机的。事件的发生时间与之前的事件无关(事件之间的时间间隔是独立随机变量)。例如,假设某人拥有一个网站,内容发布网络(CDN)告诉他,该网站平均每60天出现一次故障,但发生一个故障后,人们并不知道下一次故障将会何时发生,只知道两次故障之间的平均时间间隔。这是一个典型的泊松过程。其中的一个关键参数是:事件之间的平均时间为60天。不过,由于故障是随机发生的,相邻的两次故障之间的间隔时间是独立随机变量,其间隔时间可能是几天,也可能是几年。
泊松过程通常满足以下条件:事件是彼此独立的;一个事件的发生不会影响另一个事件发生的可能性;发生事件的平均速率是恒定的,也就是事件在一定长度的时间内的平均发生次数是确定的;两个事件不能同时发生。由于事件不是同时发生的,我们可以将泊松过程的每个子间隔视为伯努利试验,即在该时间间隔中,事件是否发生相当于伯努利试验的结果是成功还是失败。在上述例子中,总时间间隔可能是600天,但我们需要将其分为比平均发生间隔的更短的一个个子间隔(如“一天”或“一小时”),我们需要判断事件在这些子间隔中是否发生,并统计总发生次数。实际上,在生活中,许多借助泊松分布解决的问题并不完全符合这些条件,但是我们仍可以用泊松分布模型近似地描述这些问题,通过求解数学模型解决这些问题。
在生活中,泊松过程是非常常见的。一段时间内客户呼叫帮助中心的次数,访问网站的访客数,发生放射性衰变的原子数,到达太空望远镜的光子数以及股价的波动次数,都可以用泊松过程描述。泊松过程通常与时间有关,但是在一些例子中,泊松过程可能与长度、面积等变量相关[5]。如果人们知道某块林地上每英亩树木的数量的平均值,那么他们可以近似地预测林地上的树木分布情况,也就是说,在分析面积较大的区域中发生某事件的次数时,可以先求出单位面积的区域中发生的事件的平均次数,然后借助与泊松过程的知识解决问题。
此外,在分析公交车到达某一站的规律时,人们也常常应用泊松分布的知识。但是,这种过程并不是真正的泊松过程,因为不同的公交车的到站时间有一定的联系。即使是未按时运行的公交系统,一辆公交车的“晚点”也会影响下一辆公交车的到达时间。
2.泊松分布
泊松过程是人们用来描述随机发生的事件的模型,它本身并没有特别高的实用价值。我们需要定量的数学模型—泊松分布来分析某个时间段内发生某事件的概率或次数。
泊松分布概率密度函数让研究者可以在给定时间段的长度和每个时间段内的平均事件数的情况下,分析在一个时间段内观察到k个事件的概率:,其中,λ是单位时间,它是描述事件发生的速率的参数[6]。
3.泊松分布在经济金融领域的应用
如果某商场的经理想要估算工作日的某一时段内进入商场的顾客的数量,那么他可以应用泊松分布的知识,建立数学模型,解决这一问题。假设在工作日,路过商场的每个人进入商场的概率为p=0.01,某工作日上午有100个人路过商场,求此段时间内进入商场的人数大于等于2的概率。
由于λ=np=100*0.01=1,进入商场的人数为0的概率为,进入商场的人数为1 的概率为。求此段时间内进入商场的人数大于等于2的概率为1-0.368-0.368=0.264。
应用概率统计知识,人们可以高效地分析实际问题中的不确定性问题。在经济金融领域中,许多问题与随机因素有关。应用正态分布、泊松分布等经典概率模型的知识,人们可以高效地分析经济金融问题,预测特定指标的变化趋势。研究者应当建立更贴合实际的模型,才能提高通过概率统计模型得到的结论的可靠性,更高效地决策。