王卫华
(湖北大学数学与统计学院应用数学湖北省重点实验室 湖北·武汉 430062)
概率论与数理统计里面常见的有这几种数字特征:数学期望,极差,方差,均方差,变异系数,分位数,中位数,偏度系数,峰度系数,协方差,相关系数。这些数字特征各从一个侧面描述随机变量某些方面的特征,在理论上和实践上具有重要意义,它们能更直接,更简单,更清晰,更实用的反映出随机变量的本质。经常性地,在许多实际问题中,人们并不需要考察一个随机变量的分布函数,概率密度,而只需要知道它的某几个数字特征即可。
首先介绍一下最常用最重要的数字特征——数学期望,也称为平均值,期望值,并不是所有的随机变量都存在期望值,数学期望的物理解释是重心,中心,质量分布的重心,或者线段,平面等的中心位置。数学期望的理论意义深刻,它是一个实数,消除了随机变量的随机性。数学期望的应用广泛,如评价各产粮区粮食产量水平时,只需要比较各地区粮食的评价产量,比较各班某学科成绩时,可比较整个班某学科的平均成绩和方差。
有了对数学期望,平均值的理解,我们可以解决,理解生活中的许多问题。如,据报道,某人在一平均深度为2尺的河水中溺亡,这可能吗?2尺不能淹死人啊?注意,平均值为2尺,但某人是陷在一个10尺深的坑中沉下去的。又如,由帕莱托定律可知,百分之十的人拥有百分之九十的社会财富,这就是为什么大部分人都会觉得自己的收入低于国民的平均收入,拉了全国人民的后腿。有了数学期望这个有力的武器,我们就不会为很多商业促销所打动。商业促销无处不在,现在我们来看一个简单的例子,某商场促销,购物满88元可抽奖一次,10000张奖票中,一等奖一个,是500元购物卡,二等奖十个,是100元购物卡,三等奖一百个,是10元购物卡,四等奖一千个,是2元购物卡,某人已购物500余元,可抽奖5次,可是排队抽奖的人比较多,是否值得花时间排队抽奖呢?我们来计算他抽奖所得的期望值,平均值。我们先求出来抽奖一次的期望得奖值是0.45元,那么由数学期望的性质,抽奖5次是2.25元,从结果看,期望值很小,不值得排队。
数学期望也有它的不足,如,当二个班平均成绩不相上下时,如何再进一步比较呢,比较简单的度量数据离散程度的方法是用极差,极差虽然能在一定程度是刻画数据的离散程度,但因为极差只使用了数据中最大及最小两个信息,对其他数据的取值没有涉及,所以极差所含的信息量很少,这时候,方差出场了,它用来比较成绩的波动程度,方差越大,则成绩越不稳定,但方差又有它的缺点,方差是离差的平方的数学期望,即它是随机变量与它自己中心的差的平方的平均值,平方之后,方差放大或缩小了随机变量的波动程度。并不是所有的随机变量都有方差。于是,又有了均方差,均方差是方差的算术平方根,能更准确地比较两个随机变量的波动程度。
数学期望和方差联手,可以解决很多实际问题,比如说,我们知道了某地区成年男子的平均身高h以及身高的均方差s,那么我们可以根据这两个数据确定此地区地铁车门的高度,因为成年男子百分之九十五的身高都在(h-2s,h+2s)这个区域,车门高度略高于h+2s即可。概率统计中常用的分布,二项分布,泊松分布,指数分布,正态分布,均匀分布都可以由期望和方差这两个常数确定,有了期望和方差,我们就能写出这些分布的分布列或概率密度函数,多么神奇啊!很多随机变量的比较,我们不需要去进行大量的计算,只去比较一下数字特征就可以。比如,两种不同型号的手机,要比较它们的使用寿命,使用寿命都服从指数分布,知道了两个指数分布的两个参数,就可以比较,参数的倒数是数学期望,是平均寿命,所以,参数大的,使用寿命短。
方差、均方差反映了随机变量取值波动程度,但在比较两个随机变量的波动大小时,只看方差或均方差有时候是不合理的。因为首先随机变量的取值有量纲,其次取值的大小有一个相对性问题,取值较大的随机变量的方差或均方差允许大一些。为了避免这些因素的影响,引入变异系数(均方差除以数学期望得到的数,称为变异系数)。均方差与数学期望的量纲相同,所以变异函数没有量纲了,消除了量纲对波动的影响。举个例子,用X表示某种同龄树的高度,用Y表示某年龄段儿童的身高,量纲都是米,树的平均高度为10米,儿童的平均身高为1米,树的取值较大,树的均方差是1米,儿童的均方差是0.04米,表面上看树的均方差大于儿童的均方差,但是比较它们的变异系数,树的变异系数是0.1,儿童身高的变异系数是0.2,说明儿童身高的波动比树高的波动大。
我们知道,密度函数与X轴所夹面积为1,分位数是X轴上的一个点,这个点,把面积分成了两部分,左侧面积为p,右侧面积为1-p。或者说,分布函数在分位数处的函数值是p,即比如,某场考试要根据考试成绩录取总人数的前10%,那就是求成绩这个随机变量的0.9分位数。再比如一个工厂车间的工人生产产品,根据每个人的产量制定惩罚措施,后5%要扣奖金,那就是求产量这个随机变量的0.05分位数。当p取特殊值0.5时,0.5分位数称为中位数,也就是说有一半的随机变量落在中位数的左边,另一半的随机变量落在中位数的右边,或者说,分布函数在中位数这一点的函数值是0.5分位数和中位数一般是指连续型随机变量的分位数和中位数。对离散分布虽然可以引入分位数和中位数的概念,但分位数和中位数有可能不存在或不唯一。所以,在离散分布里面很少使用分位数。中位数和平均值一样都是随机变量的特征数,它两各有优势,在某些情况下,中位数更能说明问题。比如A国人年龄的中位数是40岁,说明有一半人的年龄超过40岁,B国人年龄的中位数是50岁,说明有一半人的年龄超过50岁,B国人比A国人老龄化更严重。与中位数相比,平均值也有自己的优点,比如,一组数据,如果或数值发生变化,那么平均值会跟着发生变化,但中位数却没有变化,因为平均值与每一个数据都有关,但中位数只利用了数据中间位置的一个或者两个值,而没有利用其他数据,因此与中位数相比较,平均值反映了数据的更多信息,对样本中的极端值更敏感。但有些特殊分布,当这些分布是关于Y=C对称时,这些分布的中位数与均值相等,均为点C。例如正态分布,均匀分布。在实际应用中,除了经常用到中位数,还有0.25分位数,0.75分位数,这三个分位数把数据分成了四等份,因此也称为四分位数。四分位数在数据分析中起着重要作用。
接着来说一下偏度系数和峰度系数。偏度系数是用来描述分布偏离对称性程度的一个特征数,当密度函数是对称图形时,偏度系数为0,任何正态分布,以及一维均匀分布偏度均为0。偏度系数不为0时,分为左偏和右偏,当密度函数最大值左边的变量多于右边的变量时,密度函数图形在左边有长尾巴,称为左偏,反之成为右偏。偏度系数为0时,平均值与中位数相等;左偏时,平均值在尾巴那边,平均值小于中位数;右偏时,平均值在尾巴那边,平均数大于中位数。峰度函数是描述分布尖峭程度和尾部粗细的一个特征数,峰度是相对正态分布而言的超出量,以标准正态分布为基准确定其大小。若标准化后的分布比标准正态分布更尖峭,则峰度系数大于0,若标准化后的分布比标准正态分布更平坦,则峰度系数小于0。偏度与峰度都是描述分布形状的特征数,它们的设置均以标准正态分布为基准,正态分布的偏度和峰度均为0。
前面介绍的都是一维随机变量的数字特征,经常地,我们会用多个随机变量从不同的方向去描述同一样本点,那么这多个随机变量之间有时候有一定的依赖关系。比如,一个成年人去体检,测身高、体重和量血压,体重与身高有一定的关系,血压与体重又有一定关系。协方差就是反映随机变量之间依赖关系的一个数字特征,它是对两个随机变量的协同变化的度量。协方差是两个随机变量的各自的离差的乘积的数学期望。协方差大于0时,称两个随机变量正相关,即两个随机变量有同时增加或同时减少的倾向;协方差小于0时,称两个随机变量负相关,这时有X增加而Y减少的倾向,或反之;协方差等于0时,称X与Y不相关,这时候可能是两种情况,其一是X与Y的取值毫无关系,其二是X与Y之间有关联,但不是线性关系。协方差的引入完善了方差的计算,在X与Y相关的情况,和的方差并不等于方差的和,X与Y的正相关会增加X与Y的和的方差,负相关会减少和的方差,而在X与Y不相关时,和的方差等于方差的和。
协方差也有缺点,它是两个变量的积的数学期望,当两个变量的量纲不同时,协方差的量纲无意义,而且,kX和kY之间的统计关系与X和Y之间的统计关系应该是一样的,但其协方差却扩大了k的平方倍,为了消除量纲的影响,用协方差去除它们各自的均方差,得到一个新的数字特征—相关系数,相关系数实际上是普通随机变量标准化之后的协方差,相关系数描述了两个变量之间的线性关系的强弱,也称为线性相关系数,相关系数取值在-1到1之间,其绝对值越接近于0,则线性相关程度越低。相关系数为0时,称两个随机变量不相关,其绝对值越接近1,则线性相关程度越高。相关系数为1时,称X与Y完全正相关。相关系数为-1时,称X与Y完全负相关。相关系数与协方差是同符号的,即同为正,或同为负,或同为零。我们经常利用相关系数的性质求解,考研有一个经典题型是,一根木棍长为m,分成两部分,一部分长为x,另一部分长为y,求两个随机变量x与y的相关系数。因为x+y=m,x与y是线性关系,x越大,y越小,负相关,所以这个题目不需要计算,直接回答,相关系数是-1。
以上总结了概率统计里面常用的特征数,特征数包含着很多信息,它们在学习生活生产实践中发挥着重要作用。我们要了解它们,掌握它们,应用它们。
随着社会的不断进步和科学技术水平的提高,概率统计将发挥它的最大作用,使之最大限度地为人类服务。