R软件在概率统计中的应用研究

2021-07-26 02:36汲守峰
唐山学院学报 2021年3期
关键词:二项分布假设检验正态分布

汲守峰,刘 卉

(唐山学院 基础教学部,河北 唐山 063000)

0 引言

概率统计是研究自然界中随机现象统计规律的一门数学方法,广泛应用在金融、经济、生物、医学、运筹管理和工程技术等领域。在概率统计过程中几乎每个环节都离不开统计软件的辅助。目前的统计软件主要包括Matlab,SAS,SPSS等商用专业软件,但这些软件除运行环境封闭、下载安装复杂、内存占用较高外,还需要对不同的插件支付额外的专利费用,而R软件则不受这些条件的约束。由Ross Ihaka和Robert Gentleman开发的面向对象的R软件,是一款免费开源且能够自由有效地用于统计计算和绘图的计算机软件[1],它提供了广泛的统计分析和绘图技术,其功能包括程序编辑与运算、数据存储与处理、数组运算(其向量、矩阵运算功能尤其强大),除此之外,用户还可以根据自己的需要安装现成的统计软件包,它支持对包的代码进行修改和重新编写[2-3],因此,此软件被统计学家、工程师和科学家广泛使用。如张志成[4]使用R软件对经典的蒲丰投针实验进行了随机模拟,从理论和实践中得到了圆周率π的近似值;李秀敏等[5]使用R软件通过随机模拟实验研究了统计学中几种比较重要的抽样分布问题,验证了中心极限定理的正确性;熊炳忠[6]则是利用R软件对概率分布、大数定律、中心极限定理与假设检验等进行了模拟验证和分析。本文应用R软件,对概率统计中中心极限定理的理论结果进行数值模拟,借助R软件强大的数据处理和计算功能简化假设检验中庞杂的数据计算过程,并利用其数据解析和图形绘制功能进行线性回归分析,由此简化抽象复杂的问题,提高运算效率,增加检验结果的可视化程度。

1 中心极限定理的统计模拟

中心极限定理在概率统计中具有十分重要的地位,主要研究独立的随机变量序列之和的分布近似服从正态分布的有关问题。中心极限定理主要包含三大定理,其他定理的证明以及某些统计推断都是建立在三大定理的理论之上。中心极限定理描述的内容较为抽象,当涉及的统计模型数据较多时也不太容易计算和验证,可借助R软件对概率模型进行编程模拟,然后输出统计制图和数据计算结果,增加结果的可视化程度。下面通过对服从二项分布和指数分布的随机变量序列之和的直方图与正态分布密度曲线对比,验证棣莫弗-拉普拉斯定理和莱维定理理论结果的正确性。

1.1 中心极限定理的二项分布统计模拟

棣莫弗-拉普拉斯中心极限定理是关于二项分布渐近趋于正态分布的极限定理,也称二项分布的中心极限定理。假设随机变量X~B(n,p),依据棣莫弗-拉普拉斯中心极限定理,随着n→∞,X的分布将依概率收敛于正态分布N(np,np(1-p))。除用严格的数学证明外,可应用R软件对其进行统计模拟并加以验证。

>layout(matrix(c(1,2,3,4),ncol=2,byrow=T))

sim<-function(m=20,n=50,p=0.2)

{y<-rbinom(m,n,p)

x=(y-n*p)/sqrt(n*p*(1-p))

hist(x,prob=T,breaks=30,main=paste("n=",n,"p=",p,"m=",m))

curve(dnorm(x),add=T)}

sim()

sim(200)

sim(2000)

sim(20000)

输出统计制图结果,图1为随机产生的四组来自于B(50,0.2)的随机变量序列统计直方图(柱状图)与对应的正态分布密度曲线(曲线图),比较发现,随着产生的个数m越大,两者近似效果越好,直观地解释和验证了棣莫弗-拉普拉斯中心极限定理。

1.2 中心极限定理的指数分布统计模拟

>layout(matrix(c(1:4),ncol=2,byrow=T))

lambda<-0.05

for(n in c(5,15,30,50)){

mu<-n/lambda

sumx<-numeric(1000)

sdsumx<-sqrt(n)/lambda

for(i in 1:1000){

sumx[i]<-sum(rexp(n,rate=0.05))}

hist(sumx,prob=T,main=paste("hist ogram.sumx,n=",n),col=gray(.5),lwd=2)

real<-dnorm(seq(mu-3*sdsumx,mu+3*sdsumx,0.01),mu,sdsumx)

lines(seq(mu-3*sdsumx,mu+3*sdsumx,0.01),real,lty=1,col=2,lwd=2)

box()}

由图2可知,当n>15时,样本值和的直方图与正态分布概率密度曲线近似精度较高,直观解释了中心极限定理中独立随机变量和随变量个数增加而趋近于正态分布的结论。

2 假设检验中的数据计算和分析

假设检验往往会涉及大量的计算,有些计算简单但需要多次重复,而有些计算需要一些特殊的技巧或查阅相关分布表,如F分布、t分布、χ2分布等分位数和分位点的计算。实践中很多统计计算都需借助计算机软件,否则会使统计工作难以高效开展。下面应用R软件对大学生的期末考试成绩进行统计分析。

2.1 双正态总体样本均值差的t假设检验

选取两个年级GM18和GM19《概率统计》期末考试成绩,并假设GM18~N(mu1,sigma1^2),GM19~N(mu2,sigma2^2),应用R软件计算两个年级置信水平为90%的平均成绩差的置信区间:

>GM18<-c(81,69,76,62,67,60,77,63,71,76,70,42,76,86,88,74,100,37,81,31,60,68,68,82,79,74,81,98,80,5,20,60,36,57,47,68,61,56,48,43,63,63,78,68,42,69,38,81,74,83,76,83,96,44,69,54,85,50,64,78,84,66,70,52,92,87,93,37,58,36,12,26,4,42,36,36,61,51,63,4)

GM19<-c(51,84,68,84,93,61,99,75,74,62,54,66,86,56,61,57,77,78,73,92,18,59,48,87,68,36,68,76,53,69,67,65,49,50,57,81,52,78,48,94,45,59,68,82,27,77,77,96,59,73,58,63,55,86,77,62,67,89,47,54,73,77,65,52,48,81,70,72,81,77,80,65,67,60,64,34,61,20,46,51,59,57,82,51,62)

t.test(GM18,GM19,conf.level=0.9)

Welch Two Sample t-test

data:GM18 and GM19

t=-1.1433,df=145.35,p-value=

0.2548

alternative hypothesis: true difference in means is not equal to 0

90 percent confidence interval:

-8.492335 1.554100

sample estimates:

mean of x mean of y

61.82500 65.29412

结果显示,在方差不等的情况下,均值差的置信水平为90%的置信区间为(-8.492 335,1.554 100),0被包含在区间内部,由此认为两个年级的“成绩相同”。但两个年级成绩均值分别为61.825 00和65.294 12,二者是否存在显著性差异?可通过R软件进一步验证。

2.2 双正态总体样本均值的F假设检验

>var.test(GM18,GM19)

F test to compare two variances

data:GM18 and GM19

F=1.8175,num df=79,denom df=84,p-value=0.007404

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

1.175249 2.819119

sample estimates:

ratio of variances

1.81751

可以看出,两个正态总体方差以95%的置信水平落入区间(1.175 249,2.819 119)内,区间端点明显大于1,因此可认为两个年级的成绩存在显著性差异,且p=0.007 404(<0.05),也支持该结论的正确性。

3 线性回归中的统计模拟和数据分析

在刑事科学技术中,办案人员往往根据现场遗留的蛛丝马迹寻找案件的突破口。例如利用从现场提取的足迹长度推算出犯罪嫌疑人身高的近似值。现随机抽取10个样本,并测得以下数据(见表1),应用R软件对其进行回归分析。

表1 样本的足迹长度与身高 cm

利用R软件做散点图(图3),观察两者的大致关系。

图3 足迹长度与身高关系的散点图

>x<-c(21.6,22.3,23.6,24.6,25.3,25.8,26.7,27.1,28.2,28.4)

y<-c(156.3,160.8,165.3,170.1,172.6,173.6,179.1,179.2,185.2,186.6)

plot(x,y,ylab="f(x)",type="b",col=2,lwd=2)

应用R软件内嵌函数做出线性回归直线,与散点图进行比较(图4)。

>cb<-lm(formula=y~x)

summary(cb)

summary(cb)$coefficients[,1]

nihe<-predict(cb)

plot(x,y,ylab="f(x)",type="p",col=1,lwd=2)

lines(x,nihe,col=1,lwd=2)

legend("topleft",c("nihe","sandian"),lty=1:2,col=1:1,lwd=2)

图4 足迹长度与身高的散点图与拟合曲线

图3反映出足迹长度与身高存在较为明显的线性关系,与图4对比不难看出,回归直线与散点图存在较为显著的近似关系,这为办案人员根据足迹长度预测犯罪嫌疑人身高提供了科学依据。

4 结语

应用R软件对概率统计问题进行了辅助研究。在数据处理中通过R软件的合理应用,省去了复杂的计算和繁琐的推导过程,增强了数据的处理速度和统计制图的绘制能力,有效提升了工作效率。

猜你喜欢
二项分布假设检验正态分布
二项分布与超几何分布的区别与联系
关于n维正态分布线性函数服从正态分布的证明*
深度剖析超几何分布和二项分布
概率与统计(1)——二项分布与超几何分布
深度剖析超几何分布和二项分布
假设检验结果的对立性分析
生活常态模式
统计推断的研究
正态分布及其应用
凤爪重量质量管理报告