吴剑 钱进
摘 要:智能制造是工业发展方向,为了适应“大数据”时代人才培养的需求,在学习《概率论与数理统计》的理论知识之外,让工科本科生具有基本数据分析的能力,使用R软件对概率论与数理统计部分的理论进行模拟,对数理统计的数据进行可视化,对学生理解理论、培养学生读懂数据有重要的意义。因此本文初步探讨使用R软件进行概率论数理统计的辅助教学,为进一步课程的深化改革提供参考,目的是把《概率论与数理统计》打造成有难度的“金课”。
关键词:R语言;回归;数理统计
一、 引言
概率论的理论基础可以按照其他大学数学课程的学习方法进行学习,而数理统计是应用科学的基础,当数据较大时,需要借助统计软件去模拟,及实现数据的可视化,因此使用统计软件辅助概率论与数理统计教学,让工科的学生更好地掌握概率论的理论,懂得统计学的方法及简单的应用是重要的。
R语言是专业的统计软件,是统计计算、数据可视化的优秀工具,同时R也是免费开源的软件,其官网和镜像网站中可以下载安装程序、源代码和程序包等,它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活地利用这些函数进行数据分析,甚至可以通过不同方法的组合,创造出符合需要的新统计计算方法。
使用计算机语言辅助大学数学的教学相关研究较多,韩海燕介绍了使用Matlab软件对《概率论与数理统计》课程进行辅助教学,它主要利用进行图形可视化和数学运算。江海峰研究了蒙特卡洛模拟在概率论与统计教学中的应用,作者分析了该算法的应用,并没有介绍如何实现,也没有介绍使用的软件。刘宣研究了R语言在大学数学教学中的应用。因此对于工科概率论与数理统计课程的教学者,亟须把统计软件应用到教学中,并发展案例教学的方法,让学习者更好的理解统计学的基本概念,懂得如何进行数据处理。
二、 R软件的模拟应用
工科的《概率论与数理统计》课程中,中心极限定理是概率论中重要的定理之一,其定理叙述如下:
x1,x2,…,xn是独立同分布的随机变量,期望μ与方差σ2都存在,设部分和序列为
Sn=∑ni=1xi,ESn=nμ,DSn=nσ2,则对于任意的实数x,标准化部分和序列的分布函数
Fn(x)收敛到标准正态分布的分布函数,
PSn-nμnσ≤x→φ(x)=∫x-∞12πe-t22dt
该定理文字解释很直观,即某个随机现象由大量随机因素组成,各个因素起到的作用均匀且可忽略,则这个随机现象可以用正态分布去描述,但是学生很难理解为什么随机变量序列只要求独立同分布,而不要求服从具体的分布,即无论服从什么分布,标准化部分和序列都服从正态分布,因此我们使用蒙特卡洛模拟,给学生直观的认识。
假设x1,x2,…,xn服从参数为2的泊松分布,n=10000,计算其前n项部分和,并中心标准化,计算
Sn-ESnDSn,并模拟100000次,利用这些数据生成概率密度函数的估计,模拟的结果可视化的形式呈现给学生。
使用核概率密度函数估计,可以看出虽然给定的变量是泊松分布,但是标准化部分和序列的概率密度与标准正态的密度的形状相似。
三、 R软件线性回归的演示
在线性回归中,最小二乘法及回归的计算相对复杂,解释困难,因此利用实际数据,配合图形讲解回归的方法是让学生快速掌握方法的较好途径,采用如下的模拟方式,假设真实的模型为
Yi=a+bxi+εi,i=1,2,…,100,εi~N(0,σ2),取σ2=1,2,3三个不同噪声等级下,
a=2,b=3观察回归的效果。再取误差服从t(4),观察在有异常数据点下最小二乘的效果,利用一条直线拟合这些数据,使得这些数据距离直线的平方和最小,即是最小二乘的思想,随着信噪比不断地增加,数据的离散程度越来越大,模拟中还引入了厚尾的t分布,探索最小二乘估计的稳健性,从表1中可以看到,随着数据的离散程度越来越大,估计10000次的中位数与真值的距离越来越大,同时也关注R2
的取值越来越小,意味着拟合效果越来越差。从误差为t分布的模拟结果和回归直线可以看到,最小二乘回归对异常数据点的影响是敏感的,因此可以适当探索其他的回归估计方法。
四、 总结
由于工科学生动手能力较强,抽象思维能力相对理科学生较弱,因此适当的利用统计软件进行模拟研究,把结果直观演示给学生,对学生掌握该方法提供了直观的解释。对于统计软件的辅助作用就是更直观地把数据及统计方法呈现给学生,更好地理解理论的推导和应用,理论和应用相结合,培养工科学生实践能力和创新能力。
参考文献:
[1]韩海燕.MATLAB软件和概率论与数理统计教学的整合研究[J].科技信息,2011(14):202.
[2]江海峰.MCS在概率论与数理统计教学中的应用研究[J].数理统计与管理,2008,27(4):740-747.
[3]刘宣.基于R语言的大學数学教学初探[N].福建师大福清分校学报,2015(5):45-48.
作者简介:吴剑,钱进,辽宁省沈阳市,东北大学。