郭朝会
【摘要】鉴于统计软件R具有自由、免费、源代码开放以及回归分析应用性强的特点,本文提出利用R软件向理论教学渗透的教学方法,使得理论教学和实践教学相结合从而提高教学效果,同时列举两个教学案例加以分析说明.
【关键词】回归分析;R软件;案例教学
一、概 述
回归分析是对具有相关关系的两个或两个以上的变量进行统计分析的一种常用方法,是统计学中的一个非常重要的分支,已广泛应用于社会经济、自然科学、管理科学等多个领域.传统的教学方法主要是教师在黑板上讲授知识,推导理论性质和结果,烦琐的矩阵、线性代数计算使得学生产生厌学的消极心理,这种重理论、轻实践的教学方式使得学生在运用回归分析理论方法处理生活中的实际问题时存在不少困难,难以将理论知识应用于实践解决实际问题[1,2].随着科学技术的发展,收集数据的能力有了快速地提高,大数据的研究已成为当今时代的宠儿,高维数据是统计学领域的一个研究热点和重点问题.当学生面临多变量的大数据进行分析时,学生不能通过简单的手工计算得到结果,此时需要借助统计软件进行分析处理,本文将讨论如何将免费的统计软件R应用于回归分析的教学中,将在实际案例的分析教学中,讲解R软件的操作过程,通过这种方式训练学生利用统计软件R解决实际问题的能力[3,4].
二、案例教学
本文从回归分析课程教学的现状出发,结合笔者在实际教学过程当中发现的问题,提出了将统计软件R和理论教学同步进行,在教学过程中链接统计R软件的窗口操作,直观易懂,不仅使学生熟悉统计软件R的操作,还能培养学生将理论与实践相结合的能力.本文通过回归分析中三个重要的知识点加以分析说明.
例1 当随机误差存在异方差性时,普通最小二乘估计β^虽是无偏的,但参数的显著性检验失效[5,6].
在向学生讲授这个重要性质时,如果仅仅以文字语言来表达比较抽象,此时便可以借助随机模拟来帮助学生加以理解.考虑如下多元线性模型
其中y是由响应变量构成的n维向量,X是n×2维的设计矩阵,β是2×1维未知参数向量,ε是n维误差向量[5,6].首先利用统计软件R模拟产生n=100个来自二元正态分布N(μ,Σ)的随机样本,组成n×2的数据矩阵X,其中β1=1,β2=0.5,μ=32,Σ=10.50.51,采用以下两种方式产生随机误差:(1)异方差ε=x21+x22ζ;(2)同方差ε=ζ,其中ζ~N(0,25).再由(1)式算出100个y值后计算每次模拟所得参数的最小二乘估计值,随机模拟2 000次.通过编写R程序代码,可以计算出2 000次随机模拟所得参数估计值β^的平均值以及β^的真实方差和估计方差,运行结果见表1:
由表1可知,无论误差来源于同方差还是异方差,最小二乘估计都是无偏的,因为参数的估计值和真实值很接近.当误差服从同方差时,β^1和β^2的真实方差和估计方差相差不大.此外,由表1的第3列和第6列可知,异方差下β^1和β^2的方差大于在同方差条件下的方差.当误差存在异方差性时,β^1和β^2的估计方差远小于它们的真实方差,即在异方差下仍用普通最小二乘估计未知参数,将出现低估β^=(β^1,β^2)T的真实方差的情况,将导致高估回归系数t的检验值,可能造成本来不显著的某些回归系数变成显著,从而参数的显著性检验失效,回归方程的应用效果极不理想.通过该实践教学过程,可以让学生更好地理解这一抽象概念.
例2 当误差存在序列相关时,普通最小二乘估计β^虽是无偏的,但参数的显著性检验失效[5,6].
这里仍然用例1的方法产生X和β,随机误差来源于一阶自回归模型:εt=ρεt-1+ut,其中相关系数ρ的值从0到1变化,ut~N(0,1),再由(1)式算出100个y值后计算每次模拟所得参数的最小二乘估计值,模拟2 000次.通过编写程序,可以计算出2 000次随机模拟所得参数估计值β^的平均值以及参数估计值β^的真实方差和估计方差,运行结果见表2:
由表2可知,当误差存在序列相关时,参数向量估计值β^的估计方差小于它的真实方差,随着相关程度的增强,差距增大,即在序列相关下用普通最小二乘估计参数,将出现低估β^的真实方差的情况,容易导致对t值评价过高,常用的F检验和t检验失效.如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论.如果不加处理地运用普通最小二乘法估计模型参数,那么用此模型进行预测和结构分析将会带来较大的方差,甚至是错误的解释.
由表3可知,自變量x1与x2的相关程度越高,多重共线性越严重,回归系数的估计值的方差就越大,回归系数的置信区间就变得很宽,估计的精确性大幅度降低,使得估计值稳定性变得很差,进一步使得回归方程整体高度显著时,一些回归系数不能通过显著性检验,回归系数的正负号可能出现倒置,使回归方程无法得到合理的经济解释,从而影响最小二乘的应用效果,降低回归方程的应用价值[5,6].
三、结 论
回归分析课程有很强的理论性与实践性,因此,可以利用统计软件R将抽象理论性质用数值结果展示,加深和巩固学生对理论知识的理解和认识,进而去引导、启发学生发现问题、思考问题、解决问题,进而培养学生的创新能力.因此,教师在上课的过程中可以借助R软件将理论上难以理解的知识点通过数值结果展示出来,进而提升教学质量,以期取得较好的教学效果.为了更好地适应大数据时代发展对统计学人才培养的要求,注重人才实践能力的培养已得到国内高校的普遍肯定和重视,因此,在实际教学中应该将实践和理论进行有效的结合[7].
【参考文献】
[1]姚娟.《应用回归分析》课程的教学思考.经贸实践,2018(22):278-279.
[2]彭娟.课题研究的教学模式的探索与实践——以《实用回归分析》课程的教学为例[J].湖北科技学院学报,2015(3):81-83.
[3]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.
[4]丁新涛,周在莹,王翠莲,肖睛.R软件教学的一些心得[J].课程教育研究,2013(34):125.
[5]何晓群,闵素芹.实用回归分析:第二版[M].北京:高等教育出版社,2014.
[6]何晓群,刘文卿.应用回归分析:第四版[M].北京:中国人民大学出版社,2015.
[7]李婷婷,郝媛媛,刘洋.多元统计分析课程中实践教学向理论教学的渗透[J].西南师范大学学报(自然科学版),2017(12):163-166.