基于回归分析模型的网络学习与成绩关联度研究
——以“复变函数”为例

2019-06-20 03:40储亚伟杨舒媛
通化师范学院学报 2019年6期
关键词:因变量回归方程典型

储亚伟,王 娟,杨舒媛,许 钦

在“互联网+教育”的改革背景下,作为传统课堂教学与信息技术深度融合的重要途径之一,网络课程的使用日益受到高等学校的重视.在网络平台的创建过程中,文本资料、视频录制、题库建设等工作花费了教师大量的精力,在使用网络平台教学后,教师可以通过后台看到学生的答题情况、访问次数、观看视频次数以及讨论次数,然而深层次的数据分析工作相对较少,导致无法准确的判断学生的使用效果.

另一方面,通过文献分析,我们发现网络教学平台的研究多集中在教学平台开发、平台评价、平台应用的策略以及学习自我效能感上[1].面对日益丰富的网络课程模块,究竟哪个模块对于学生们来说才是最重要的呢?目前,对于每个模块的研究较少[2-6].

为了明确每个模块的作用效果,更有针对性地提升基于网络平台的混合式教学效果,更好的提高教学效果,本文以“复变函数”网络教学平台为例,通过不同的回归分析模型,研究各模块的网络学习对学生学习成绩的影响,建立二者之间的关联度,为更加精准地提升信息化教学效果、更有针对性地开展混合式教学提供数据支撑和改进方向.

1 数据搜集

研究数据来自于已经运行结束的“复变函数”第三期网络课程.数据链接及网页相关信息详见:http://mooc1-2.chaoxing.com/course/865607 33.html.

2 模型的建立与求解

为方便研究,先将网络教学平台中影响学生学习成绩的因素细化为:访问次数、观看视频时长以及学习讨论组中学生讨论次数.其次,建立典型相关性模型和回归分析模型,通过模型求解探讨网络学习与学生成绩之间的关联度.最后,依据研究结果,对教师开展信息化教学及学生开展混合式学习提出建议.

2.1 典型相关性分析模型

利用典型性相关分析,可以把多个变量与多个变量之间的相关转化为两个变量之间的关系.其实质就是在两组随机变量中选取若干有代表性的综合指标,用这些指标的相关关系来代表原来两组变量的整体相关性,从而简化变量.当求解得到典型相关系数足够大时,可以采用回归分析的方法求解各变量间具体的相关关系.

基本过程如下:设主成分

其中,y为综合变量.找出系数a1,a2,a3和b1使得变量u=a1x1+a2x2+a3x3,v=b1y1之间有最大可能的相关系数.即使ρ(u,v)→max.

本文用x1代表视频观看数、x2代表讨论数、x3代表学生访问数、y代表学生成绩,利用MATLAB编程实现典型相关性分析的具体操作,从而得出结果.

1)典型相关系数及其检验.由MATLAB计算求得相关系数为0.353,说明相应典型变量之间密切相关.典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析[7].用样本来估计总体的典型相关系数是否有误,需进行检验,检验结果如表1所示.

表1 典型相关性分析检验结果

以上是对各组协方差矩阵是否相等的Box’M检验,表1反映了协方差矩阵的秩和行列式的对数值.从表1可以看出,协方差矩阵不是病态矩阵,其研究是有意义的.同时,在检验结果中P值为0.0011,小于0.05,则说明该模型通过了检验,认为本课题中研究的三种因素对学生成绩都有显著影响.

2)典型相关模型.典型相关模型为

因此,我们可以将两组变量的相关性问题转化为研究两个变量的相关性问题,且在上述模型的系数下,u和v的相关性达到最大,其相关系数为0.353.该结果表明无论是视频观看次数、参与讨论次数、还是学生访问数,都会对学生成绩产生一定的影响.两组变量间具有相关关系,进而可以采用回归分析的方法求解各变量间具体的相关关系.

3)典型结构.结构分析是依原始变量与典型变量之间的相关系数给出的,如表2所示.

表2 典型变量的结构(相关系数)

从表2可以看出,三个反映学生使用情况的指标在该组典型变量中u的相关系数分别为-0.0290、-0.5220、-0.9946.其中x2,x3与典型变量u呈高度相关,说明学生讨论数与访问数在反映学生成绩时占有主导地位,且学生访问数居于首位.

4)典型冗余分析与解释能力.典型冗余分析用来表示各典型变量对原始变量组整体的变差解释程度,分为组内变差解释和组间变差解释,其典型冗余分析的结果如表3和表4所示.

表3 典型冗余分析

表4 典型冗余分析

从表3、表4可以看出,该组典型变量可以较好地预测变量,即课题中研究的三个变量形成的变量组可以很好的反映学生的学生成绩,而且交互解释的能力也比较强.改变量组的方差被“学生成绩”典型变量U解释的比例和为5.24%,被典型变量V解释的方差比例和为12.46%.因此,我们研究的改变量组及其对应典型变量解释的百分比较高,反映了两者之间有较高的相关性.

为了比较哪个变量对学生成绩影响较为显著,哪个变量对学生成绩影响强度较弱,将进一步采用回归的方法定量分析数据.

2.2 回归分析模型

单变量与学生成绩之间的关系如图1所示.

图1 单变量与学生成绩之间的关系

从图1可以看出,需要采用回归模型对变量间的关系进行具体分析.

1)多元线性回归模型.回归分析是对具有因果关系的自变量和因变量进行数理统计分析处理的一种方法.只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义.在上述的典型相关性分析的基础上,已确定了自变量与因变量之间的关系.因此,作为自变量的因素与作为因变量的学生成绩相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题.进行相关分析后,便可以求出变量间相关关系,以相关系数的大小来定量的判断自变量和因变量相关的程度.

本文将网络教学平台的观看视频时长、学习讨论组中学生讨论次数以及访问次数分别设为自变量x1、x2、x3,那么学生成绩可作为因变量y.建立多元线性回归模型[7-9]如下.

利用MATLAB对多元线性回归模型进行求解,可得

在显著性水平默认为0.05的前提下,残差图如图2所示.

图2 残差图

从图2可以看出,残差随机分布在一条穿过零点的水平直线的两侧,这说明残差独立,也就是不存在异方差性.

多元线性回归的相关数据如表5、表6所示.

表5 方差表

从表5可以看出,P=0.0011小于0.05,这说明由上述3个变量构成的回归方程解释学生最终成绩是有统计学意义的.通过查F检验表可得Fα=2.68,由上述表中数据可知F=4.2351>2.68,所以整体线性关系存在显著性差异;R2=0.1246,其值比较接近于0,说明拟合程度不太好.

从表6可以看出,x1,x2的方差扩大因子很大,分别为VIF1=1462,VIF2=1352,远远超过10,说明回归方程存在严重的多重共线性,应该剔除变元.在给定α=0.05,查表可得tα=1.68,从表中可得到||t>1.68且Sig均小于0.05,故拒绝原假设,即可认为变量之间存在显著差异.

表6 T检验

2)逐步线性回归.通过逐步线性回归模型[7-9]对多个变量进行逐步筛选,得出影响学生成绩的显著因素.利用MATLAB求解结果如图3所示.

图3 逐步线性回归结果

由于逐步线性回归中的显著变量要求T检验结果T>2,F检验结果:P<0.05变量显著,P<0.001变量非常显著.从图3可以看出,网络平台的访问次数x3是影响学生成绩的非常显著因素.通过分析逐步线性回归的结果,发现筛选的变量与上面的方法剔除的变量一致.最终,可得到最优的逐步线性回归方程:

回归方程F检验的P=0.0011;决定系数R2=12.46%;调整的决定系数R2a=10.23%.可见线性回归的效果不优,以下使用二次多项式回归.

3)多元二项式回归模型.为了得出最优的多元二项式回归模型,分别建立了下述四种多元二项式回归模型:Linear(线性):y=β0+β1x1+β2x2+β3x3;Purequadratic(纯二次):y=β0+;Interaction( 交叉):Quadratic(完全二次):y=β0+β1x1+β2x2+

利用MATLAB进行求解,四种不同的多元二项式回归模型的剩余标准差分别为:17.4359、17.3208、17.5419、17.4440,由此可知纯二次模型的剩余标准差最小,故采用纯二次模型.纯二次模型的求解结果为y=59.2570+5.3105x2+0.4008x3-0.1529x22.

F检验和T检验结果如表7和表8所示.

表7 F检验

由表7中数据可知,P=0.0010小于0.05,则说明用上述3个变量构成的回归方程解释学生最终成绩是有统计学意义的;通过查F检验表可得F0.025=0.6993,由上述表中数据可知F=0.4346≤0.6993,所以整体线性关系存在显著性差异;R2=0.8246,其值比较接近于1,说明拟合程度较好.

表8 T检验

通过分析求解结果,发现x1,x21,x23的系数几乎接近于0,故剔除.从输出结果表8可以看出的方差扩大因子很大,分别为VIF1=18,VIF2=23,几乎接近10,说明回归方程不存在多重共线性.在给定α=0.05,查表可得tα=1.68,从表中可得到||t>1.68且Sig均小于0.05,故拒绝原假设,即可认为变量之间存在显著差异.

3 结论

本文通过三种回归方法(多元线性回归、逐步线性回归以及多元二项式回归)开展研究的目的在于:首先,通过多元线性回归的方法得出因变量与自变量之间的线性关系;其次,通过逐步线性回归判断显著程度大小或贡献大小,由大到小地逐个引入回归方程,那些对作用不显著的变量则不引人回归方程.最后,采用多元二项式回归的方法得出自变量与因变量之间的关系所体现出来的二项式方程.

对以上的结果分析可得到“复变函数”网络学习的视频观看时长、参与讨论次数及访问量与学生最终成绩之间具体量化后的关系.通过典型相关性分析模型以及逐步线性回归模型的结果分析得出:影响学生成绩最显著的因素是网络教学平台的访问量,其次是观看视频的时长以及学生的讨论次数.因此,建议教师在使用网络平台的教学过程中要充分调动学生参与网络学习的积极性,适当发布视频任务、发动学生发布或参与讨论,使传统课堂与网络学习深度融合,各取所长,有效提高教学质量.

猜你喜欢
因变量回归方程典型
用最典型的事写最有特点的人
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
典型胰岛素瘤1例报道
走进回归分析,让回归方程不再是你高考的绊脚石
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛