李金海 泰州学院计算机科学与技术学院
慕课平台改变了长期以来传统的口耳相传的授课模式[1],在新型信息技术的推动下,以及在学习者学习经历、学习能力等存在一定的差异性的客观因素下,在线学习成为学习者进行个性化学习的现实需求。近年来,随着教育部《关于加强高等学校在线开放课程建设应用与管理的意见》的颁布,慕课平台成为全国各高校开展在线开放课程的主要途径。而2019—2020学年第二学期受新型冠状病毒疫情的影响,全国高校的各类课程教学活动基本采用了在线授课模式,这里有主动的选择,如部分高校开设的在线精品课程资源,这些课程具有丰富的在线教学资源,但大多数课程还是被动的选择,由于事发突然,这些课程绝大多数只有线下授课的教学资源,缺乏在线授课的教学资源。此时,慕课平台中大量的精品慕课资源成为首选在线教学资源,各高校基于慕课平台建立高校慕课系统,通过引入精品慕课资源支撑在线教学活动,保障在线教学活动的高效开展。在疫情肆虐的特殊环境下,笔者所授课的课程“Python数据分析技术”也由线下授课模式转变为在线授课模式,为了保障在线教学活动的有效开展,笔者选择了中国大学MOOC平台中嵩天老师教学团队的国家精品慕课资源《Python语言程序设计》与《Python数据分析与展示》作为学生在线学习的主要在线资源。本文将以学生慕课平台的学习数据以及线下考核成绩数据为样本数据,研究学生在线学习的个性化需求,以及在线学习与线下考核成绩的相关性。
1.基于学习数据的学习者研究
随着在线教学平台的广泛开展,近年来,部分学者基于在线教学平台中的学习数据研究了学习者的学习行为以及学习效果。例如,王改花等(2018)利用该校2002年就已开设的在线开放课程“现代教育技术”的在线学习数据,通过数据挖掘技术对在线学习者行为进行聚类分析。[2]Natek等(2014)通过决策树算法研究了学习者的基本信息、平时表现以及学习类型与过程、对最终考核成绩的影响。[3]
2.基于慕课平台的研究
在众多的在线学习系统中,慕课平台是目前使用较为广泛的在线学习系统。邱文教等(2017)基于对东南大学的学生问卷调查,通过描述性分析以及因子分析方法对慕课满意度的影响因素进行了分析。[4]鄂丽君等(2016)基于高校图书馆视角,对高校学生的慕课认知及学习现状进行调查,为高校图书馆开展慕课学习服务提供支撑。[5]
3.在线学习个性化研究
随着众多在线教学平台的兴起,在线学习资源激增,犹如电子商务平台,在线教学平台也出现了信息过载的问题,在线学习者获得有效在线学习资源的难度加大,因此,在线学习个性化研究成为教学改革研究的热点。查英华等(2015)根据学生的特征,基于学生与学习资源之间的二元关系,构建了基于个性化推荐的移动学习模型。[6]周海波(2018)从数据层、行为层以及表示层这三个层次,探究了自适应学习平台的体系框架,为优化自适应学习平台提供了理论支撑。[7]孔晶等(2016)论述了“互联网+”时代中的云计算技术与大数据技术对学生个性化学习的支撑作用。[8]胡国强等(2017)在改进协同过滤算法的基础上,设计了MOOC个性化课程推荐系统,为用户提供个性化的课程选择。[9]
1.基于慕课平台数据分析的学生在线学习效果分析
本文以中国大学MOOC平台为在线教学开展的慕课平台,对其数据进行分析,中国大学MOOC平台中主要记录的在线学习过程数据包括课程数据、学生成绩数据、学习数据统计、学生数据等。学习数据统计包括学生信息、学生分组、有效成绩、视频观看个数、视频观看次数、视频观看时长、讨论区主题数以及讨论区评论数+回复数,共8个数据项。笔者选取中国大学MOOC平台学习数据统计数据为数据分析来源数据,中国大学MOOC平台学习数据统计界面图如图1所示。
图1 中国大学MOOC平台学习数据统计界面
通过Python数据分析技术对中国大学MOOC平台学习数据统计数据进行数据预处理。分析学习数据统计表发现,8个数据项中可以选择视频观看个数、视频观看时长两项数据进行学生在线学习效果分析研究的在线学习过程数据,通过与线下考核成绩的对比分析,挖掘在线学习过程数据与线下考核成绩的相关性。
数据预处理的流程如图2所示。
图2 数据预处理的流程
数据预处理各流程的操作步骤如下:
①基于Pandas库导入学习数据统计Excel表,导入后数据类型为DataFrame;
②去除无用列(如学生分组、有效成绩等列);
③按学生学号顺序升序排序;
④添加序号列(序号列从1开始编号,由于在Python数据分析中,DataFrame索引默认是从0编号,所以添加从1开始编号的序号列,更便于直观展示信息);
⑤缺失值填充,默认以0填充;
⑥将视频观看时长转换为以秒为单位的时间数据,原始数据格式为HH:MM:SS,且为字符串型,这一步的关键在于基于“:”将字符串切割成列表,该列表的格式为[HH, MM, SS],然后通过for循环将列表转换为一个整型数据,HH*3600+MM*60+SS即为转换后的秒数。
基于Pandas库对学习数据统计数据进行数据预处理后的部分结果如图3所示(为了保护学生信息,已隐藏学生姓名、学号两列)。其中,视频观看个数1与视频观看时长1是指《Python语言程序设计》慕课的视频观看个数与视频观看时长;视频观看个数2与视频观看时长2是指《Python数据分析与展示》慕课的视频观看个数与视频观看时长。
得到了慕课平台学生的在线学习数据后,笔者将学生的在线学习数据与线下考核成绩进行相关性分析。通过线性回归挖掘学生的在线学习各项数据与线下考核成绩的线性相关性,结果如下页图4所示。其中,各子图中横坐标表示在线学习各项数据的值,纵坐标表示线下考核成绩的值,散点为真实值坐标,线段为线性回归拟合后的预测坐标。
由图4可以看出,子图1与子图2的线性回归拟合线段较平缓,说明视频观看个数对线下考核成绩影响较小;子图3与子图4的线性回归拟合线段呈明显上升趋势,说明视频观看时长对线下考核成绩具有显著正向影响;而且也可以发现大多数学生的视频观看个数较为一致,这是因为慕课平台以打开视频学习页面为计数标准,而视频观看时长则根据学生具体学习视频时长统计,但是在疫情期间由于慕课平台在线学习人次较多,服务器负荷较大,慕课平台统计数据有些许误差。
图3 基于Pandas库对学习数据统计数据进行数据预处理后的部分结果
2.基于慕课平台数据分析的学生在线学习个性化分析
在分析在线学习各项数据与线下考核成绩的线性相关性的基础上,笔者将继续研究基于慕课平台数据分析的学生在线学习个性化问题,对线下考核成绩较差的学生,可以对他们进行个性化的课程学习内容推荐。从子图3与子图4中可以看出,视频观看时长2作为自变量时,线性回归拟合的斜率更大,这可以在一定程度上说明视频观看时长2,即《Python数据分析与展示》慕课的学习时长的变化对线下考核成绩的影响更大。为验证这一推断,将视频观看时长1与视频观看时长2两个变量同时作为线性回归模型的自变量,线下考核成绩作为因变量,构建多元线性回归模型。通过调用多元线性回归模型的intercept_、coef_属性,可以得到常数项以及回归系数,如图5所示。
图4 在线学习各项数据与线下考核成绩的线性相关性
图5 多元线性回归模型的常数项以及回归系数
可以得到多元线性回归模型为:
Y=70.61422771+8.89901281e-06*视频观看时长1+9.83465545e-05*视频观看时长2
通过多元线性回归模型的两个自变量的回归系数可知,视频观看时长2的回归系数显著大于视频观看时长1的回归系数,上述的推断得到验证。
因此,对线下考核成绩较差的学生,教师可以向他们推荐个性化的课程学习内容,对没有完成《Python数据分析与展示》慕课学习的学生,让他们继续完成《Python数据分析与展示》慕课的学习,对已完成《Python数据分析与展示》慕课学习的学生,可以向他们推荐其他类似慕课学习资源。
下面,笔者将通过均方根误差(RMSE)对以上5个线性回归模型进行评价。
RMSE的评价公式为:
RMSE的评价方法为:np.sqrt(metrics.mean_squared_error(y_true, y_pred))
其中,y_true为真实的线下考核成绩,y_pred为通过线性回归模型预测得到的线下考核成绩。各模型的RMSE值如下页图6所示。
由图6可知,视频观看时长1及视频观看时长2组合变量与线下考核成绩的多元线性回归模型的RMSE值最小,说明真实线下考核成绩与预测线下考核成绩的误差最小,该线性回归模型较优,更适合用于评价学生在线学习的效果,以及用于学生在线学习个性化的推荐。
图6 线性回归模型的RMSE值
笔者基于中国大学MOOC慕课平台的学习数据统计数据,对在线学习各项数据与线下考核成绩的线性相关性进行了深入研究。在此基础上,笔者继续研究了不同慕课课程视频观看时长对线下考核成绩的影响程度大小,发现《Python数据分析与展示》慕课学习时长的变化对线下考核成绩的影响更大,因此,有针对性地向学生进行个性化的慕课资源推荐。后续,笔者将继续引入更多的慕课平台学习数据,通过数据挖掘与机器学习技术对学生的在线学习个性化问题进行更为深入的研究。