基于逻辑回归算法的MOOC平台学习行为特征相关性研究

2017-07-07 13:21
上饶师范学院学报 2017年3期
关键词:逻辑次数学习者

侯 海 平

(安徽财贸职业学院 电子信息系,安徽 合肥 230061)



基于逻辑回归算法的MOOC平台学习行为特征相关性研究

侯 海 平

(安徽财贸职业学院 电子信息系,安徽 合肥 230061)

主要研究和分析软件技术领域的MOOC平台学习者行为数据与学习完成度之间关系。先将学习者行为划分为选课行为和听课行为,再汇总和预处理相关指标数据,并采用逻辑回归算法的分类模型计算得出相关系数。最后评价该模型的有效性,并提出MOOC平台在引导用户学习行为功能上的设计建议。

MOOC;软件技术;学习行为;逻辑回归

MOOC(慕课)这一新的教学模式相比单纯的视频公开课,具有正规课程的效能[1],与传统的远程教育相比,慕课又具有免费、课程丰富、自由度大、易于获取等优势[2-4]。近年来,越来越多的人开始关注MOOC平台的学习行为,试图分析MOOC平台的学习效果。

目前多数文章的研究主要集中在优化教学设计、促进资源开发、改进评价方式、优化教学平台和改进学习支持服务等[5-6]方面。这些研究主要包括MOOC平台发展的研究、学习者学习行为的研究、学习特征的研究、学习效果的研究等。文献[7]总结分析了MOOC的发展、现状和趋势。文献[8]主要围绕学习者学习特征如注册时间、下载资源次数、练习次数、测验成绩与最后能否获取证书进行相关性研究。文献[9]针对学习者学习特征进行分类的研究,根据学习过程和学习动机等因素将学习者进行分类。文献[10]从大数据的角度分析了北大6门课在Coursera上学习者学习行为表现。

本文重点分析软件技术专业相关课程MOOC平台学习者学习行为特征,重点研究慕课网、51CTO学院、极客学院、CSDN学院、网易云课堂IT频道、腾讯IT频道等国内领先的MOOC平台。这些平台用户规模达百万、课程数量达十万、新课制作日更新量高、讲师规模千人以上,为本课题调研学习者学习行为特点和规律提供了数据保障。

1 模型框架建立

本文主要对学习行为与学习完成度是否达标之间关系进行研究,属于分类问题。解决分类问题的算法主要有决策树、贝叶斯、逻辑回归等。决策树常应用于非线性问题,贝叶斯算法对自变量条件限制严格,而学习行为数据中大多是量化指标,逻辑回归主要用于解决量化线性问题,且对指标数据限制较为宽松,即使数据不满足条件独立,也能通过训练得到最优模型。

逻辑回归是属于有监督学习,该模型的因变量要求是一个二分类变量,如研究某某疾病检验是否为阳性、学习者成绩是否及格等问题。本文研究的学习完成度是否达标正是一个二分类问题。

目前国内外都有将逻辑回归模型应用于MOOC学习者行为分析,然而现行研究中较少有对某一特定领域的MOOC学习行为与学习效果的关联性进行研究。不同专业、不同课程MOOC平台的适应度不一样,学习行为特征差异较大。如软件技术专业是一个强调动手实践、课程体系内容丰富、技术方向多、技术发展迭代快的领域。本文对各类主流软件技术领域学习平台海量学习行为数据进行收集、整理、提取和分析,总结分析学习者学习行为特点和规律,最终为MOOC平台设计者在平台设计、课程设计、用户行为引导等方面提供改进建议。

本文首先通过Python开发爬虫程序从MOOC平台抓取相关数据,根据学习者学习过程把上课前行为确定为选课行为,把选课后正式学习阶段确定为听课行为,并将所抓取数据预处理成相关行为数据。由于逻辑回归模型的输入数据大多要求为连续型或离线型指标,需要在数据处理过程中将某些定性指标离散化。然后通过输入训练数据,对模型系数进行训练,并对模型进行评价。最后根据模型结果对MOOC的改进提供相关建议。图1是基于逻辑回归模型对学习行为进行分析的流程,其中小箭头表示模型设计过程中的数据流,大箭头表示不同阶段的衔接。

图1 逻辑回归分析流程图

2 软件领域MOOC平台学习行为特征选取

通过Python编写爬虫程序获取MOOC平台学习行为数据,获取数据包括注册时间早于开课时间的用户数据、开课完成的课程数据以及学习者每次学习行为数据。然后从学习者整体学习过程中抽取关键学习环节,这里抽取选课和听课两个环节进行分析。具体指标描述如表1。

表1 学习行为指标分类

选课行为分为所选课程每节课平均时长、课程包含案例程度两个方面指标。每节课平均时长可以通过课程总时长除以课程节数求得。课程包含案例程度分为:纯理论课案例较少、理论加实践案例小但案例数量多、项目开发课程以案例为主线穿插知识。

听课行为分为每次登录账户时长、最近一个星期登录次数、重复听课次数。每次登录账户听课时长是指用户每次登录后的在线时长,从登录成功到离开平台的整个过程。最近一个星期登录次数是指从数据采集时间点倒推7天内统计用户登录次数。重复听课次数是指学习者对课程中某节内容反复学习的次数和,如第一节学习2次计重复1次,第二节学习3次计重复2次,其他节还未学习,则计该学习者该门课学习重复次数为3。

3 逻辑回归模型构建

3.1 学习完成度的定义

软件开发技术课程难以使用试题考核成绩反映学习效果,一般来说课程学习完成情况对于技能掌握具有重要影响。课程学习完成度是指学习者学习课程完成比例,也就是所学课程节数除以课程总节数。为了便于对问题的研究,这里采用平台内所有符合注册时间早于课程发布时间的所有学习者课程完成度的均值为达标基准线,达到这一基准比例为学习完成度达标。从抓取数据中筛选符合条件的数据,求得学习完成度平均水平为56.12%。如果某一次课程学习行为中学习完成度高于56.12%,则认为此次学习完成度达标,否则认为学习完成度未达标。

对于是否达标可以通过G→{0,1}来进行映射。逻辑回归的因变量就可以通过0或1来表示。0表示学习完成度未达标,1表示学习完成度达标。那么就可以构建5个指标与学习完成度是否达标之间的逻辑回归模型。

3.2 输入数据的预处理

由于很多MOOC平台对于用户请求数有单位时间限制,Python抓取数据是一个高频的请求行为。整理Python所抓取的数据进行汇总,整理出有效数据50条。这些数据符合:(1)样本数据是自变量指标的5~10倍,有利于训练出更高准确率的自变量指标系数;(2)所有参与的课程开课都已结束,方可统计学习完成度情况;(3)选取的数据中学习者必须在开课前报名选择该门课。这些数据的采集通过编写Python相关方法来将采集的原始数据计算后插入一个最终的数据库表中。

每节课平均时长是连续型数值变量,反映的是每节课程的内容量,用x1表示。课程包含案例程度必须进行离散化处理。“纯理论课案例较少”量化打分标记为1,“理论加实践案例小但案例数量多”量化打分标记为2,“项目开发课程以案例为主线穿插知识”量化打分标记为3,用x2表示。每次登录账户时长是求用户每次登录时长的平均值,用x3表示。最近一个星期登录次数(x4表示)和重复听课次数(x5表示)也是一个连续型数值变量,可以通过SQL函数和存储过程进行处理获得。学习完成度是否达标用y表示,0表示未达标,1表示已达标。表2为50条数据中前10条的示例数据。

表2 样本数据中前10条情况

3.3 逻辑回归模型构建

当β逻辑回归系数,α截距项通过训练数据确定后就能计算出学习完成度达标发生的概率。

3.4 使用样本数据对逻辑回归系数进行训练

使用SPSS软件对样本数据进行训练,为求得逻辑回归模型中系数这里采用逐步回归的方法。通过该方法将合理的引入自变量,每次引入对因变量影响最为显著的自变量,同时对模型中的已有变量逐个进行检验,把不显著的自变量逐个从模型中去除,最终得到的模型中既包含对因变量影响最为显著的自变量,又去除了对因变量影响不显著的自变量。在Block 0阶段,从表3中观察到常量,也就是截距项系数具有显著性表现。表4为Block 0阶段未引入变量的显著性表现。

表3 方程式中的变量

表4 方程式中没有的变量

在进入Block 1阶段,SPSS将根据自变量显著性逐个引入到逻辑回归模型中,根据表4首先引入x2自变量进行训练。根据表5数据,可以看出模型再次引入x5。根据表6可以看出剩余自变量显著性不符合要求将被剔除。

表5 方程式中的变量

表6 方程式中没有的变量

表7 分类表a

再根据表5,可以得出逻辑回归模型为:

求得学习完成度达标的概率为:

3.5 逻辑回归模型评价

根据表7情况,在引入2个变量后预测准确性提高到96%,可见当前逻辑回归模型较为理想,预测准确率较高。根据最终决定的逻辑回归模型可以分析出:每节课平均时长、每次登录账户时长、最近一个星期登录次数并不能解释学习完成度是否达标,而课程包含案例程度、重复听课次数则与学习完成度是否达标有较强的关系。

4 结束语

首先分析学习者学习行为,总结归纳出5个方面指标:每节课平均时长、课程包含案例程度、每次登录账号时长、重复听课次数。为了收集样本数据,使用Python语言编程根据数据有效性条件抓取了50个样本数据,并对逻辑回归模型进行训练。在模型的训练阶段使用逐步回归方法,最终得出课程包含案例程度和重复听课次数对学习完成度达标有较大影响。因此建议MOOC平台应该引导讲师发布更多含有综合案例的课程,同时可以通过奖励办法提高重复听课次数,这些措施都将对学习者学习完成度有较好的影响。

[1] 李晓明.慕课:是橱窗?还是店堂?[J].中国计算机学会通讯,2013,9(12):24-28.

[2] SIEMENS G.Connectivism:A learning theory for the digital age[EB/OL].(2005-04-05)[2014-06-01].http://www.ingedewaard.net/paper/connectivism/2005_siemens_ALearning Theory For The Digital Age.pdf.

[3] OSVALDO R C.Moocs and the AI-Stanford like courses:Two successful and distinct course formats for massive open online courses[J/OL].European Journal of Open,Distance and E-Learning,2012(2):1-13.[2014-06-01].http://files.eric.ed.gov/fulltext/EJ982976.pdf.

[4] DOWNS S.New technology supporting informal learning[J].Journal of Emerging Technologies in Web Intelligence,2010,2(1):27-33.

[5] 彭文辉,杨宗凯,黄克斌.网络学习行为分析及其模型研究[J].中国电化教育,2006(10):31-35.

[6] 魏顺平.在线学习行为特点及其影响因素分析研究[J].开放教育研究,2012(4):81-90.

[7] WALDROP M M.Online learning:Campus 2.0[J].Nature,2013,495(7440):160-163.

[8] 蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015(3):614-628.

[9] 梁林梅.MOOCs学习者:分类、特征与坚持性[J].比较教育研究,2015(1):28-34.

[10] 贾积有,廖静敏,汪琼.MOOC学习行为及效果的大数据分析——以北大6门MOOC为例[J].工业和信息化教育,2014(9):23-29.

Research on the Correlation of Learning Behavior Characteristics of MOOC Platform based on Logistic Regression Algorithm

HOU Haiping

(Department of Electronic Information ,Anhui Finance & Trade Vocational College,Hefei ,Hefei Anhui 230061,China)

This paper mainly researches and analyzes the relationship between the learners' behavior data and the degree of completion in the MOOC platform of software technology. First of all, the learners' behavior is divided into selecting course behavior and learning behavior, then summarizes and preprocesses relevant indicators data, and calculates the correlation coefficient of the classification model of logistic regression algorithm. Finally, the validity of the model is evaluated, and the design proposal of the MOOC platform is put forward to guide the user learning behavior.

MOOC; software technology; learning behavior; logistic regression

2017-03-27

安徽省高等学校省级质量工程教学研究重点项目(2015jyxm629,2016jyxm0032)

侯海平(1980-),男,安徽无为人,讲师,硕士,主要从事软件技术、管理信息化方向研究。E-mail:hhp895@163.com

TP301.6

A

1004-2237(2017)03-0044-06

10.3969/j.issn.1004-2237.2017.03.009

猜你喜欢
逻辑次数学习者
刑事印证证明准确达成的逻辑反思
机场航站楼年雷击次数计算
逻辑
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
创新的逻辑
一类无界算子的二次数值域和谱
你是哪种类型的学习者
十二星座是什么类型的学习者
女人买买买的神逻辑
依据“次数”求概率