王慧敏 陈泽宇 王敏娟 张 弛
【摘要】基于对近千名高等教育移动学习者进行大规模调查所收集到的数据,研究者使用C5.0算法分别生成男女生群体关于课件使用满意度的决策树,然后比较从中提取的不满意规则进行性别差异研究。实验结果表明:在移动学习中,女生对学习资料有更高的要求,女生对学习资料要求的个体差异高于男生,女生使用课件时更容易受外界因素干扰。
【关键词】移动学习;决策树;学习者满意度;性别差异
【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2009)05—0030—04
一 引言
移动学习(m-learning)是继网络学习(e-learning)后出现的一种新的学习模式,国内外大量研究文献已经对此进行了诸多研究。从当前移动学习研究的现状看,人们对它的研究已经走过了最初的探索期,开始从早期的实验研究,向着融入主流学习方式的方向发展。Minjuan Wang博士[1]已进行了一系列的移动学习研究,阶段研究结果表明“移动学习能有效促进学生的学习过程,使其从被动学习者转变为主动学习者,提高学习者的学习绩效”,并明确指出“下一阶段的研究重点在于学习资料的个性化。”由此可见,个性化研究是移动学习的一个重要研究领域。个性化的内涵非常广泛,其中,性别差异研究可作为个性化研究的一个很好的切入点。与此同时,学习者对学习资料的满意度是非常关键的,这直接影响到移动学习的进一步开展。 综上所述,本文围绕课件使用者满意度来研究移动学习的性别差异是有一定研究价值和现实意义的。
为了实现更大规模的移动学习实践,我们开发了智能手机插卡播放技术,把课程按照知识点制作成移动学习课件,学习者可以通过手机下载课件随时随地地进行学习。针对移动学习课件使用情况,我们通过在线调查,收集学习者使用课件后的反馈信息。由于收集到的数据信息规模较大,我们没有像大部分移动学习研究文献那样采用一般局限于小样本数据的传统统计分析方法,而是运用决策树技术进行移动学习的研究。我们使用C5.0即ID3的改进算法,分别推导出男生、女生群体关于移动学习课件使用满意度的决策树,通过比较从中提取的不满意规则来进行移动学习性别差异研究,期待产生更丰富、更深层次的知识发现,进而有针对性地改进现有的移动学习资料,满足学习者的个性化需求。
二 决策树与C5.0算法
决策树是数据挖掘领域数据探查、分类和预测的常用工具。按照特定算法生成的决策树从根到每个叶子节点都有一条路径,一条路径就是一条规则,因此可以从决策树中提取可理解的规则。决策树各种算法都具有相同的基本过程:针对目标变量,分割出来的子结点比其父结点具有更高的纯度,通过这种方式,可将大规模数据记录集分割为树型结构的彼此越来越相似的小记录集。一般,用于评价可能拆分的度量是纯度,不同的算法就在于衡量纯度的度量不同。如Quinlan 于1986年提出的ID3 算法,就是使用信息论中的信息熵来评价拆分分类目标变量的纯度度量。有关决策树原理及其应用的更多介绍可见参考资料[2]。
C5.0算法是Quinlan在ID3版本上演化和精修多年的最新版本。它的主要改进是选择能带来最佳信息增益率的字段拆分数据记录集,并增加了推进和修剪枝方法(详见参考资料[3])。第一次拆分确定的数据记录子集随后再次拆分,这一过程重复直到数据记录子集不能拆分为止。最后,重新检查最低层次的拆分,那些对于模型值没有贡献的数据记录子集被剔除或者修剪。
三 实验环境与数据获取
我们开发了智能手机插卡播放技术,把课程按照知识点制作成移动学习课件并发布在移动学习资源网上。为了进一步推进移动学习研究,我们制作了课后调查问卷,并把它整合到网站中供学习者使用课件后提交反馈信息(详见图1)。
网站运行1年多以来,我们共制作五大类的移动学习课件,主要以语言类为主,另包括经济管理、计算机等,截至目前共有2887个课件放上网,下载总次数达36581次。系统共收集到课后调查问卷(涉及内容见表1)反馈信息930条,其中学习者使用课件后表示“满意”和“不满意”的典型数据记录571条,我们使用这部分数据进行分析。
四 运用决策树技术研究移动学习的性别差异
1 数据分析流程
我们使用C5.0算法分别生成男女生群体关于课件使用满意度的决策树。在我们的实验中,输出变量为学习者满意度(“满意”、“不满意”),输入变量为年龄、课件长度偏好、课件形式偏好、学习地点。我们把编码预处理后的数据通过性别选择、目标变量均衡化、设定输入输出变量、划分训练和测试集一系列操作后,按照不同修剪纯度(pruning severity)训练决策树模型,并通过测试集验证比较生成树的正确率,确定最后使用的最佳决策树。男女群体处理步骤完全相同,数据分析流程见图2。
2 最佳决策树
我们最终的目标是分析比较从决策树中提取出来的男女生群体关于课件使用满意度的不满意规则,简洁的规则更容易理解,因此希望决策树在正确率能够得到保证的前提下尽量简洁。我们主要通过调整修剪纯度来达到这个目的。修剪纯度决定生成决策树被修剪的程度。提高纯度值将获得更小,更简洁的决策树;降低纯度值将获得更加精确的决策树。[4]较高修剪纯度还能缩短训练时间和避免过度训练。我们以最精确的决策树(即修剪纯度为0)为参照(下面称为V树),不断提高修剪纯度来产生不同的决策树,直到最简洁决策树(即修剪纯度为100,下面称为S树),通过对比决策树收益图和相合矩阵来判断新生成树的正确率是否可以接受。因为男女生群体操作过程完全相同,这里我们仅就女生群体最佳决策树产生过程做详细说明。
我们使用收益图(Gains chart)来快速评估和比较不同树的优劣。收益图的横坐标通常为分位点(按置信度降序),纵坐标是累计收益,定义为:分位累计命中数/总命中数×100%。通常从左端到右端以0%为起点,以100%为终点。对于一个好的模型来说,收益图表将陡峭地升到100%然后渐渐变的平缓。而一个没有提供任何信息的模型将从较低的左端以斜对角线形状上升到较高的右端。[4]我们从图3中可知,S树与V树在收益图上表现差别不大。实际上,经过后期计算,S树与V树在测试集数据验证下正确率仅相差7%,分别为81%和74%。
由于决策树正确率是包含不满意预测与满意预测正确率的加权和,因此我们可进一步查看它们的相合矩阵(Coincidence matrices),单独比较两棵树不满意预测的正确率。相合矩阵显示对于符号型目标变量的每个被生成的(被预测的)字段和它的目标字段之间匹配的模式。它用一个表格表示,行被定义为实际值,列被定义为预测值。
查看表2可发现对于不满意预测而言,V树正确率为98%,而S树却达到100%。因此我们更确定S树即是用来提取不满意规则的最佳树。最终决定采用的女生决策树见图4。
3 从树中提取规则进行比较
根据女生群体产生的决策树,我们可从0节点开始分别到2、4、8叶子节点的路径来提取女生3条不满意规则,同理,我们从男生决策树提取了1条不满意规则,见表3。
*支持度:符合该条规则的人数占该群体总人数百分比
首先,从“不满意”规则数量上来看,女生有更多的不满意规则,这说明女生对学习资料的要求更高。
其次,每条规则的符合条件如果超过一项(如1、3、4号规则),实质上反映了该群体在使用者满意度方面的一次分化。女生分化地更严重,这说明女生对学习资料要求的个体差异比男生高。
对于2号规则。男生同等条件下不会表示不满意,这说明女生比男生在上班时对学习资料有更高要求。
对于3号规则,在移动交通工具上,周围环境一般比较嘈杂,外界干扰因素多。斯坦福大学实验室在一项移动学习实验中指出“研究移动学习资料设计应注重开发最适合零碎时间免受外界干扰的学习资料。” [5]尽管我们按照知识点组织学习资料尽量克服周围干扰,但仍有大龄女生表示不满意,这说明大龄女生使用移动课件时更容易受外界干扰而影响其使用课件的满意度。
对于1和4号规则,两者支持度都较高。我们发现男女生都有“在家中”这个条件。在家中,学习者完全可以使用网络课件,网络课件在呈现视频形式和长时间的课件上更令人满意。这说明移动学习尚不足以完全取代网络学习。我们仍然要坚持两套学习资料的开发,适宜学习者不同的需要。
五 结语
本文基于对近千名高等教育移动学习者进行大规模调查所收集到的数据,使用C5.0算法生成男女生群体关于课件使用满意度的决策树,然后比较从中提取的不满意规则进行性别差异研究。实验结果表明:在移动学习中,女生对学习资料有更高的要求,女生对学习资料要求的个体差异高于男生,女生使用课件时更容易受外界因素干扰。研究结果提示我们在制作移动学习资料时要更关注女性群体需求。本文所存在的问题在于对于应用决策树技术而言样本数量仍显不够且数据中目标变量分布不均衡。虽然经过均衡化处理加以弥补,但可能引入大量噪声,这样会导致产生的规则有偏差。尽管如此,研究过程和结果仍说明决策树技术是研究该类问题的强有力工具,继续积累数据再次重复挖掘将会取得更好的结果。
移动学习相比其它学习方式带有更加明显的个性化。不符合其个性化的学习资料将令学习者产生挫折感,破坏其对移动学习的信任进而减少学习。移动学习的个性化研究是一个广泛的研究领域,本文所涉及的性别差异研究只是抛砖引玉,相信随着更多研究者的参与,我们能够在复杂多维的个性化差异中找到更多规律,最终使得移动学习满足学习者的个性化需要。
参考文献
[1] Minjuan Wang, Ruimin Shen, Daniel Novak, et al.The impact of mobile learning on students' learning behaviours and performance:Report from a large blended classroom[DB/OL].
[2] Michael J.A.Berry,Gordon S.Linoff,别荣芳等译.数据挖掘技术:市场营销、销售与客户关系管理领域应用[M].北京:机械工业出版社,2006:111-131.
[3] Quinlan, J.R.C4.5: programs for machine learning[M].San Mateo:Morgan Kaufmann Publishers,1993.
[4] 谢邦昌.数据挖掘Clementine应用实务[M].北京:机械工业出版社,2008:173-179,195-198.
[5] Keegan D.The future of learning: From elearning to mLearning[EB/OL].