□ 王慧敏 陈泽宇 王敏娟 张 驰
移动学习情境中教育智能应用探究
□ 王慧敏 陈泽宇 王敏娟 张 驰
随着教育信息化和数据挖掘技术的发展,越来越多的教育工作者将人工智能等数据挖掘技术应用于教育研究与实践。文章结合目前国内外已有的一些教育领域数据挖掘研究成果,以教育技术学科视点,首次提出教育智能的概念,并针对移动学习资源建设领域的基础研究、教育决策和教育智能在教学系统中的整合三个层面进行应用探究,以案例的形式展示了教育智能的应用层次和解决方案,对教育智能的研究与应用具有一定示范和参考价值。
教育智能;决策树;关联规则;时间序列;移动学习
随着人类社会跨入信息时代,信息技术正在对教育产生着深刻的影响,并成为教育改革的技术基础和强大动力。在教育领域全面深入地运用现代信息技术来促进教育改革和教育发展过程,其结果必然是形成一种全新的教育形态,信息化的教育[1]。在这种形式下,教育领域各方面的数据正快速地增长,这些海量的教育信息数据收集、存放在了各式各样的数据容器中,越来越多的教育研究和实践工作者将研究重心转移到如何将这些庞大的数据快速转换为教育者和学习者所需的信息,以提高教育管理绩效和学习绩效。
这里,我们提出“教育智能”的概念。所谓教育智能指的是在充分理解教育情境的前提下,利用信息科技以教育过程中既有的数据为基础,根据所需解决的问题进行数据汇总,利用适当工具进行数据处理,通过数据挖掘技术建立模型分析数据,将所发现的模型内容传递给教育者或学习者,以协助其进行教育研究、决策或学习,并可进一步部署这些模型在各类学习系统或教育管理系统中,为教育者提供智能管理或为学习者提供智能导学、个性化学习等服务。
通过教育智能的应用,基础研究者可在定性定量研究之外获取更多的数据支持甚至发现新的知识,主要成果为各类研究报告。
基础研究指为获得关于现象和可观察事实的基本原理及新知识而进行的实验性和理论性工作,它不以任何专门或特定的应用或使用为目的。如研究儿童在不同年龄阶段的学习能力、不同性别学生的认知特征等等。一般来说,该类研究是为了论证某一教育基础理论或者是寻找新的知识发现。教育基础研究,具有探索性、创造性、继承性、学科交叉性的特点。
实际案例:教育智能在移动学习性别差异研究中的应用
在这个案例里,研究者基于移动学习实践中获取的大样本原始实验数据,使用C5.0算法生成男女生群体课件满意度的决策树,然后比较从中提取的不满意规则进行性别差异研究[2]。
(1) 问题理解
这里采用决策树方法研究性别差异。男生、女生决策树生成的有效规则的异同可以理解为男、女生在这一领域的性别差异。所以,分别推导出两组不同规则,对有效规则进行分析即可得到新的知识发现。
(2) 算法选取
C5.0算法是Quinlan在ID3版本上演化和精修多年的最新版本[3]。
(3) 数据预处理
数据来源为网上课后调查问卷,这是教育研究领域非常普遍的获取数据的方法。在实验中,输出变量为满意度(“满意”、“不满意”),输入变量为年龄、偏好长度、偏好形式、偏好场合。数据预处理过程包含了空值删除、数字编码、性别选择、目标变量均衡化、设定输入输出变量、划分训练和测试集等一系列预处理操作。
表1 课后调查问卷数据表项(案例1和案例2共用,共923笔数据)
(4)建立、评估模型
建立好模型后,按照不同修剪纯度训练决策树模型并通过测试集验证比较生成树的正确率,确定最后使用的最佳决策树。在最佳决策树的判断上,主要使用收益图和相合矩阵予以判断。评估发现,不满意规则有效性高。
(5)将规则语义化
从最佳决策树中提取不满意规则语义化进行分析解读。
表2 “不满意”规则列表
研究发现:女生在移动学习中的个体异质性高于男生,女生因学习地点的变化对学习资料产生更多要求,女生使用课件时更容易受外界干扰而影响其使用满意度。需要指出,对于应用决策树技术而言这个案例中的样本数量仍不足且数据中目标变量分布不均衡。但研究过程和结果仍说明,作为教育智能的一大应用领域,在这个案例中,决策树技术是研究该类问题的强有力工具,继续积累数据再次重复挖掘将会取得更好的结果。
来自美国纽约的教育研究者Marianne Kolbasuk McGee[4]在其著作中介绍了纽约市教育部门应用数据挖掘服务教育的情况。拥有68所学校54500名学生的Texas学区应用SAS企业智能分析平台,建立了他们称之为PLANO的计划。在SAS工具的帮助下,PLANO用来分析整个学校的表现情况、评分等级、学生分类甚至是单个学生。在其中8所学校中,通过数据挖掘发现了60名处于可能在标准测试中不合格的学生,教师们制定针对性的计划帮助他们,最终只有10名学生在测试中表现不佳,取得了巨大成功。这个案例充分说明教育智能对教育决策的贡献。
实际案例:采用整体设计还是片段式设计
在这个案例里,课件制作部遇到这样一个决策问题:移动学习课件是采用整体设计还是片段式设计?课件制作部通过查阅有关研究文献,发现两种设计方式各有优缺点。作为一个实践部门,制作部首先考虑到这些文献结论的效度即可推广性,最后课件制作部决定采用教育智能的办法解决该决策问题。
限于篇幅这里采用叙述的形式,实际过程类似于实际案例1,不加详述。这里两位决策者依据相同数据(表1),分别采用不同算法进行分析。下文分别称之为Person_A,Person_B。
Person_A选择关联规则算法[5]。关联规则可以用于在大量数据中发现变量间的关联性。甲遵循教育以教育对象为中心的原则,首先考虑学习者的意愿即他们在不同类型课件、不同学习场合情况下更喜爱何种长度的课件。甲完成数据整理后在sql2005SSAS创建关联模型,将属性“偏好场合”、“偏好类型”设置为输入状态,“偏好长度”设置为预测状态。
完成模型训练后,我们得到规则列表(见表3)。
表3 关联规则列表(只选取2行)
通过依赖关系网络图(图2),我们可直接观测到概率在前6位的关联规则,对应于关联规则列表的前6行。
现在,Person_A可以总结数据探测结果:
(1)偏爱整体设计课件的学习者,一般使用考试类课件,且常在家中学习。
(2)偏爱片段式设计课件的学习者,一般使用非考试类课件,且常在交通工具里和公共场所学习。
Person_A了解到不同特征人群所喜好的课件类型并非绝对化。但如果非要两者选择其一,可就“满意度”和“长度”做两项关联,“满意度=不满意->长度=30分钟”的规则告诉Person_A:表示不满意的学习者95%概率偏爱使用整体设计课件。
综合以上分析,Person_A做出以下决策:
(1)不能简单地决定课件是采用整体设计还是片段式设计,要考虑不同人群的不同偏好。
(2)如果确实需要统一设计模式,则采用片段式设计可解决现在课件使用满意率不高的问题。
(3)学习者希望考试类课件为整体设计,但现有课件整体设计形式无法满意其需求,建议这部分学习者通过电脑网络课件进行学习。
(4)对非考试类课程课件有偏爱的学习者,对片段式设计的课件满意率高,可加大这方面投送。
Person_B选取聚类算法进行数据深入分析。从各类型学习者的特征属性和类间变化规律出发,分析研究片段式学习资源在移动学习中的可行性和具体设计策略[6]。这里仅抽取分类结论中涉及的部分来补充回答上述决策问题。Person_B在分析报告中将学生分为3类,应试考证类的学生占到了总体的64.15%,80%的学生偏好整体设计的课件;培养兴趣类的学生占总体的27.55%,绝大部分都偏好片段式设计的课件;充电拓展类的学生占8.30%,对两种形式课件偏好比较平均。
Person_B的分析结论弥补了Person_A结论中第一点的不足,是对其进一步解释、说明。这说明,不同的教育智能决策方法,最后达到的决策结论大致相同,并且具有互补性。
目前在计算机领域,教育智能的踪影在各类教学系统中已不鲜见,只不过冠之以不同的计算机技术名词,常见的有以下三大类别。
各种各样的智能授导系统中都或多或少的采用了数据挖掘技术。卡内基梅隆大学的Peter Brusilovsky分析了基于Web的智能授导系统的自适应和人工智能技术并指出了在大规模教育应用中这些技术的地位。[7]
Agent是能够自主学习并可适应环境的软件实体。加拿大Alberta大学的Osmar R建立了一个e-Learning系统的推荐Agent,它使用数据挖掘技术里的关联规则算法建立在线用户模型,使用这个模型来建议活动和快速链接。[8]
使用Web数据挖掘可进行个性化教学支持服务,包括:根据路径分析改善站点结构;利用关联规则发现学校学衡的某些只是兴趣点之间的关系;通过分类算法对学生的知识水平进行分类;利用序列模式的挖掘找出学生学习过程中的事件序列关系等等。[9]
在教学系统中整合教育智能模块,将提高教学系统的性能,减少人工操作。融入教育智能模块的教学系统具有智能性、适应性、主动性等特征,能够部分解决目前远程教学系统相对于课堂教学存在的问题。教育智能在教学系统中的整合应用主要成果为教学系统中的推荐、预测、决策等智能应用模块。
实际案例:学习资源需求量预测模块的实现
研究者作为资源网站的学习资源管理者,根据学习者下载学习资源的时间序列数据,根据自适应回归树时间序列分析算法[10]建立挖掘模型,在后台建立“需求预测”模块,按照资源类别,指出未来一周学生学习资源需求量,用以指导安排课件制作。
第一步:建立辅助程序
首先需要建立预测表,见图3。它的数据来源为系统的下载记录表和课件表。由于下载记录表中的数据是按照时间顺序记录,而预测表按照周记录,并且要对各类型课件进行下载计数汇总,所以需要先在内存中建立一个中间表再使用辅助程序的FillTableAll()或UpdateTableAll()方法完成周汇总,然后将结果写入预测表。之后调用AMO的Process方法处理挖掘模型,以达到重定型的目的。最后在Windows计划任务中设置辅助程序定时执行。
第二步:建立分析服务项目
在这个项目中根据预测表建立数据源、数据视图、创建和处理预测挖掘模型,并设置安全级别,允许.net程序有权访问模型。所有操作可在vs中或sql企业管理器中执行。
使用DMX语言来描述建立该挖掘模型:
然后使用预测表数据训练模型:
部署模型后即可查看到模型的预测结果,当然在客户端图形化编程实现效果更佳。
第三步:建立后台预测结果浏览页面
页面后台代码使用DMX查询语言来检索预测结果。如查询英语类(id=1)课件下周预测下载量,客户端得到的返回表结构的数据,包含预测的日期(“7/20/2009”) 和下载量 (“50”):
表4 客户端预测呈现(只选取三类)
这样,我们将直观了解17大类学习资源的需求预测情况,根据需求,安排课件制作。这只是一个很简单的案例,在这个应用情境中,还可使用教育智能实现在线推荐等模块,根据学习者已学习的情况或类似背景学习者的情况推荐学习课件。
数据挖掘技术虽然在教育领域应用已取得一定成绩,但往往是孤立化解决问题,尚未形成完整的主题。本文首次提出教育智能的概念,并针对移动学习情境中学习资源建设的基础研究、教育决策和教育智能在教学系统中的整合三个层面进行应用研究,以案例的形式展示了教育智能的应用层次和解决方案,对教育智能的研究与应用具有一定示范和参考价值。下一阶段的工作主要是继续深化三个层面的研究工作,通过综合教育理论和教育智能应用实践,归纳教育智能的应用领域、各种主流算法的应用环境和基本流程,尝试为教育智能的进一步发展构建框架。
[1]黄成.教育信息数据挖掘初探[J].现代远距离教育,2006,(4):64-66.
[2]王慧敏,陈泽宇,王敏娟,张驰.决策树技术在移动学习性别差异研究中的应用[J].现代教育技术,2009,19(5):30-33.
[3]Quinlan,J.R.C4.5:programs for machine learning[M].San Mateo:Morgan Kaufmann Publishers,1993.
[4]Marianne Kolbasuk McGee.Can Data Mining Save Our Schools[j].InformationWeek,2008(1208):23.
[5]ZhaoHui Tang,Jamie Maclennan.Data Mining with SQL Server 2005[M].Wiley Publishing,Inc,2005:230-238.
[6]张驰,陈刚,王敏娟,王慧敏.移动学习中片段式学习资源的设计研究[J].开放教育研究,2009,15(3):30-33.
[7]Peter Brusilovsky.Adaptive and Intelligent Technologies for WebbasedEducation[EB/OL].<http://www2.sis.pitt.edu/~peterb/papers/KI-review.pdf,1999/2009>.
[8]Zaiane,O.R.Building a recommender agent for e-learning systems.In proceedingsof the International Conference on Computers in Education(ICCE'02),pages 55-59 vol.1,3-6 Dec,2002.
[9]宋江春,陈文林.web使用挖掘及其在远程教育教学支持服务中的应用研究[J].中国远程教育,2005,(7):62-64.
[10]C.Meek,D.M.Chickering,D.Heckerman.Autoregressive tree models for time-series analysis.In Proceedings of the Second International SIAM Conference on Data Mining,pages 229-244,April 2002.
2009-08-20
王慧敏,在读硕士;陈泽宇,副教授,博士;张驰,在读硕士。上海交通大学现代远程教育研究发展中心(200030)。
王敏娟,副教授,博士,美国圣地亚哥州立大学教育技术系。
责任编辑 郑 重
G40-057
B
1009—458x(2010)01—0068—04