洪建峰
随着网络的普及,远程教育作为一种新兴的教育手段和教育方式正迅猛发展,全国广播电视大学系统、开放大学系统、各高校网络学院等,都在大力发展远程教育。远程教育是随着计算机网络技术和多媒体技术的发展而产生的一种新型的教学形式。它与传统教育的不同之处在于:人们可以不受时间和空间的限制,随时随地进行交互式的学习活动,获取优秀的教学资源,打破了传统教育的时空限制,为学生提供了新的学习空间和时间,新的教学形式有利于学习者自学能力的增强、知识面的拓宽、综合素质的提高,远程教育推动着高等教育的大众化和终身化。
我们同时也看到,当前的远程教育,主要依靠学习者的自主学习、学校小组的网上交流、学生与教师之间在网上互动。由此可以看出,教师只能通过远程教育平台,才能获取学生学习情况,并根据学生对知识内容的接受和掌握情况布置作业、制定答疑方案,更新网络课程内容,从而提高远程教育的教学质量。但是远程教育中学生和教师的网上互动,还不能做到课堂上那么直接、迅速,教师也不可能及时做出反应和内容调整。并且随着远程教育的发展,远程教育人数的增多,学习者的各方面情况越来越复杂,如学习者的知识基础、思维方式、接受能力、学习习惯、兴趣爱好、生活条件等。如何能为每个学习者提供针对性强的远程教育服务,是一个十分值得研究的课题。
为此,现代开放远程教育应该由传统教育的“以教师为中心”转变为“以学习者为中心”,更好地为学习者提供各种教学支持服务。我们应用的现代远程教育平台,其后台数据库中保存着大量与学生有关的数据,但这些数据不是信息。我们要运用数据挖掘技术,从这些海量的数据中挖掘所蕴涵的有益信息,并应用到远程教育平台上,为学习者提供更加优质的教育支持服务。
数据的挖掘,开始于20世纪 80年代,伴随人工智能技术的发展而产生的,虽然发展历史不长,但在理论和技术上已取得重要进展。数据挖掘就是从大量的、不完全的、噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又是潜在有用的信息和知识的过程,并将数据转换成有价值知识的一门新兴技术。
数据挖掘的一般过程是:确定进行数据挖掘的数据来源;对源数据的处理,即数据采集、数据预处理和发现关系;建立模型,完善模型和应用模型,如图1所示:
图1 数据挖掘过程
1) 确定数据来源:远程教育平台除了是一个学习平台以外,它还是一个丰富的数据源,其中隐藏着大量的有用数据。
2) 数据处理:对数据源进行采集、预处理,从而发现数据之间的关系。由于传统数据库技术是以单一的数据资源,以数据库为中心进行各种类型的数据处理工作,而不同类型的数据处理有不同的处理特点,若数据库的数据缺乏组织性,则数据库中隐藏的信息将难以用查询和统计方法展示出来。
采集数据是远程教育平台数据库中隐藏着的大量数据,如每个学生以自己的学号、账号登陆平台,系统根据学号记录学习行为,有访问时间、访问频率、访问资源类型、参加的 BBS、停留的时间等;数据预处理是对于远程教育平台中记录的各种数据,要先去掉原先无用的数据,并进行数据归类,为数据挖掘做准备。发现关系是发现远程教育平台数据中的关系,如学习者的学习行为与资源类型的关系等。
3) 建立模型:根据数据关系,建立模型,并对模型进行完善,以便能满足实际应用的要求。
4) 应用模型:对建立的模型,应用到实际系统中,通过对远程教育平台中的数据进行挖掘,可以直接应用到平台的功能建设与更新。
数据挖掘方法可分为描述、分类、聚类或发现关联规则和序列模式等。
1) 关联分析:是为了挖掘出隐藏在数据间的相互关系,找到隐藏的关联规则。
2) 序列模式分析:分析数据间的前后或因果关系,就是在实践数据中,找到那些“一些项跟随另一些项”的内部事务模式。学习活动序列模式挖掘问题由于其数据源和需要挖掘的模式的特殊性,许多问题有待解决。如访问序列的集成,学生感兴趣的序列模式上的约束表达及带约束的序列模式挖掘算法等。
3) 分类和聚类分析:其输入集是一组记录集合和集中标记,所谓标记是指一组具有不同特征的类别。目前,已有很多种分别分析模型得到应用,其中的几种经典模型是线形回归模型、决策树模型、基于规则的模型和神经网络模型。聚类分析法不同于分类规则,其输入集是一组未标定的记录,也就是说次数输入的记录还没有进行任何分类。其目的是根据一定的规则,合理地划分记录集合,并用显式和隐式的方法描述不同的类别,目前已开发出很多的聚类分析工具。
4) 孤立点分析:经常存在一些数据对象,它们不符合数据的一般模型。这样的数据对象被称为孤立点,它们的数据与其他部分不同或不一致。在远程教育中存在的孤立点学生、教师可以对其情况进行具体分析给予指导,也可以合理的排除它们,使孤立点的影响最小化。
数据挖掘在现代远程教育中有很多应用,以两个方面为例,介绍其模型在实际中的应用。
要实现远程教育个性化服务,关键是在学习个体的数据进行差异化的分析与处理。首先,需要对参加学习的个体情况进行分类与安排相应的教学内容和进程;其次,在学习的过程中,知识表示的内容需要根据对学习者的个性要求具有不同的形式;最后,就是要对每个阶段的学习进行相应的评估与反馈。我们确定学生的注册信息(如学生在申请接受远程教育时提交的个人注册信息,包含性别、年龄、文化程度、兴趣爱好、学习目的等),学生的行为信息(如学生通过网络学习的时间、活动记录、测试情况等)以及课件库(如各类例题、自测题、图片、动画、音频、视频等教学素材)等为数据源。
利用数据挖掘的基本方法,根据学生的兴趣爱好和自身情况对学生进行分类,为学生推荐有关课程、知识点或者学习资源,并在学生学习过程中利用分类和聚类分析不断调整,因材施教,传给不同类型的学生不同的学习内容;根据学生的问题、测试成绩挖掘关联规则,给学生指出没有掌握的知识点和学习建议,并且可以提供给学生针对没有掌握的知识点的补充资源,以便学生尽快掌握;教师根据每个学生的个性、学习行为、学习反馈,及时调整教育策略,制定适合学生个性的教学内容和教学活动等。数据挖掘技术的应用使远程教育能够根据学生的具体情况安排教学,因材施教、最大可能地提高远程教育的作用和效率,推动高等教育的大众化和终身化。
在教学资源建设方面,我们以远程教育平台的数据库为数据源,以学习者的网上学习行为为数据源,寻找学习者关注度(学习者学习时间为指标)与教学资源建设的关联关系,建立模型,从而来调整教学资源的建设策略,从而提升教学资源的质量。
采集学校直属学院,2008年级会计学专业284名学生的网上学习时间为数据源,以2012年秋季学期,共有7门课程供学生学习,全学期7门课程共有87364人次的访问量,学生在线学习总时间达到5577.48个小时。各课程学生上网时间分布情况,如图2所示:
图2 各课程学生学习时间总数分布情况
从图2中可看出,课程二、课程四比较受到学生的欢迎与关注。分析原因后发现,课程二为《审计案例分析》,课程四为《会计案例分析》,而这2门课程资源中包含有各种案例与分析,教学内容比较吸引学习者的学习兴趣。
再以对课程二的数据为数据源,我们进行了详细分析,学生对各个学习栏目关注度情况,如图3所示:
图3 学生在各个栏目学习时间分布比例情况
从数据中,可以看出,学生对教学辅导的关注度要比其他的内容要明显得多,因为教学辅导内容是课程学习的主要内容,其包含有各种教学知识点、教学难点与教学重点,而交流互动方面,也深受学生的关注,特别是实时在线交流与非实时在线提问、答疑对学生帮助都比较大,所以深受学生的关注。在线测试为检验学习效果的重要手段,结合记分作业、单元测试等内容,与学习者的最终成绩有密切关系,也受到学习者的关注。
对教学辅导的内容再进行分析,教学辅导的内容主要包含有:教学文档、教学PPT、教学视频、案例分析以及其他内容等组成。学生对各种教学内容的关注度情况,如图 4所示:
图4 学生对各类教学内容的关注情况
教学文档主要展示的课程的重点、难点,受到的关注度也比较高,教学 PPT可通过下载到本地后再观看,学生在线观看比较少。教学视频是教学的重要内容,受到学习者的重点关注,有36%多的学习时间在观看视频。案例分析的内容具有实用性,所以,也能吸引学生的关注。
通过对学生大量反馈信息的提取建立数据模型,把无以计数、若隐若现的信息碎片组合成具有决策价值的信息拼图,数据挖掘为我们提供了一种新的思路。
远程教育教学活动作为一个有机的整体,各教学环节之间有密切的关系,这种关系是提供个性化教育的关键,个性化的现代远程教育系统,将是一个具有智能的系统,系统能够根据学生的不同个性特点和需求进行教学与提供帮助,使得学生学习,从原来被动的信息索取转变成主动获取信息。同时根据学生比较关注的教学内容、教学形式,调整教学内容建设的策略,从而提高学生的学习兴趣,提升学习效果,推动课程建设,促进远程教育的发展。
[1]刘彤.Wb数据挖掘技术在个性化远程教育平台中的应用[J].科技信息,2008,(21)
[2]张林. 数据挖掘技术及其在高等教育教学中的应用[J].宿州学院学报 , 2011,(02)
[3]零芷婕. 数据挖掘技术及其在高校图书馆中的应用[J].内蒙古科技与经济 , 2010,(10)
[4]徐晓伟. 浅谈数据挖掘技术[J]. 福建电脑 , 2008,(12)
[5]马骋超. 数据挖掘:“勘探”智慧的方法[J]. 上海信息化 ,2010,(04)
[6]朱祖林,毕磊,齐新安,李莹,陈彦彦,宋阳. 现代远程教育辍学率的挖掘分析——基于安徽地区 1999-2009年数据[J]. 远程教育杂志. 2011(04)