[摘 要]文章以数据挖掘技术为基础,分析了当前流行的数据挖掘技术的方法及应用,提出构建以教学资源质和量、教学资源高效利用和教学资源科学管理三个方面支撑的教学资源整合理论框架,为教学资源的整合提供基本的决策知识,使教学资源的开发和设计与远程网络教学相适应,为教学资源的建设、高效利用以及教学资源的科学管理提供了理论参考依据,并通过实验对部分模块进行了验证。
[关键词]数据挖掘;远程开放教育;网络教学资源
[中图分类号]G434 [文献标识码]A [文章编号]1008-7656(2018)05-0009-07
引言
广播电视大学的远程开放教育是在不同的时间和空间条件下,将现代网络通讯技术和多媒体技术有效地结合,实现了实时和非实时的交互式教学模式,学习者利用有效的信息技术手段随时随地进行个别化自主学习。远程开放教育近些年得到了长足的发展。其中语义网、本体构建和数据挖掘等智能信息处理技术应用于现代远程教育,不少学者都做了广泛的研究。徐林针对远程教育资源整合的难题,提出了面向服务架构(SOA)的远程教育资源整合的系统框架[1]。穆肃针对当前远程开放教育机构知识管理的实际情况,利用语义网、本体工程和知识加工处理研究了远程开放教育知识管理系统概念模型的构建[2]。陈登科等从教学流程探索了数据挖掘技术在现代远程教育的应用,分别从选择教学对象和授课老师、远程教育资源库建设、实时教学、实时考试几个部分使用不同的方法给出了具体的应用实例,最后使用XML语言进行了实现[3]。陈立建针对当前远程教育系统的不足,探讨了基于Web数据挖掘技术的远程教育系统框架:个性化教育平台、教育网站的设计、在线答疑及考试系统等,充分发挥网络教育中的优势,提高网络教育的质量[4]。在当前大力发展远程教育的背景下,文章介绍了主流的数据挖掘技术,提出了将进化神经网络的数据挖掘技术应用于远程教育教学资源整合中,并构建了资源整合理论框架。
一、基本概念
远程教育(Distance Education):通常指师生通过通讯媒体进行的非面对面的教育,本质特征是教与学的行为在时空上是分离的,它具有以下特征:准永久性分离、媒体与技术的作用、双向通信、教育组织通过规划和准备学习材料以及提供学生支助服务对学生学习产生影响,以区别个人学习和自我教育。
数据挖掘(Data Mining):从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,具有为用户提供问题求解的决策支持能力[5]。
教学资源:指各种各样的媒体与所有可用于教育教学的物质条件、自然条件以及社会条件的总和,包括网络资源、计算机软件和硬件、教学内容和教学信息的各类媒体资源、信息技术服务等。
二、数据挖掘的过程、方法及应用
(一)数据挖掘的基本过程
数据挖掘是一个完整的过程,是通过与用户不断的交互,对不同阶段的挖掘结果进行不断反馈完成的,整个过程如图1。
问题定义:一是明确实际工作对数据挖掘的要求;二是确定可用的学习算法。
数据预处理:一般包括消除噪声、推导计算缺值数据、消除重复记录和完成数据类型转换。
挖掘算法执行:一是要确定挖掘任务;二是要决定使用哪种算法。
解释和评价:剔除冗余或无关的模式;对不满足用户要求的模式,则需要退回到前一阶段。采用的数据挖掘技术的有效性和用于挖掘的数据的质量和数量,是影响数据挖掘质量的好坏两个主要因素。
(二)数据挖掘的方法及应用
数据挖掘的方法有模糊数学类方法、可视化技术方法、知识发现类方法、统计分类学方法、仿生物技术类方法。目前这些方法在远程教育方面的应用还处于研究阶段。
1.知识发现类方法及应用
主要包括:决策树方法、粗糙集方法和关联规则分析。关联规则分析方法基本原理是假设I是项的集合,对一个交易数据库D,每个事务t是I的非空子集,每个交易都与一个唯一的标识符TID对应。关联规则在D中的支持度是D中事务同时包含X,Y的百分比;置信度是包含X的事务中同时又包含Y的百分比。关联规则方法在远程教育应用中,董彩云[6]等给了完整的数据挖掘系统设计与实现过程,并改进Apriori算法[7]以提高挖掘的效率。在实际应用中通过挖掘结果指导学员选课,帮助学员更好完成各门功课。学生可以了解在选某一门课时,要先选哪几门课作为基础课,有利于学生进行科学地选课和学习。郑春香[8]等在考试系统中应用Apriori算法对学生的答题结果进行挖掘。因此,关联规则方法关注的是算法本身,而较少考虑这些算法是否适合远程教育资源的挖掘。
2.统计分类学方法及应用
统计学的原理在数据挖掘中的应用实例是比较广泛的,已形成一门独立的学科。主要包括统计、回归分析、差异分析和聚类方法。聚类方法又分为划分聚类方法、网格聚类方法、密度聚类方法和网格密度相结合的聚类方法。王新颖等提出基于关联规则和超图分割聚类方法,对远程教育网站的Web网页及用户进行聚类[9]。在远程教育应用中,也有部分学者研究了远程教育学习者需要从听课、作业、讨论到考试一整套学习过程进行考核,使用K-means聚类算法[10]对记录的多项考核指标聚类分析,并将考核指标与学习者的总结性评价联系起来,克服了过程考核评价体系的参数指标通常是根據经验来设定的缺陷。同时在远程教育个性化学习中,为了减少学习者特征数据的冗余信息,也可以将粗糙集理论[11]与聚类算法相结合,主要是解决K均值聚类算法对学习者特征数据的属性冗余的敏感性问题,能较好的处理噪声数据,可以提高聚类算法的效率并适合于远程教育个性化教学的应用。
3.仿生物技术类方法及应用
该类方法的核心思想是模仿生物某些行为活动,将这些活动通过计算机程序来模拟实现,主要有神经网络方法类和遗传算法。
部分研究者针对远程网络教学资源共享应用中难以满足用户需要,通过遗传算法优化搜索引擎和资源调度,提高网络教学资源搜索和共享的效果,使广大师生在教学过程中获得优质的教学资源。在电大试点总结性评估系统的应用中,使用模糊BP神经网络方法,开发FBPNN学习、知识库和FBPNN推理机等子模块。模糊神经网络模块负责知识获取、存储和求解。知识表达的规范化和表达式转换由输入/输出模式转换负责。在评估应用中,可较好的实现电大总结性评估,减少人为不确定性因素干扰,增强科学性和标准性。针对神经网络所表现出来的优势,在现代远程教育教学质量评价系统中使用BP神经算法,构建数学模型,输入不同的评价指标,输出教学效果,科学、准确地评价现代远程网络教育教学质量和教学效果。
为了更好地解决现实中的问题,突出各自的优势,将遗传算法和神经网络相结合形成了一种新颖的进化神经网络研究领域[12],得到许多有价值的结论和成果。
三、数据挖掘在远程教育应用中存在的问题
为了让电大远程开放教育更好的适应我国国情和社会发展的需要,1994年4月,“中央电大人才培养模式改革和开放教育试点”项目在全国省市电大启动,但随着社会的发展和科学技术的进步,传统的教学模式已经不再适应电大远程教学需求,而数据挖掘逐渐地被应用于远程教育中,但也存在如下问题。
(1)消极的学习态度和被动的学习行为,知识创新不够。在远程教育中,主要群体是成人学生,而且大多数学生是业余学习,学习时间少、任务重,不少学生对这种开放教育学习模式存在偏见和消极态度。被动的或带着情绪去学习,没有任何学习兴趣,不是主动参与到学習中来,很少有探索式的学习方式,学生的学习行为数据就很难收集。
(2)获取的数据质量不高。在远程教育中,主要群体是成人学生,而且大多数学生是业余学习,学习时间少、任务重,被动的或带着情绪去学习,在数据挖掘中,对所需要获取的数据的真实性难以保证。
(3)挖掘目标不明确。在远程教育中,学习资源是海量的,不同的学生学习目的和学习方法都不相同,在实际应用中,要挖掘有意义的知识和规则就比较困难。
(4)较难获取个性化特征的数据[13]。由于学生的基础知识水平不同,学习条件和学习环境的限制,因此存在某些学生学习效率很低,很难在远程教育学习过程中获取有个性特征的数据。
(5)数据量大,噪声数据多。在中西部部分地区,远程教育设施落后,无论教学硬件和教学软件都比较落后。而远程教育中电子学习资料及各种资源数据量特别庞大,也没有系统地对这些资源进行分类和预处理,文字错误较多,教育技术和教学条件还不能满足远程开放教育的需求。在挖掘的目标数据中,产生了大量噪声数据和没有意义的数据,这对挖掘结果产生很大的影响。
四、基于数据挖掘技术的教学资源整合理论框架
在国外发达国家中,美国的远程教学资源丰富,英国在教学资源的质量方面成果显著,日本则充分利用丰富的媒体手段,保证教学资源的有效利用以及教和学的互动。我国当前的远程教学资源的数量丰富而实用性不强,存在资源冗余性、共享性差、利用率低的缺点。针对这些不足,文章从教学资源的质和量、教学资源的高效利用、教学资源的科学管理三个方面进行了分析并进行优化,建立了一个基于数据挖掘技术的远程开放教育教学资源整合的理论框架,见图2。
该理论框架是基于数据挖掘技术,以整合远程教学资源质与量的为核心,教学资源的高效利用为目的,教学资源的科学管理为保障,不断优化教学资源,满足社会整体的需求而构建的。
该框架的理论分析:第一,远程开放教育的宗旨是为满足社会的整体需求和人的全面发展和素质提高提供公平的教育机会。因此,远程教学资源应以满足社会发展和人的素质提高为目标,教学资源的质和量、高效利用和科学管理都要围绕这个目标而发展,并形成三者之间的交互反馈优化和耦合协同作用;第二,结合电大教学与当地经济发展状况,以教学资源质和量的建设为基础,利用数据挖掘技术不断优化教学资源,结合电大自身的教学特色,面向市场需求和社会需求,在财力、人力和物力许可的情况下,不断优化现有的远程教学资源是至关重要的。第三,在教学资源量和质得到优化的同时,如何高效的利用这些资源为远程教学服务是必须的。开发资源快速检索系统和实时资源利用评估系统可以提高教学资源的利用率。资源快速检索系统可为学习者以最快的速度获取所需要的资源和在第一时间掌握最新的成果和前沿技术研究动态,教学资源检索系统逻辑架构图如图3所示。
实时资源利用评估系统可为广大师生利用教学资源提供指导,有利于教师对教学资源的整体把握和重新认识,学生对教学资源的认识和兴趣度的提升。最后,教学资源的科学管理是提高资源利用率的关键,通过对现有的管理模式的挖掘,管理者将作出最适合于当前远程教学资源管理的决策,师生参与和意见反馈,不断发现和改进现有管理模式的缺点,以加强教学资源的管理;网络化和交互学习是远程开放教育的基本特征,也有利于师生参与和意见反馈,实现三者之间的良性互动与可持续发展。
该理论框架与社会需求和人的素质提高存在互动关系。三者之间不是相互孤立的,而是互为联系,相互影响。教学资源的量和质是资源高效利用和科学管理的物质基础;教学资源的高效利用是资源的量和质、科学管理的重要体现;教学资源的科学管理也是资源质量的重要保障,三者之间缺一不可是整个理论框架的重要保证。
五、挖掘试验结果及分析
根据以上的原理和方法,本文对广西电大网络学习平台及关联平台的网络教学资源进行统计分析和知识挖掘处理。收集和统计的实验数据是该系统从2015年6月到2018年7月的各种教学资源,如图3所示。
根据图4所统计的数据,学习平台的教学资源主要是以视、音频等多媒体资源为主,其中视、音频媒体文件比重较大。约占教学资源总量的70%,而图片资源和网络课件的总量所占比例小,是相对薄弱的环节。从各种资源的访问量来看,视、音频媒体资源访问总量大,由于电大的教学模式主要是基于计算机网络的远程开放教育模式,因此,制作更多的流媒体资源,可以在一定程度上缓解了偏远地区对远程教育所带来的压力。
从以上结果分析出,随着电大教学模式不断改革和创新,流媒体教学资源需求量稳定的增长,而文本资源的增量相對缓慢一些。教学资源的开发和设计与电大的网络教学模式相适应。
本文在教学资源挖掘实验中,目的是挖掘访问者对哪些类型、哪些领域的教学资源感兴趣,以此验证理论框架中由形式丰富的知识挖掘学习者感兴趣的教学资源模块。本文以2015年至2018年网络学习平台数据库中资源表、栏目表、专业表、课程表中的数据为试验对象,进行挖掘分析。
实验硬件环境:CPU:AMD Athlon Ⅱ Dual-Core M320,主频2.1G;内存:2G,硬盘250G。
实验软件环境:操作系统:Windows XP Professional,在Visual C# 2005.net平台上实现Apriori关联规则挖掘算法;数据库Microsoft SQL Server2005,Microsoft Access 2003。初始组合字段数据表的总数据量有23180条记录。
实验步骤:
Step1,使用平均值和同类属性值填充空缺数据,使数据表保持完整性。
Step2,将不同数据库中的数据表进行集成,并同时完成文件的格式转换。
Step3,对文本数据进行规范化处理,并同时对数字数据和类别数据进行编码。
Step4,在不同数据表中,选择与挖掘相关的数据字段,本文初步选择了文章标题、专业名称、栏目名称、学科名称、访问次数、IP地址、资源类型和时间等八个数据字段,随机选择不同字段进行组合,同时多次随机抽取表中一半的数据,通过神经网络算法学习数据值之间的强关联性,找出最优的字段组合,将随机组合的字段进行优化组合。
Step5,最后得到优化后的数据字段组合,分别建立新的数据表。
由于挖掘目标是与不同类型的访问者相关,每个组合中都需要保留访问次数字段,经过神经网络学习后,得到如下的字段组合,如下页表1。
根据组合体1初始查询到的数据有25062条,经过消除冗余处理后得到6347条数据;对组合体2经过消除冗余处理后得到804条数据;对组合体3经过消除冗余处理后得到878条数据;组合体4初始查询到32237条数据,经过消除冗余处理后得到4857条数据。教学资源关联规则知识挖掘及实现界面,如图6所示。
在字段组合体1中,关联规则支持度为0.01,最小可信度为0.3;在字段组合体2中,关联规则支持度为0.01,可信度为0.6;在字段组合体3中,关联规则支持度为0.01,可信度为0.6。挖掘得到的规则如表2所示。
对表2中的规则进行分析和取极小可信度进行合并处理后,得到如下的关联规则知识。
在组合体1规则中,管理学中行政管理专业的学生经常访问的是超链接媒体的教学资源,可能性至少有36%。
在组合体2规则中,外网用户经常访问的教学资源是视频课件的内容讲解、导学和考试辅导,可能性至少有62%;不论内网和外网的用户经常访问的是教学资源的教学辅导这一栏目,可能性至少是63%。
在组合体3规则中,经常访问的教学资源是视频课件的超链接媒体资源,该超链接可直接打开视频或下载附件,可能性至少有64%;经常访问教学资源的是教学辅导这一栏目中的文本资源,可能性至少有62%。
通过以上挖掘得到的知识,对学校的远程教育教学资源建设和指导管课的责任教师在教学方式改革和收集、整理教学资源素材方面有较大的意义,可以较好地发掘不同类型的学生对不同类型的教学资源关注,更好地指导学生开展远程教育自主学习。
六、结束语
文章介绍了智能信息处理技术应用于远程开放教育中的研究现状,并重点分析数据挖掘技术的方法及在远程教育中的应用,提出将进化神经网络应用于远程教育教学资源整合过程,分析了数据挖掘在远程教育教学过程中出现的问题,在对比国内外在远程教育教学的各自优势的基础上,建立了基于数据挖掘技术以远程教育教学资源的质和量、资源的高效利用和资源的科学管理三个方面为支撑的教学资源整合理论框架。该理论框架为我国远程教育教学资源整合提供最优的决策建议,对我国教育教学资源整合与共享、促进高校信息化建设有着重要现实意义。
[参考文献]
[1]徐林.基于SOA的远程教育资源整合系统研究[J].微电子学与计算机,2007(6).
[2]穆肃.语义网技术支持的远程教育机构知识管理系统概念建模的研究[D].广州:华南师范大学,2007.
[3]陈登科,胡翠华.数据挖掘技术在远程教育中的应用[J].情报科学,2003(4).
[4]陈立建. 基于Web数据挖掘技术的远程教育系统构建[J].中国成人教,2010(6).
[5]董彩云,刘培华.数据挖掘技术在远程教育教学中的应用[J].计算机技术与发展,2009(2).
[6]Agrawal R,Srikant R. Fast Algorithms for Mining Association Rules. In:Proc of the 20th VLDB Conference Santiago,1994:1-4.
[7]郑春香,韩承双.关联规则研究及在远程教育考试系统中的应用[J].计算机技术与发展,2009(8).
[8]王新颖,张文华.基于关联规则的聚类挖掘在远程教育中的应用[J].现代远距离教育,2008(4).
[9]Specht D F, Romsdahl H. Experience with adaptive probabilistic neural networks and adaptive general regression neural networks[C]. Proceedings of the IEEE World Congress on Computational Intelligence. USA: Ortando, 1994:1203-1208.
[作者简介]向俊(1982-),男,湖北恩施人,广西广播电视大学教育技术中心工程师,研究方向:数据挖掘、多媒体技术。
[责任编辑 吾 言]