数据仓库与数据挖掘教学实验平台构建研究

2013-04-29 00:39向阳郭鑫陈千黄震华
教育教学论坛 2013年9期
关键词:实验平台数据仓库数据挖掘

向阳 郭鑫 陈千 黄震华

摘要:本文在数据仓库和数据挖掘课程的特色和内容的研究基础上,讨论了该课程实验教学的重要性和意义,开发了教学实验平台。实践表明该平台能提供在线交互式教学,有效管理教学,激发学生积极性。

关键词:实验平台;教学管理;数据仓库;数据挖掘

中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03

一、引言

21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。

随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。

本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。

二、数据仓库与数据挖掘学科教学现状

随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。

市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。

1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平台完成实验。

2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。

3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。

4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。

三、数据仓库与数据挖掘学科教学实验平台的构建

为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。

1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。

2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。

(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。

(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。

维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。

3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。

4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。

5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。

6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。

7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。

四、数据仓库与数据挖掘学科教学实验平台的教学效果

在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。

(一)建设了数据仓库和数据挖掘课程的实验教学体系

1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。

2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。

3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。

4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。

(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境

本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。

(三)基于采样评估证明了远程网络实验教学的可行性和优越性

根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。

从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。

五、结论

在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。

参考文献:

[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12

[2]李旭晴.学科教学网站设计的应用探讨[J].计算机教育,2009,(02):1-2.

基金项目:同济大学实验教学改革项目专项基金支持(基于校园网的数据仓库与数据挖掘课程课外实验平台建设与应用)

作者简介:向阳(1962-),男,重庆人,博士,教授,博士生导师,主要研究领域为决策支持系统、人工智能。

猜你喜欢
实验平台数据仓库数据挖掘
探讨人工智能与数据挖掘发展趋势
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
云计算在职业院校中的应用与思考
分布式存储系统在液晶面板制造数据仓库中的设计
生物医学工程专业创新人才培养策略
探析电力系统调度中数据仓库技术的应用
基于LabVIEW的虚拟实验平台设计
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践