数据挖掘课程教学方法探讨

2018-05-14 01:45陈燕
教育教学论坛 2018年13期
关键词:数据挖掘课程体系大数据

摘要:国内外各大高校院所都非常重视数据仓库与数据挖掘课程的开设,尤其是在大数据环境下,数据挖掘的重要性更加凸显。本文详细分析了数据挖掘课程产生的背景,确立数据挖掘课程在计算机及相关专业的定位,梳理数据挖掘课程的理论方法与内容体系,强调注重理论与实际应用项目的结合,对指导数据挖掘课程的教学改革与创新具有重要的指导和借鉴意义。

关键词:数据挖掘;教学方法;大数据;课程体系

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2018)13-0146-03

一、引言

1.数据挖掘课程产生的背景。20世纪90年代,以美国信息工程领域专家数据仓库的倡导者Willian Inmon在他对数据仓库的定义中涵盖了数据挖掘的概念。数据挖掘概念正式提出是在1995年的美国计算机年会(ACM)上。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识的过程。目前国内外高校、研究部门均将数据挖掘作为重要的课程开设,KDD、ACM等信息科学领域的顶尖国际会议也将数据挖掘作为重要的内容展开研讨。

2.数据挖掘课程在计算机及相关专业的定位。数据挖掘课程属于多个学科的重要专业课程(如图1所示),主要包括数据库技术、计算机应用技术、统计学方法、机器学习、预测技术、软计算、信息科学、可视化、网络与电子商务等。

随着信息技术的发展与普及,如何从海量的数据中提取有用的和有价值的信息即知识,已成为信息技术研究的重要问题,数据挖掘已经成为国内外高层管理决策研究的重要领域。在各个业务领域都涌现出大量的数据挖掘应用案例,可以在大量的分散的业务数据中挖掘有价值的信息,并使信息得到增值,以提高业务管理过程的经济效益和社会效益。大数据也是在数据挖掘研究及应用普及的基础上发展起来的,学习数据挖掘课程对今后大数据方面的应用研究将积累重要的研究基础。

二、数据挖掘课程的理论方法与内容体系

1.数据挖掘课程的理论方法。数据挖掘课程的理论方法主要包括:数据与信息的存储理论,数据采集与整合方法,数据的泛化与标准化,多维数据组织与管理;数据库建立与管理决策;主题数据库与数据仓库、多维数据库建立;数据挖掘理论与方法、KDD(Knowledge Discovery in Database,数据库中的知识发现)、DSS(Decision Support System,決策支持系统)、预测与决策方法;结构化与非结构化数据挖掘;公共信息平台架构及应用环境;大数据理论技术及应用。

2.数据挖掘课程的内容体系。数据挖掘课程由理论课程体系、教材体系与实验体系三部分组成。(1)理论课程体系的主要内容包括:①数据预处理阶段。数据的采集技术,数据清洗,数据整合标准,多维数据的数据结构,数据集成技术,等等相关内容。②面向主题数据库的建立方法及多维数据库的建立方法。③数据的访问部分。数据挖掘模型系统(预测与决策支持系统),可视化、KDD、商务智能软件系统等。(2)教材体系主要包括如下内容:数据采集与存储、数据结构、数据库管理、数据仓库、数据挖掘、决策支持系统、智能商务决策等。(3)实验课程体系的主要内容包括:①数据预处理及相关工具的应用。以运输企业动态监控管理与决策分析为例,主要的实验内容是运用GPS、RFID传输运输途中所产生的数据进行采集、存储与处理。熟练掌握在数据挖掘过程中如何采集和处理数据的方法及全部过程。②数据整合理论与方法的实验。通过对车载设备的GPS、RFID及运输途中相关业务数据的整合,让学生们熟悉掌握来自不同系统的数据结构形式以及如何在计算机内部存储和处理。③数据的存储管理。EDI、RFID、GPS、传感器等相关数据及运输途中动态产生的数据,对整合与标准化后的数据进行存储与管理。④对运输车辆进行动态监控与科学管理。通过GPS显示在GIS上的经纬度、车辆速度等信息,检验车辆运行的安全状态,车辆的超速、异常状态报警等监管功能。⑤数据挖掘模型系统的建立。快速发现知识算法,K均值算法,SVM算法,EM算法(最大期望算法,Expectation Maximization Algorithm),C4.5算法;PageRank算法(网页排序),贝叶斯分类算法,K最近邻(k-Nearest Neighbor,KNN)分类算法,Adaboost算法即自适应增强算法,CART算法即分类回归树算法。⑥常用数据挖掘工具。SPSS、SAS、R语言(R支持一系列分析技术,包括统计检验、预测建模、数据可视化工具)、WEKA(集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化)、Mahout(支持一些集群算法实现,都是使用MapReduce编写)、Matlab商业数学软件、Scala多范式编程语言、YALE开发工具、Python等。

三、数据挖掘课程教学方法探讨

1.数据挖掘理论教学的重点。(1)理解数据挖掘及相关概念,如:数据仓库与数据挖掘的主要特征,数据挖掘与KDD的区别,数据挖掘与商务智能的区别,数据挖掘与决策支持系统的区别。(2)数据采集、数据整合与集成、数据一致化标准化、多维数据存储理论与技术。(3)公共信息平台的架构建立方法与相关理论。(4)数据仓库的建立机制,面向主题数据库的建立方法。(5)数据挖掘理论、技术、模型与方法。(6)数据挖掘工具的应用。

2.数据挖掘工具的选择与应用。授课中应注重适合结构化与非结构化数据的数据挖掘应用开发工具。(1)结构化数据挖掘的常用工具包括Matlab、SPSS、SAS、SQL、Weka等。(2)非结构化数据挖掘的常用工具有Hadoop(MapReduce、HDFS)、Mahout、NoSql、Scala、R语言、YALE、python等。除此之外,还应该考虑当前选定工具的特点如何,需要从实际应用重点出发来选择适合的工具,比如R语言、python语言属于能够胜任结构化和非结构化数据的数据挖掘工具,如果某个应用需要图形界面友好且运算功能强大的工具,只需选择python语言;如果仅是一般的运算且对运行界面要求不高,则可选择R语言;如果仅需数值统计与一般的挖掘功能,则Matlab、SPSS、SAS均可胜任。

3.理顺数据挖掘与知识管理之间的关联(如图2)。

4.区分结构化与非结构化数据挖掘模型的建立机制。结构化数据挖掘模型主要包括预测模型系统(定性与定量预测模型及系统,如图3)、优化模型系统、决策模型系统、快速发现知识模型等内容。非结构化数据挖掘模型主要包括多媒体(图形、视频、声音等)挖掘模型系统、文本挖掘模型软件系统等。

5.注重理论与实际应用项目的结合。在讲授数据挖掘课程时,应明晰数据挖掘、数据仓库、公共信息平台之间的关联,学习建立数据仓库全过程的全部相关知识点。以科研项目作为示范应用,通过对一个实际研究项目的解析收到了良好的授课与学习效果。例如,将《东北亚航运中心公共平台建立》项目搭建的数据仓库架构体系作为讲课的重要内容,详细内容参见文献。该公共平台的业务主要包括六个组成部分:3G-MIS集成,异构数据集成,数据仓库系统,业务支撑体系,应用服务体系,应用工具系统。可以将一个大的复杂系统运用形式化定义与知识描述,使其各个子系统之间的内容层次分明而清晰。

四、小结

数据挖掘是一门重要的专业基础课程,必须具备多学科、多领域的理论知识,并结合实践应用提升学生的学习效果和专业水平。

参考文献:

[1]陈燕.数据挖掘技术与应用[M].第2版.北京:清华大学出版社,2016.

[2]许国根,贾瑛.实战大数据——MATLAB数据挖掘详解与实践[M].北京:清华大学出版社,2017.

[3]陈燕,张金松.大数据技术及其应用[M].大连海事大学出版社,2015.

猜你喜欢
数据挖掘课程体系大数据
以创新课程体系引领学生发展
民法课程体系的改进和完善思路*——以中国政法大学的民法课程体系为例
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
加强青少年中医传统文化教育的必要性及其课程体系构建
论普通高校国防教育课程体系的构建
基于GPGPU的离散数据挖掘研究