文/鲁江坤,重庆人文科技学院 计算机工程学院
大数据背景下数据挖掘课程实践教学改革与探索
文/鲁江坤,重庆人文科技学院 计算机工程学院
大数据背景;数据挖掘实践教学;WEKA 工具
近年来,随着大数据与移动互联网、物联网和云计算等新兴信息技术的深度融合,以及大数据在各行各业的创新应用,大数据已经引起科技界、产业界和政府的高度关注[1-5]。大数据隐含着巨大的社会、经济及科研价值。因此,通过有效地组织和应用大数据,建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,将极大地推动社会经济和科学研究发展。其中,大数据分析与挖掘技术,作为探测数据价值的关键手段,是大数据研究与应用的核心[5-6]。同时,各行各业的数据科学与工程专业人才需求呈现爆发式增长。
到2017年为止,目前已有两批35高校申请了数据科学与大数据技术专业。在上述背景下,高校计算机类本科专业开设数据挖掘课程是十分必要,且具有重要意义。通过数据挖掘课程学习,可以掌握数据预处理、关联规则、分类、聚类、可视化等技术,培养学生的计算思维能力,提高学生实践能力与创新应用能力,帮助学生形成科学思维和专业素养。但是,数据挖掘是一门具有前沿性、实践性较强的交叉学科课程,其内容主要涉及人工智能、数据库和统计学等多学科知识,从而导致数据挖掘课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题[7]。
在数据挖掘实践教学中,选择合适的数据挖掘工具是非常重要的。现有的数据挖掘工具可分为商用数据挖掘工具和开源数据挖掘工具两大类。其中,商用数据挖掘工具包括IBM 公司Intelligent Miner、Microsoft公司SQL Server Analysis Services、SPSS 公司Clementine、SAS公司Enterprise Miner等。但是,这些商用挖掘工具价格较高,且不能进行二次开发。因此,目前数据挖掘实验教学大多采用开源数据挖掘工具。开源数据挖掘工具主要包括WEKA(Waikato Environment for Knowledge Analysis)、RapidMiner、NLTK(Natural Language Toolkit)、KNIME(KonstanzInformation Miner)和R- programming 等。其中,在2005年8月召开第11届ACM SIGKDD国际会议上,怀卡托大学WEKA 小组荣获数据挖掘和知识发现领域的最高服务奖。
另外,实验数据是数据挖掘实践教学顺利开展的关键。在具体教学的过程中选择教材为《数据挖掘实用案例分析》,配套相应的案例进行实践教学,部分实验数据来自教材配套光盘,部分实验选择TipDM来完成实验。对于数据挖掘实验来说,还有一些数据集来自于用于数据挖掘实验的标准数据集主要来自于加州大学欧文分校(University of California,Irvine)公开提供的UCI机器学习数据集(http://archive.ics.uci.edu/ml/)。由于WEKA自带23个示例数据集,WEKA 可作为数据挖掘实践教学的首选工具,同时也支持学生选择其它开源工具。
整个教学的过程中选择的是WEKA3.8.1版本。作为数据挖掘开源工具,WEKA 汇集了最前沿的机器学习算法、数据预处理工具以及数据可视化图形用户界面,WEKA 主界面称为WEKA GUI选择器,通过Explorer(探索者)、KnowledgeFlow(知识流)、Experimenter(实验者)和Simple CLI(简单命令行)、workbench等按钮提供5种主要应用程序,并供用户选择。WEKA可以读取ARFF、CSV和C4.5等格式的数据文件,并支持JDBC 访问的各种数据库。ARFF(Attribute- Relation File Format)是一种WEKA 专用文件格式。ARFF 文件是ASCII 文本文件,用于描述共享一组属性(Attribute)结构的实例(Instance)二维表,表格中的行、列分别称作一个实例和一个属性。WEKA自带23个ARFF 文件位于安装目录的data 子目录下,可作为测试用示例数据集。WEKA 支持标称型(nominal)、数值型(numeric)、字符串(string)、日期型(date)和关系型(relational)等5 种数据类型。另外,WEKA 还支持通过JDBC将数据库字段类型映射到Java语言数据类型。
数据挖掘是一门与实际应用紧密结合且实践性较强的课程。实践教学环节中,首先教师详细讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。为了提高学生实践应用能力,数据挖掘理论课和实验课学时通常按2:1 分配。
?
下面通过一个实践教学示例介绍数据挖掘中决策树分类C4.5算法,并通过WEKA 工具从实验数据集中挖掘有用的规则或知识。
示例中C4.5分类器实验教学准备主要包括选用实验数据集、掌握决策树分类C4.5算法和掌握WEKA工具中Classify面板上测试模式用法等。
(1)选用实验数据集。实验数据集选取教材中配套的数据肝癌预测样本数据.xls,实验之前需要将其转为.csv格式。该数据集包含300 个样本和11个属性,其中描述属性10个,类别属性1个,类别属性DECISion包含是否复发两个值。
(2)掌握决策树分类C4.5算法。WEKA工具中J48是基于C4.5算法实现的决策树分类法,其分类性能可通过系列参数设置来优化,如图1(a)所示。
(3)掌握Classify 面板上测试模式用法。
WEKA工具支持4 种测试模式(Test options),一是“Use training set”,即直接将训练集样本用于测试,评估分类器预测性能;二是“Suppliedtest set”,即从一个文件中加载一组样本,评估分类器预测性能;三是“Cross-validation”,即通过交叉验证评价分类器,可在“Folds”文本框中输入交叉验证的折数;四是“Percentage split”,即取指定百分比的样本用于训练,其余样本用于测试,评估分类器预测性能。
示例中C4.5分类器实验步骤主要包括加载肝癌预测数据集、选择并设置C4.5分类器、设置分类测试选项、构建和评估C4.5分类器、决策树模型可视化显示等。具体步骤如下:
(1)加载肝癌预测数据集:在WEKA 预处理面板中单击“Open file”按钮,选择并打开data 目录中的相应.csv格式的数据;
(2)选择并设置C4.5分类器:首先单击Classify选项切换到Classify面板;然后单击Classify面板上部的Choose按钮打开对话框,并单击trees条目并展开子条目;最后单击J48选择C4.5分类器及默认参数设置“J48-C0.25-M 2”。注意:该步骤要求学生认真观察、分析C4.5分类器参数设置。
(3)设置分类测试选项:从单击Classify面板中“Test options”选择Use training test选项,以确定测试策略;提醒学生可以尝不同测试模式的效果。
(4)构建和评估C4.5分类器:单击Classify 面板中Start按钮,通过训练集构建C4.5分类器,然后对所有训练样本进行分类来评估性能,并在Classify面板右侧“Classifier output”区域显示训练和测试结果的文字描述。注意:该步骤要求学生仔细观察、分析分类器输出的文字描述。
(5)重复(1)~(4),如果更改数据集、重设分类器选项或调整测试选项,每次单击Start 按钮,都会构建和评估一个新分类器,并在Classify 面板左下角的“Result List”上添加相应的新条目。
(6)决策树模型可视化显示:在Classify 面板中单击右键“Result List”中“trees.J48”条目,在弹出菜单中选择“Visualize tree”菜单项,学生能够非常清楚的看出结果的可视化效果。
采用WEKA工具实施数据挖掘实验过程中,要打破验证实验方式。针对数据收集整理、数据挖掘实施、结果显示及分析等每一个步骤,学生必须自主制定实验方案,自主完成实验。特别是在实施WEKA数据挖掘前,学生要清楚了解相关算法原理、各种参数含义以及对数据要求等。例如,本示例中学生要了解以下4个问题:(1)如何控制分类树的精度;(2)如何处理不完整数据;(3)如何对连续属性进行离散化;(4)如何在决策树构造过程中进行剪枝。同时,教师在学生实施挖掘实验时要加强巡视,对算法中参数设置、数据要求等可能出现的问题要及时启发提示、释疑, 并引导学生实施参数调整,查看其对挖掘结果的影响。
数据挖掘是一门理论与实践并重且涉及多学科的交叉学科课程,本科教学应当培养学生计算思
维能力,侧重学生的实践应用能力。WEKA 是用Java 开发的数据挖掘著名开源软件,在开源数据挖掘工具WEKA 平台上进行了数据挖掘算法实验、测试、分析和二次开发,可以获得更好的教学效果。另外,WEKA 安装目录中有几个文件值得关注:WekaManual.pdf 是WEKA 用户手册;weka-src.jar 是打包源程序,可以解压供学生学习、研究和分析相关数据挖掘与机器学习算法源代码;RunWeka.ini是运行WEKA 的配置文件。
[1]陈恩红,于剑.大数据分析专刊前言[J].软件学报,2014,25(9):1887-1888.
[2]吴信东,叶明全,胡东辉,等.普适医疗信息管理与服务的关键技术与挑战[J].计算机学报,2012,35(5):1-19.
[3]周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学报,2015,26(11):3026-3042.
[4]宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,60(5/6):534-546.
[5]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[6]梁吉业,钱宇华,李德玉,等.大数据挖掘的粒计算理论与方法[J].中国科学:信息科学,2015,45(11):1355-1369.
[7]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014(12):89-92.
随着大数据与移动互联网、物联网、云计算等新兴信息技术的深度融合,以及大数据在各行各业的创新应用,在计算机类专业本科生中开设数据挖掘课程变得十分重要。然而,数据挖掘是一门理论与实践并重且涉及多学科的交叉学科课程,导致本科生学习该课程面临较大难度和挑战。因此,培养学生计算思维及实践应用能力,并让他们体验实践教学对完成教学目标尤为重要。本文重点讨论以开源数据挖掘工具WEKA 为平台进行实践教学的思路,并给出WEKA 数据挖掘实践教学实例。
编号:16CRKXJ11,名称:以项目驱动的《数据挖掘》课程改革的实践探索,重庆人文科技学院校级项目研究成果。