基于实例的本科数据挖掘课程教学探索

2013-04-29 00:44谭征孙红霞王立宏任满杰
计算机教育 2013年9期
关键词:教学探索实例

谭征 孙红霞 王立宏 任满杰

摘要:分析数据挖掘原理与算法课程在教学中存在的弊端,并基于数据挖掘课程的本质,阐述在以培养应用型人才为主的大学中,如何以实例为主线,贯穿教学过程,开设本课程的,思路和做法。

关键词:数据挖掘原理与算法;实例;教学探索

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

[4]高园园,吕庆文,数据挖掘课程的教学思考[J],医学信息,2009,22(11):23-24.

[5]谭征,孙红霞,王立宏,普通院校本科生开设数据挖掘课程的教学研究[J],福建电脑,2011,27(10):38-39.

[6]曾志强,本科数据挖掘教学研究[J],科教文汇(上旬刊),2009(10):26-27.

(见习编辑:刘丽丽)

猜你喜欢
教学探索实例
就地沥青热再生应用实例探讨
Catalan数及几种应用实例
内蒙古商贸职业学院国际商务会计人才培养的实验教学探索与实践
高职国际交流与合作背景下的剑桥商务英语教学探索
基于素质教育视角下的民族高校逻辑学教学探索与实践
高中数学课堂中德育溶合的探索
高分子材料与工程专业综合实验的教学探索
完形填空Ⅱ
完形填空Ⅰ