应用型本科数据挖掘技术课程教学方法的探索

2022-07-10 01:31周长敏佘佐明杨光临
凯里学院学报 2022年3期
关键词:贝叶斯数据挖掘分类

周长敏,佘佐明,杨光临

(凯里学院,贵州凯里 556011)

0 引言

为积极响应国家的大数据战略,国内众多高校开设了大数据相关专业.截止到2021 年2 月,我国开设大数据相关本科专业的院校已达730所.凯里学院属于地方院校,学校的人才培养目标是为民族地区经济社会发展培养具有创新精神和实践能力的应用型人才,根据学校的培养目标确立数据科学与大数据技术专业的人才培养目标是培养具有创新实践能力和大数据处理、分析能力的应用型人才.2018年凯里学院获批开设数据科学与大数据技术专业,数据挖掘技术作为数据科学与大数据技术专业的主干课程,是培养学生数据处理与数据分析能力、创新实践能力的重要课程之一.数据挖掘技术课程的内容涉及线性代数、微积分、概率统计、数据库、数据结构等数学、统计学、计算机科学的知识,是一门难度系数较高的综合性课程.地方应用型本科院校的学生普遍存在数学基础知识薄弱的问题,在数据挖掘课程教学过程中如果把重点放在大量的算法理论和公式推导上,学生会感到课程内容晦涩难懂,容易产生畏难情绪,从而失去学习兴趣.应用型本科院校学生对实验课的兴趣远远大于理论课,因为实验成果能够让学生获得成就感,因此探索如何以实验教学带动理论教学,对于激发学生学习兴趣和提高数据挖掘课程教学效果是非常有必要的.

在数据挖掘课程的教学研究方面,李艳玲[1]对数据挖掘实践课程的教学模式进行了研究,提出了注重前导课、理论课和实践课衔接的教学方法.刘波[2]等人在数据挖掘实践课程的教学中采用了小组协作学习和项目式学习的教学模式.刘梦娟等[3]对数据挖掘课程的挑战性综合实验的设计进行的研究.以上的研究取得了较好的教学效果,值得借鉴,但对于地方应用型本科院校来说,仍然需要结合学校培养目标探索适合学生实际情况的数据挖掘教学方法.

笔者结合凯里学院数据挖掘技术课程的教学实践,提出“问题引导+案例分析”的理论实验贯穿式教学方法,以实验教学促进算法理论的学习,以提升学生的学习兴趣和教学质量.

1 “问题引导+案例分析”的理论实验贯穿式教学探索

1.1 教学内容设计

凯里学院的数据挖掘技术课程在第6 学期开设,主要的先导课程有高等数学、线性代数、数据结构、数据库原理及应用、概率论与数理统计和Python 程序设计,课程总学时为64 学时,其中理论课32学时,实验课32学时,实验学时较充足.

在课程教学过程中,为激发学生的学习兴趣,使用具体案例将理论课与实验课贯穿起来.理论教学完成提出问题、引入案例、分析算法原理的任务,实验教学完成解决问题、知识应用的任务.部分典型知识模块的教学内容设计如表1所示.

表1 数据挖掘技术教学内容设计

1.2 教学过程设计

教学过程包括课前、课中、课后三个主要环节.课前任务主要是根据老师推送到雨课堂的学习资料和练习进行课前预习;理论课堂任务是通过案例分析学习挖掘算法知识,实验课堂任务是根据理论课学习的建模思路编写解决案例问题的程序并调试生成分析结果;课后利用实验课堂中实现的方法对新数据集进行分析和挖掘.下面以朴素贝叶斯分类为例,介绍具体的课堂教学过程.

1.2.1 设问题情境,引入案例

现有4000 条财经、体育、娱乐、健康4 个类别的新闻文本数据集,要求建立一个分类模型,使用文本数据集训练分类模型,让模型判断“中国女排11 连胜卫冕世界杯”属于哪一类新闻,请问这个任务使用上节课学习的决策树模型能解决吗?让学生思考并回答.这个问题的设计既能够引导学生回顾决策树的知识,又能引导学生思考,起到承上启下和激发兴趣的作用.

1.2.2 给出解决问题的思路,讲解朴素贝叶斯分类算法

提示解题思路为通过计算“中国女排11 连胜卫冕世界杯”中的关键词在哪一类文本中出现的概率最大来判断该新闻的类别.引出贝叶斯分类的思想:对于给出的待分类项,求解在此项出现的条件(特征)下各个类别出现的概率,哪个类别概率值最大,就认为此待分类项属于哪个类别.让学生根据课前预习的例题资料,回顾贝叶斯定理,引出完整的朴素贝叶斯分类的概念.通过判断苹果类别的实例介绍朴素贝叶斯分类算法的步骤.这个环节的目标是让学生能够尽快理解算法的原理,因此选取较简单实例能够让学生不必纠结于复杂的计算.

1.2.3 案例分析,应用朴素贝叶斯分类算法解决文本分类问题

引导学生思考以下问题:文本属于半结构化数据,如何量化成适用于计算机分析的数据呢?文本分类中关键的步骤是将文档表示为量化模型,引出文档的TF-IDF量化模型的概念.结合新闻分类的案例,介绍文档TF-IDF 矩阵生成原理.将文档的TF-IDF 矩阵作为数据集,使用朴素贝叶斯分类算法模型判断“中国女排11 连胜卫冕世界杯”的类别.案例分析结束后,趁学生兴趣浓厚时进一步介绍案例模型的编程实现方法并布置实验任务.使用文本分类作为案例是因为朴素贝叶斯分类算法最典型的应用是文本分类,这样设计的目的是让学生在以后的知识应用过程中能够根据数据集的特点确定最佳的挖掘方法.该案例的重点是介绍朴素贝叶斯分类算法如何实现文本分类,为了不喧宾夺主,在课前给学生分享TF-IDF 模型基础知识的视频资料,课堂上再结合实例讲解,使得知识点能够较快被学生接受而不会占用太多课堂时间.

1.2.4 实验上机,编程实现分类模型

学生根据教师提前下发的实验参考资料学习TF-IDF矩阵、贝叶斯分类器的调用方法,编写程序生成文本分类模型实现对“中国女排11连胜卫冕世界杯”的所属新闻类别的判断.分类模型保存到硬盘,加载模型即可实现对任意输入的新闻进行分类,准确率可达到95%以上.通过实验,学生一步一步地解决案例中涉及的问题,最后得到分析结果并且能够应用模型对输入的新闻进行分类.通过实验课将复杂的理论变成可运行的模型,学生在这个过程中获得成就感,能够极大的激发学生的学习兴趣和主动性.在兴趣和成就感的驱动下,学生能够通过自己查阅资料、主动寻求教师帮助等方式去对算法理论进行更深入的学习和研究,形成良性循环,提高了理论课堂教学的效果.

1.3 实验运行环境的选择

数据挖掘技术实验编程使用Python 语言,程序编写与运行环境使用Jupyter Notebook.选择Jupyter Notebook 作为实验环境是因为其具有以下优势:第一,持实时代码,程序代码与运行结果一起显示,方便学生观察和理解程序,算法讲解和代码演示可以同时进行也便于教师开展实验指导,做到理论教学和实践教学相融合.第二,可直接安装第三方库,支持目前主流的科学计算、数据分析、数据处理、机器学习、数据可视化开发包.第三,程序代码和运行结果可生成HTML、PDF等格式文档,方便分享和提交实验资料.第四,支持交互式可视化展示,生成可缩放的地图和可旋转的三维图形,提供丰富课堂展示效果.第五,支持分布式运行,可以加载远程资源和本地资源同时进行代码运行和展示[4],解决了实验教学中运行环境配置不可移植的问题,节约了课堂教学时间.

1.4 课程考核

为更合理地对学生的学习情况进行评价,数据挖掘技术课程加大了对学生学习过程的考核.课程的总评成绩由过程性考核成绩(占20%)、实验考核成绩(占20%)、期末考核成绩(占60%)三个部分组成.过程性考核的主要内容包括理论课堂表现(占5%)、平时作业(占10%)、阶段性测试(5%).实验考核包括实验课堂表现(占10%)和综合实验作业(占10%).实验课堂表现成绩根据学生的实验完成情况进行当堂评定,学生在Jupyter Notebook环境下完成实验后,教师在课堂上对学生实验情况进行检查验收后给出成绩.综合实验作业要求学生使用所学习的数据挖掘知识对给定的数据集进行分析与挖掘,并撰写数据分析报告.为激发学生的兴趣,综合实验作业中使用的数据集都来源于学生的生活实际,包括脱敏后的本校学生的心理测评数据、体测数据、图书借阅数据等.通过综合实验作业让学生在体会学以致用的同时也能够培养学生解决复杂实际问题的能力.

2 教学效果及反思

“问题引导+案例分析”的理论实验贯穿式教学方法在数据科学与大数据技术专业的数据挖掘技术课程中进行了一轮教学实践,取得了较好的教学效果.通过问卷调查显示,学生对此教学方法的满意度达到92.9%,认为此方法提升了他们的自主学习能力和知识应用能力.学生应用数据挖掘知识对本校学生的心理测评数据、就业数据进行挖掘和分析,申报创新创业项目获得2项立项,在“泰迪杯”“未来云杯”等数据分析比赛中获得多个奖项.

以上的教学方法虽然取得了较好的教学效果,但在教学过程仍存在一些问题,部分学生由于Python 语言的基础较差,不能按时完成实验任务,导致学习进度跟不上而产生学习倦怠的情况.在今后的教学中,将继续探索和改进教学方法,根据学生的基础为学生提供个性化的教学资源,采取多样化的督促和激励方法,激发学生的学习积极性,使不同基础的学生都能够主动学习.

3 结束语

针对地方应用型本科院校学生在数据挖掘课程学习中出现畏难情绪、学习主动性不够的情况,提出“问题引导+案例分析”的理论实验贯穿式教学方法,围绕案例开展理论教学与实验教学,让学生通过解决问题获得成就感和学习内驱力,从而主动对算法理论进行更深入的学习和研究.实践证明以上方法能够激发学生的积极性和主动性,取得了较好的教学效果.在课程教学实施的过程中也暴露出了一些问题,还需要在今后的教学过程中继续探索和改进.

猜你喜欢
贝叶斯数据挖掘分类
分类算一算
基于贝叶斯解释回应被告人讲述的故事
探讨人工智能与数据挖掘发展趋势
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于并行计算的大数据挖掘在电网中的应用
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于Hadoop的大数据挖掘云服务及应用