高波
[摘 要] 在信息技术的推动下,许多高校都在建设网络教学平台,中国大学MOOC等网站也有很多课程的教学视频。运用网络资源对“数据挖掘”课程进行了探索,根据“数据挖掘”课程的特点,合理分配理论教学和实验教学的学时;在理论教学时,讨论网络资源如何影响备课和授课,并且以人工神经网络模型为例,介绍怎样在课堂教学中应用网络资源;从软件环境、实验数据、模型代码等方面,讨论实践教学利用网络资源的方法;根据教学评价结果,改进混合式教学的组织方法,提升“数据挖掘”课程的教学效果。
[关键词] 数据挖掘;理论教学;实践教学;网络资源
[基金项目] 2022年度北京市教委社科项目“金融风险的多源数据的分析和预测方法研究”(SM202210009002);2020年度北京市教委市属高校基本科研业务费“协同感知智能挖掘与统计分析技术”(110052971921/007);2018年度北方工业大学教育教学改革和课程建设研究项目“统计学专业‘数据挖掘技术’课程建设研究”(NCUT2018JGM47)
[作者简介] 高 波(1984—),男,山东聊城人,博士,北方工业大学理学院统计系讲师,主要从事数据分析与风险管理研究。
[中图分类号] G642.0 [文献标识码] A [文章编号] 1674-9324(2022)04-0131-04 [收稿日期] 2021-06-15
引言
在信息时代,经济或科研活动产生了大量的数据,例如,网络购物已经走进千家万户,食品、衣物、书籍和电器等都可以在网站或者App购买。大型电子商务公司正在运用用户的浏览或交易记录,刻画他们的特征,推荐消费者可能感兴趣的商品,并评价生产者的信用情况,决定是否向他们发放小额贷款。这些工作需要大量掌握数据挖掘技术的人才,因此很多院校的统计学专业纷纷开设“数据挖掘”课程。
在信息技术的推动下,在线教育迅速兴起。它突破了传统教学时间、空间等限制,通过互联网将教师讲课的视频、音频等传递给学生。很多高校和科技公司合作,建设中国大学MOOC和学堂在线等平台,推出许多名师主讲的课程教学视频,其中,近千门课程被认定为国家精品课程。在新冠疫情期间,这些视频为保障学生的学习活动发挥了重要作用,同时,高校教师还纷纷采用直播教学方式,建立师生有效互动的教学环境。企业微信、腾讯会议和阿里钉钉等很多软件能够支持直播教学。以企业微信为例,直播授课的主界面是教师正在讲解的PPT,两个小窗口分别显示教师的授课环境和听讲的学生名单,教师可以借助数位板设备和希沃白板软件,板书教学方案和关键知识点等。
在线下教学中,如何利用线上教学资源,成为很多学者关心的话题。孙瑞娜提出以课堂为主、线上为辅开展“数据挖掘”教学,增加实验课学时和过程考核比例[1];柯佳和陈潇君在线下教学中采用分组讨论或分组实验的方式,在线上平台发布教学资料、汇总学生作业等[2];郗朋等人提出课前网络学習、课堂教学和课后拓展提升的混合式教学模式[3],并将传统课堂+信息技术升级为智慧课堂;卞金金和徐福荫设计智慧课堂的学习模式,指出教师和学生在课前、课中和课后的工作要点,并且以小学英语的一节阅读课为例,阐述智慧课堂的教学过程[4];毛群英从教学目标、教学过程和教学评价三方面设计智慧课堂的教学模式[5]。综上所述,虽然部分学者提出了利用线上资源的教学模式,但是尚未深入研究慕课、B站等网络教学视频的作用。
一、“数据挖掘”课程的教学方案
我校统计学专业是北京市一流专业,其主要特色方向是商业调查与数据挖掘。围绕这两个方向,统计学专业开设了“市场调查方法”“数据挖掘”“抽样技术”“R程序语言”等课程。其中,“数据挖掘”课程设置在第6学期,面向大三学生。在这个阶段,学生已经掌握回归分析、因子分析等统计模型和Python、R等计算机语言的基本知识。
以数据挖掘为主题的书籍和网络资源较为丰富。在讲解模型原理时,涉及的书籍包括Tan等著的《数据挖掘导论》、Han等著的《数据挖掘概念与技术》和Wu等著的《数据挖掘十大算法》等;线上视频资源包括学堂在线网站上清华大学袁博主讲的《数据挖掘:理论与算法》、B网站上斯坦福大学Leskovec等主讲的《数据挖掘》等。在讲解算法编程时,涉及的书籍包括张良均等著的《R语言与数据挖掘》和《Python与数掘挖掘》等,线上资源包括B站上某些科技公司制作的讲解怎样利用R或者Python语言编写数据挖掘代码的视频等。
在教学实践中,本课程在参考这些资料的基础上,根据学生的需求,不但在理论上系统讲解多个数据挖掘模型,而且安排上机实验,讲解其R或者Python代码。在理论教学部分,要求学生掌握模型的原理、步骤和算例等;在实践教学部分,要求他们熟悉程序的界面和代码的结构等。学好理论能够加深对实验结果的理性认识,做好实验则能够增加对理论的感性体验,因此,二者能够相互促进,共同提升课程的教学效果。相较于实践教学,在理论教学中学生需要更多的思考时间,因此,本课程按照2∶1的比例分配48个课时,理论教学共32个课时,实验教学共16个课时。
在理论教学部分,本课程主要讲解分类、聚类、推荐和关联等四种数据挖掘模型。在分类模型部分,本课程依次讲解分类预测框架、决策树模型、最近邻模型、贝叶斯模型、人工神经网络模型、支持向量机模型,以及随机森林、Adaboost等集成分类模型。这些模型难度较大,通常安排2个课时讲解1个模型,有些模型如人工神经网络模型甚至需要4个课时。在聚类模型部分,本课程依次讲解K均值聚类、凝聚层次聚类、DBSCAN模型、EM算法等。这些模型难度较小,通常安排1个课时讲解1个模型。在推荐模型部分,本课程主要讲解PageRank算法等。在关联模型部分,本课程主要讲解Apriori算法等。
在实践教学部分,本课程要求学生掌握数据挖掘模型常用的模块或者函数,熟悉模型的代码结构,能够解决调试代码时遇到的问题。学生在接触“数据挖掘”课程前,普遍接触过R和Python;因此,本课程在实现数据挖掘模型时,选择R和Rstudio等R系列软件,或Anaconda和Pycharm等Python系列软件。在教学过程中,本课程基本上每个课时练习1个模型。部分代码较长的模型,如人工神经网络模型等,本课程将用2个课时带领学生开展数据实验。
在教学活动中,本课程充分利用网络资源,在理论教学时,教学设计、课前课后和课堂教学等环节都会使用网络资源;在实验教学时,软件环境、实验数据和模型代码等方面也会运用网络资源。本课程还会根据教学评价结果调整混合式教学方法等,后文将详细讨论这些内容。
另外,本课程还注重衔接学科竞赛和硕士教育等。大三学生普遍参加全国大学生市场调查与分析大赛、全国大学生统计建模大赛等赛事。本课程讲述的模型能完善学生的知识体系,例如分类模型的因变量为二元变量或离散变量,回归模型的因变量是连续变量,二者互为补充,能够丰富学生的方法库,帮助他们解决难度较大的竞赛问题。此外,本课程有助于提升大三学生的专业技术能力,幫助学生本科毕业后继续攻读硕士学位。
二、理论教学与网络资源
在设计教学活动时,应当从网络资源中汲取营养。数据挖掘的经典书籍较多,即使选择其中一本作为教材,在讲解某个模型时,也可以借鉴其他图书或者知乎、CSDN等网站介绍的方法。在备课时,应该根据教材编写PPT,挖掘教学的重点和难点等。有些主讲教师在网络上分享了他们制作的PPT,其他教师就能以这些资源为素材设计自己的教学活动;一些网络视频完整地记录了某些教师的教学过程,其他教师在备课时,就能借鉴他们讲解知识点的教学方法、教学进度和教学案例等。
网络资源在课堂教学前后都发挥着重要作用。我校开发的多模式教学平台能够发布课件资料、课程作业、学习讨论等。课前,学生可以预习即将讲授的课件,观看教师推荐的网络视频;课后,学生运用学到的知识解答习题,遇到不会的题目可以通过微信联系教师,得到及时的指导。但是,学生课下学习的积极性总不如课上,课前预习的学生大约只是选修学生的一半左右。有些学生没有选修这门课程,却需要应用数据挖掘模型撰写毕业论文或者完成“大创项目”和“实培项目”,在这种情况下就只能完全依赖网络视频自学相关内容。
当代课堂教学需要运用网络资源。学生期望在课堂上学会主要的知识点,同时教师也在精心准备课堂教学的重点内容和讲解方法等,因此,课堂教学一直是教学活动的核心阵地和关键环节。传统教学强调教师独立、清楚地讲述知识点的能力,当代教学则提出了一些更高的要求:一是落实立德树人根本任务,守好一段渠、种好责任田,挖掘课程中的思想政治元素;二是组织PPT、网页、视频等各种素材,清晰地描述数据挖掘模型的工作原理;三是设计教学案例和课堂测验等,引导学生积极投入课堂学习,在思考、探索、练习中掌握数据挖掘模型的建模方法等。
以人工神经网络模型的课堂教学为例,本课程选取海康威视公司作为思想政治案例。海康威视公司曾经获得ImageNet大规模视觉识别竞赛冠军,却被美国商务部列入实体清单,供应链安全受到严重威胁。视觉识别经常采用卷积神经网络模型,而它的基础是人工神经网络模型。借此案例激励学生好好学习,勇于创新,将来突破美国对我国的科技封锁。在讲解模型的原理时,本课程从最简单的感知器模型开始,说明激活函数的作用和参数的学习方法等;然后介绍含有一个隐藏层的神经网络模型,说明怎样确定输入层、隐藏层和输出层的节点数目等;最后结合李宏毅的机器学习网络教学视频,说明在多层全连接神经网络里,怎样运用后向传播算法求解模型的参数等。为了让学生掌握这个模型,本课程设置一系列问题,让学生运用前向传播算法计算各个节点的输出结果等。
三、实验教学与网络资源
实验教学需要学生熟悉计算机的硬件性能、配置软件环境、实验数据库和编写模型的代码等。这些都与网络资源存在千丝万缕的联系。
软件环境与网络资源。本课程选择开源软件R和Python实现数据挖掘模型。R软件的安装程序来自https://www.r-project.org/。在调试数据挖掘模型的代码时,可以运用命令install.packages从网络上下载和安装需要的包。编辑Python程序时,经常采用Anaconda或Pycharm软件,这两款软件都能够从网络上找到安装程序。Anaconda的Spyder环境模仿Matlab的界面;Jupyter Notebook环境在浏览器界面编辑,每次只运行一个cell里的程序。它们都预装了numpy、pandas和sklearn等数据挖掘模型的常用包。
实验数据与网络资源。本课程的实验数据主要来自三个方面:第一,R或者Python程序自带的数据库,例如鸢尾花数据、乳腺癌数据等;第二,政府、公司和大学维护的数据库,例如统计局的经济数据、亚马逊公司的公开数据集和加州大学欧文分校的机器学习数据库等;第三,一些科技公司举办的数据挖掘竞赛,例如阿里云平台、百度飞桨AIStudio和华为云平台的竞赛数据集等。
模型代码与网络资源。本课程主要讲解比较经典的数据挖掘模型。前文提到的《R语言与数据挖掘》和《Python与数据挖掘》等经典书籍提供这些模型的R或Python程序代码。在百度网站搜索也能找到一些模型的R或者Python程序代码。因为解决问题的思路不同,所以这些代码的写法存在较大差异,但是它们的结构是类似的。例如R代码通常包括三步:一是导入数据;二是导入包,运用函数完成数据挖掘任务;三是输出模型的结果。Python代码则将导入包或函数放在第一步,然后才导入数据,运用函数或者编写代码完成数据挖掘任务,最后输出模型的结果。
教学经验。采用网络资源提供的数据和代码后,实验教学的重点是数据挖掘模型的函数名称。有些函数名称较短,学生很容易掌握,例如决策树模型的R程序函数tree,支持向量机模型的Python程序函数svm。有些函数名称较长,需要学生结合英文含义记忆,例如凝聚层次聚类模型的Python函数Agglomerative-Clustering。
实验教学的难点是怎样导入数据和安装需要的包。代码案例的数据位置一般不同于学生存放的位置,这就需要他们能够运用命令读入存放在Excel等的数据,例如R程序命令read.csv和Python程序命令pandas.read_excel等。安装包时,运用R命令install.packages或者Python命令pip install等。学生会遇到下载包时由于时间较长而自动终止,安装包时由于和硬件冲突而无法进行等问题。为了解决这些问题,本课程提前在学校的多模式教学平台上传比较大的包,并且鼓励学生携带个人电脑,教给他们从电脑安装包的方法。
四、教學评价
教学评价的对象是教师的教学过程和学生的学习效果。评价前者时,不但会邀请专家进课堂点评教学活动,而且会调查学生对教师的教学组织能力评价等;评价后者时,既包括教师发起的课堂测验、课后作业和期末考试等量化评价,也包括学生在学习时的感性体验和能力提升等。
本课程重视过程评价,将平时成绩比例上调至50%,并且经常运用网络技术搜集评价结果。要求学生平时按时上课听讲,完成较多的学习任务,例如每次实验课都要提交一份实验报告,说明数据挖掘模型的代码调试过程和结果。教师会设计一些小测验,以选择题的形式发布在问卷星上。学生投票后,软件能够做些简单的统计分析,帮助教师了解学生对知识的掌握程度。教师还可以在多模式教学平台发布一些作业,学生完成后在平台提交。
本课程在教学时注重倾听学生的自我评价。学生在理论课中熟悉了经典的数据挖掘模型,逐渐掌握了它们的原理,并且能够做些简单的运算;在实验课中看到了模型的效果,即使程序报错,学生也能够冷静地分析错误的源头,并通过向教师请教或者上网搜索,找到问题的解决方案。这种方式会极大地增强学生的自信心,让他们收获巨大的成就感,同时也让冰冷的模型在他们心中变得鲜活起来。
参考文献
[1]孙瑞娜.基于网络教学平台的“混合式”教学模式研究——以数据挖掘课程为例[J].教育现代化,2020,7(6):71-73.
[2]柯佳,陈潇君.基于信息管理与信息系统的“数据挖掘技术”课程混合式教学模式研究[J].江苏科技信息,2021,38(8):72-75.
[3]郗朋,孙春峰,王家盛,等.基于在线课程开展工程制图及CAD课程的混合式教学[J].大学教学,2021(3):84-87.
[4]卞金金,徐福荫.基于智慧课堂的学习模式设计与效果研究[J].中国电化教育,2016(2):64-68.
[5]毛群英.智慧课堂教学模式设计研究[J].教学与管理,2021(3):96-99.
The Teaching Exploration of Using Network Resources in Data Mining Course
GAO Bo
(College of Science, North China University of Technology, Beijing 100144, China)
Abstract: Driven by information technology, many colleges and universities are building online teaching platforms, and there are also teaching videos of many courses on websites such as Chinese University MOOC. This paper explores the course of Data Mining by using network resources, and reasonably allocates the class hours of theoretical teaching and experimental teaching according to the characteristics of this course. In theoretical teaching, this paper discusses how network resources affect lesson preparation and teaching, and introduces how to apply network resources in classroom teaching by taking artificial neural network model as an example. In addition, this paper discusses the methods of using network resources in practical teaching from the aspects of software environment, experimental data and model code. According to the teaching evaluation results, we may improve the organization method of mixed teaching and improve the teaching effect of Data Mining.
Key words: Data Mining; theory teaching; experiment teaching; network resource
1441501186221