探究式教学在“数据挖掘原理与应用”课程中的应用

2020-11-04 06:54张宇敬安英博
无线互联科技 2020年13期
关键词:度量距离样本

王 柳,张宇敬,安英博

(1.河北金融学院 信息工程与计算机学院,河北 保定 071000;2.河北金融学院 金融科技学院,河北 保定 071000)

0 引言

我国高等教育对创新型工程人才和工程师应对复杂系统问题的能力提出了更高的要求[1]。在人才培养的过程中,遵循育人规律,不断改进教学方法,有助于培养勇于创新和实践的高素质人才[2]。将以“自主、探究、合作”为特征的探究式教学法应用于“数据挖掘原理与应用”课程教学中,以问题为线索,让学生对当前教学内容中的主要知识点进行自主学习、深入探究,可以达到对知识技能较深入的理解与掌握,有利于创新思维与创新能力的形成与发展。

1 内容设计

探究式教学(Hands-on Inquiry Based Learning,HOIBL)由美国著名教育家、心理学家Dewey等[3]提出,他认为教学不应直截了当地注入知识,而应引导受教育者在活动中得到经验和知识。探究式教学法是一种以提出问题、分析问题、解决问题为基本特征的教学活动形式,通过自主研究、分析和解决问题,激发学生的好奇心和探索欲望,培养创新潜能与自我创造力[4]。在“数据挖掘原理与应用”的教学实施过程中,探究式教学法分为提出问题、探究交流、问题解析3步。以下以KNN算法为例,详细说明3个步骤的实施情况。

1.1 提出问题

K最近邻(K-Nearest Neighbor,KNN)分类算法的主要思想:给定测试样本,找出训练集中与其距离最近的K个训练样本,然后根据这K个“邻居样本”的信息来进行预测,当然,需要提前定义样本之间的距离度量方法。对此,以图1为例,可以由浅入深地依次列出问题:(1)猜猜看,图1最后一行未知电影属于什么类型的电影?(2)KNN算法的训练过程是什么?(3)KNN算法当中需解决的关键问题是什么?(4)你知道哪些距离(相似性)度量方法?这些常用的距离度量方法可以解决所有问题吗?(5)如何选择合适的K值,K值过大或者过小会有什么问题?(6)KNN算法的时间复杂度是多少?如何提高效率?

图1 电影信息数据

1.2 探究交流

针对提出的问题,要让学生进入情境,对所提出的问题积极思考,通过查阅资料自主探讨。自主探讨阶段完成之后,学生会对问题有一定的认识和理解,然后进入交流讨论阶段,在这个过程中学生可以交换思路、观点。交流讨论过程可以在教师的组织协调下分小组进行。

1.3 问题解析

针对KNN算法提出的问题由浅入深,学生若能通过探究和交流解决以上问题,便能深入理解KNN算法的原理,同时,能够将使用算法解决实际问题。各问题的解释要点如下:

(1)猜猜看,图1最后一行未知电影属于什么类型的电影?设置该问题主要目的在于引出KNN算法的主要思想,判断最后一行未知电影的类型,需要从类型已知的电影中找到一个和未知电影最接近的电影,然后通过该电影的类型来判断未知电影的类型。当然,不同的学生找和未知电影最接近电影的方法有所不同,这正好体现出样本之间的相似性度量方法实际上是有多种的。解释完电影类型的判断过程之后,再类推解释KNN算法的思想,学生能够很容易接受。

(2)KNN算法的训练过程是什么?在解决第一个问题的过程中,学生会掌握KNN算法的主要思想,不难发现KNN算法似乎没有显示的训练过程,学生通过探究和讨论可以发现KNN算法的这一特点,并与线性回归和逻辑回归形成对比。

(3)KNN算法当中需解决的关键问题是什么?KNN算法中有两个关键问题,一方面是距离(相似性)的度量方法,另一方面是K值的选择。

(4)你知道哪些距离(相似性)度量方法?这些常用的距离度量方法可以解决所有问题吗?学生通过探究讨论总结属性间及样本间的距离度量方法,引导学生重点理解并记忆欧几里得距离等常用的距离度量方法。特别提醒学生,在KNN分类算法中,若采用不同的距离(即相似性)计算方式,则找出的“近邻样本”可能不同,从而也会导致分类结果有差异。

(5)如何选择合适的K值,K值过大或者过小会有什么问题?K值也是一个重要参数,K的不同取值会影响分类结果,特别地,K取值为1时,我们称之为最近邻算法。图2给出了K近邻分类算法的一个示意图,当K=3时,?判别为▲,当K=5时,?判别为■。如果K太小,则最近邻分类器容易受到噪声影响而产生过拟合现象;相反,如果K太大,分类器可能会误分类测试样例。通常来说,应该通过不断尝试找到合适的K值。

(6)KNN算法的时间复杂度是多少?有什么方法可以提高效率?KNN的绝大部分时间花费在了“近邻样本”的查找上,学生通过探究讨论能够给出不同的查找算法,让大家通过讨论给出时间效率较优的查找算法。另外,在数据结构课程中介绍过查找树,在此基础上引导学生考虑构建KD树。

图2 K近邻分类算法示意

2 实际教学中的改革成效

为了检验教学效果,对实施教学改革的班级以无记名方式进行调查问卷,结果显示,90%的同学觉得课堂氛围活跃,70%的同学对该课程产生兴趣并愿意积极主动进行学习,65%的同学能够掌握算法的基本原理,60%的同学能够顺利完成布置的实验,但50%的同学不知道如何使用已学习的算法进行实际应用。总体来说,该门课程的教学改革取得了一定的效果,但用所学算法解决实际问题对学生来说,还是有一定难度。

3 结语

为应对变化、与时俱进,多数高校开设“数据挖掘原理与应用”课程。为了提高教学效果,将探究式教学法运用到该课程的教学中,用学生主动探究、交流合作的教学模式改变传统教学模式。实际教学效果显示,该教学方法能有效调动学生学习的积极性和主动性,活跃课堂气氛的同时能加深学生对知识的理解,使得教学效果得到改善,有助于培养学生的自主学习能力,可以在其他核心专业课程中进行推广。

猜你喜欢
度量距离样本
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
算距离
推动医改的“直销样本”
村企共赢的样本
地质异常的奇异性度量与隐伏源致矿异常识别
距离有多远