以科研能力为导向的“机器学习”教学改革

2024-05-19 14:36杨书新王振东蔡虔薛正发夏小云
科技风 2024年9期
关键词:科研能力机器学习教学改革

杨书新 王振东 蔡虔 薛正发 夏小云

摘 要:针对如何将科研能力培养融入“机器学习”课程教学的问题,提出从教学内容、教学方法、过程考核等三方面进行改革。基于模型目标函数优化、模型适用场景分析两条主线,给出了教学内容改革的具体方法。以学术论文写作思路为引导,给出了创新教学方法和考核的具体思路。改革有利于促进学生掌握科学研究的思维方法,提升学生的知识应用能力。

关键词:科研能力;机器学习;教学改革

人工智能学科自1956年确立以来,机器学习在人工智能发展的第三时期“学习期”得到了重大发展[1]。机器学习主要是研究如何利用数据进行智能学习算法,是人工智能的核心,很多高校计算机学科点的人才培养课程体系都开设了“机器学习”课程。由于该门课程涉及的学科知识广、理论性强、应用性强的特点,对教学提出了较大的挑战。

在学生的培养过程中,基于工作室模式的实践平台是培养学生创新能力的有效途径[2]。除此之外,课程教学是培养科研能力的一条重要途径[3]。在课程教学中,教师应注重引导学生发现、分析和解决问题[45]。因此,研究“机器学习”课程教学如何在学时不变的前提下提升学生的科研能力是值得探索的一个问题。

一、教学现状

在实际教学过程中,“机器学习”课程教学存在以下问题。

(一)理论和实践分离

现有的《机器学习》书籍主要分为两种类型,一种是主要讲一些理论,进一步细分为概念和分类模型的理论推导两个子类,另一种是基于某种编程语言的分类模型代码实现。授课教师在教学过程中只强调理论或实践。如果单纯地讲理论,学生面临的是数学公式和推导,学生感觉到学习困难,且实际问题解决能力得不到锻炼。如果简单地讲实现代码,学习深度不够,知其然不知其所以然,让学生感觉就是机器学习就是调参,两者都会让学生感到枯燥,学习的积极性不高。

(二)教学方法传统

教学上缺乏师生互动,以教师“讲”为主,主要罗列书中的知识点[6]。研究生都有自己的研究方向,“以教师为中心”的教学方式使得学生查阅资料的主动性不足,对机器学习技术在自己方向的应用情况及技术前沿不了解。

(三)实践内容不够深入

常见的机器学习方法的实现代码比较成熟,基于java、python、matlab等语言的实现代码都有开源的,甚至有把方法实现代码封装成工具包的机器学习库,如Scikitlearn[7]、Torch[8]、TensorFlow[9],这给实践入门提供了快速方便之道,但实验的设计多局限于书本的内容,实验工作主要是验证和简单的参数调整,对应用的适用性和优化分析不够深入,如稀疏大数据和边界数据的适用性、优化参数和数据特征的关联。

二、以科研能力培养为导向的改革

对于学生来说,研究方法、逻辑思维能力、书面写作能力、创新思维都是科研能力的重要内容[1011]。对于课程来说,这些能力的培养与教学方法、教学内容、过程考核息息相关。因此,本文的教学改革思路是从创新教学方法、优化教学内容、加强过程化考核三方面探索,激发同学们的学习兴趣,培养学生的知识应用能力和创新意识。

(一)优化教学内容:重视基础,突出实践

机器学习算法的学习过程分为数据收集和预处理、选择合适的分类模型并进行训练、测试算法的有效性三步。在数据收集和预处理层面,虽然传统的机器学习书籍和课程都有对数据预处理相关内容的介绍,但在实际的教学过程中,为了方便模型的构建和预测,示例代码往往使用的是已经预处理好的数据集,如sklearn库中用于做回归预测的波士顿房价预测数据集(boston),用于做分类预测的鸢尾花数据集(iris)等。这些数据集大多数没有空值,特征与标签存在一定的相关性,因此在机器学习算法训练和预测时,能取得较高的精度。然而在实际的应用场景下,数据往往是残缺不全的,传统的机器学习教学方法忽视了这一点。例如,医院收集患者的随访信息时,患者可能会由于隐私等原因拒绝提供自身疾病的相关信息,从而造成数据的缺失。针对此类缺失数据,具体的数据预处理方法有缺失值处理、离群值处理、标准化、离散化和特征编码等。数据预处理是机器学习过程中很重要的一部分,模型预测精度的高低与数据的预处理的算法和方式有着很大的关联。因此在机器学习的实战课程中,需要设计一定数量的不完整数据来引导学生使用预处理算法对数据进行处理,优化模型的输入。在分类模型层面,具体的分类模型有K近邻、决策树、支持向量机等,可归为有监督学习和无监督学习两大类[12]。其中线性回归以最小化样本预测值和实际值的均方误差累积值为目标函数,基于偏导值为0的规则求解最优参数,对数概率回归以对率回归模型最大化为目标函数,根据梯度下降法或牛顿迭代法求最优解。决策树以信息增益或基尼指数等为目标函数,循环计算确定最优分类属性。类似于线性回归目标函数,神经网络以最小化均方误差为最小函数,基于梯度下降法迭代寻找最优参数。支持向量机以最大化异类支持向量到超平面的距离为目标函数,并受预测值和实际值相乘大于等于1的约束,采用拉格朗日乘子法求优,这些模型的共同点都是设计目标函数,然后求解。对于有约束的目标函数最优求解,运用拉格朗日乘子法求解,对于无约束的目标函数最优求解,运用梯度下降法、牛顿迭代法等方法。机器学习的算法涉及统计学、矩阵运算、微积分、求导、程序设计等多学科知识,需要学生具有良好的数学基础和编程能力。

综合多本参考书,对教学内容进一步梳理,兼顾理论和实践。在理论方面,精简矩阵运算、拉格朗日乘子法、梯度下降法等优化方法的推理,对于KNN、决策树、支持向量机等方法的讲解,在介绍矩阵求导的基础上,以目标函数及优化的设计、缺点和改进为主线讲解,培养学生的问题建模和分析能力,进一步培养创新意识。在实践方面,充分利用Scikitlearn機器学习库、百度PaddlePaddle深度学习平台等,设计基于百度Paddlepaddle、Scikitlearn等技术或基于预测思想实现代码的实验,以论文实验的思考方式要求学生写调试分析报告,从数据不平衡、边界数据、数据稀疏性、预测模型等角度去分析,提高学生的机器学习知识应用能力和优化分析能力。整体思路如图1所示。为引导学生较快获得成就感,课程教学改革的另一个关键点是实验的设计,包括应用场景、开源机器学习库的选择以及基于学习算法原理的代码实现。

(二)创新教学方法

教学方法以学术论文写作思路引导为主。首先,采用问题驱动式的方式讲解,讲授预测模型以动机、研究方法、实验效果(特点分析)的论文模式讲解,指出方法提出的背景和适用范围,引导学生思考,培养创新研究思维和逻辑思维。图2为支持向量机(Support Vector Machine,SVM)的教学方法策略示例。针对支持向量机,首先介绍支持向量机模型的提出背景,引出目标函数,继而讲解其求解方法,给出伪代码并分析。在理解支持向量机基本原理的基础上,围绕是否线性可分的应用场景、约束不满足该如何处理、松弛约束函数等问题,抛出动机,继而讲解线性核、多项式核、高斯核等概念和相应的问题解决方法。讲解的逻辑主线是目标函数和求解,创新主线是问题动机、如何解决。其次,鼓励学生结合自己研究方向收集资料,跟踪国内外研究进展,拓宽视野,在潜移默化中掌握基于学科前沿文献阅读的科学研究方法。在课堂运用“问题式教学”“合作学习教学”等教学方法,以报告和讨论的形式活跃课堂气氛,增加不同研究方向学生之间和师生之间的交流,培养学生学术探讨氛围,增加学生的成就获得感。最后,在教学过程中加入计算机科学家的励志故事以及计算机科学前沿案例,从而激发学生学习的兴趣和学习的积极性,在实践中不断创新。此外,进一步融入课程思政内容,实现专业知识点与德育教育的同频共振,激发学生爱国热情,形成课程思政合力教学效应[13]。

(三)加强过程化考核

将考核融入教学过程,在平时的讨论课中引入激励机制,鼓励学生独立查阅和整理资料并分析,克服学生的惰性,让更多的学生参与讨论。最后的课程成绩评定包括期末的闭卷成绩(60%)、课堂大讨论表现(20%)、实验分析(20%)等多个教学环节。

三、应用情况

“实践是检验真理的唯一标准”,机器学习算法在金融、医疗、气象等领域有着广泛的应用场景,具有很强的实践意义。为了使学生更好地进行实验,课程以Python作为主要编程语言,设置了“SVM算法实现手写数字识别”“随机森林在基金风险评级中的应用”和“基因表达数据中的主成分分析”共3个实际应用案例。这3个教学案例分别对应于课本中支持向量机、集成学习和降维与度量学习3个重要教学章节,其中包含了两个有监督学习算法和一个无监督学习算法的应用。在3个实际应用案例之前还设置了一个前置小课程,主要使学生学会对不同类型的数据进行预处理,以及实验环境的搭建,这样为后续课程进行了铺垫,节约了时间。

正式案例课程包含两个课时,每个案例结尾有与之相对应的编程大作业,要求学生能根据案例的分析和应用过程,在新的实验数据上演示结果。同时,在实际教学过程中,还会对案例涉及的内容进行引申。例如,在随机森林算法的应用中,课程使用随机森林的平均不纯度的改变量来衡量金融数据特征的重要性,帮助学生理解机器学习实践过程中不同应用场景下特征的取舍,在涉及最佳建模参数选择时,还会穿插一个决策树的小应用来对随机森林算法进行补充,很好地缓解了学生的理解难度,同时加深了学生对机器学习算法的理解。

目前课程的教学改革已实施两年。通过调查,学生普遍反映对机器学习的原理有了更加全面和深刻的认识,问题分析和解决能力得到提升,对于今后的研究有较大的帮助。

结语

机器学习是计算机应用技术相关专业研究生的一门重要基础课程。针对如何将科研能力培养融入课程教学中,本文结合工作实践从教学内容、实践、过程考核等方面总结出若干建议,有助于机器学习知识的深入理解,促进学生的创新研究思维和逻辑思维的进一步提升,为后续自主开展研究工作和论文撰写奠定良好基础。

参考文献:

[1]周志华.机器学习:发展与未来[J].中国计算机学会通讯,2017,13(1):4451.

[2]杨书新,王吉源,谢丽芳.地方高校二级学院创新创业教育实践平台的构建与实践——以江西理工大学为例[J].江西理工大学学报,2018,39(4):8488.

[3]姚利民,王燕妮.课程教学培养研究生科研能力之对策[J].黑龙江高教研究,2006,9:8991.

[4]章晓莉.基于科研能力培养的研究生课程教学改革的思考[J].教育探索,2010,7:3638.

[5]闫丽萍,陈倩,杨阳,等.面向科研能力培养的研究生理论课程教学改革[J].教育教学论坛,2020,29:146147.

[6]胡春龙,吴陈,左欣,等.研究生“机器学习”课程教学改革研究[J].教育教学论坛,2019,10:99100.

[7]黄永昌.scikitlearn机器学习常用算法原理及编程实战[M].北京:机械工业出版社,2018.

[8]孙琳,蒋阳波,汪建成,等.PyTorch机器学习——从入门到實战[M].北京:机械工业出版社,2018.

[9][美]尼山特·舒克拉,等.TensorFlow机器学习[M].北京:机械工业出版社,2020.

[10]孙伟刚,覃森.从导师视角来谈研究生科研能力的培养[J].课程教育研究,2017,23:1718.

[11]曾冬梅,潘炳如.研究生协同培养对科研能力的影响[J].中国高校科技,2019,3:4548.

[12]应行仁.什么是机器学习[J].中国计算机学会通讯,2017,13(4):4245.

[13]夏小云,李绍燕,朱蓉,等.新工科背景下计算机类课程思政教学研究与实践[J].计算机教育,2020,8:7578.

课题项目:江西省学位与研究生教育教学改革研究项目JXYJG2019141;江西省高等学校教学改革研究课题(重点)JXJG1978;浙江省普通本科高校“十四五”教学改革项目(项目编号:jg20220434)

作者简介:杨书新(1978— ),男,汉族,江西九江人,博士,副教授,研究方向:信息扩散,文本分析;王振东(1982— ),男,汉族,湖北恩施人,博士,副教授,研究方向:无线传感网覆盖优化、网络入侵检测;蔡虔(1980— ),男,汉族,江西赣州人,硕士,副教授,研究方向:人工智能与教育;薛正发(1996— ),男,汉族,江西赣州人,硕士研究生,研究方向:肿瘤信息学;夏小云(1982— ),男,汉族,江西南昌人,博士,副教授,研究方向:群智能优化。

猜你喜欢
科研能力机器学习教学改革
徐州技师学院教师科研能力提升新途径研究
基于网络搜索数据的平遥旅游客流量预测分析
高校辅导员科研能力现状及对策
前缀字母为特征在维吾尔语文本情感分类中的研究
工商管理学科研究生科研能力培养现状调查与思考
基于支持向量机的金融数据分析研究
高职院校教师提升科研能力途径研究
基于人才培养的技工学校德育实效性研究
现代信息技术在高职数学教学改革中的应用研究
以职业技能竞赛为导向的高职单片机实践教学改革研究