黄道斌 潘媛媛 王培培 毕迎春 叶明全
摘要:文章以医学数据挖掘课程为例,从教学现状出发,分析该课程在医学本科院校中的教学现状和存在的问题,探讨了如何提升医学信息工程和信息管理与信息系统等专业本科生的数据挖掘理论基础,实践能力和综合素养等,并应用数据挖掘技术解决医学相关的实际问题的能力。在实际教学中已取得了一些较好的效果,为医学院校的新工科建设提供了良好的示范作用。
关键词:医学数据挖掘;教学改革;成绩评价;案例转化
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2022)17-0128-03
随着医院信息化的快速发展和数据挖掘技术在其他领域的不断应用,很多医学院校都意识到数据挖掘技术的重要性,都开设了数据挖掘相关课程,这为毕业生在工作中应用相关技术奠定了基础。目前,医院信息科拥有大量的医疗数据,但没有被开发利用,如何从这些数据中挖掘出有用的信息,已成为很多医院和医疗软件公司要解决的问题。因此,医学本科院校培养的信息人才,拥有数据挖掘技能已成为一种趋势,在专业改革和课程改革中,数据挖掘技术将占十分重要的地位[1]。数据挖掘课程在我校已开设多年,该课程是一门融合了概率论、高等数学、机器学习和现代医学信息等学科的交叉学科,其目的是发现海量医学数据中的模式与规律。目前在数据挖掘教学改革过程中,多所高校都进行了该课程的教改[2-5],主要经典的数据挖掘算法有:决策树、贝叶斯、关联规则、聚类,支持向量机和神经网络等,这些算法已经在医学数据挖掘中得到了成功的应用,都显示出各自独特的优越性,它们在各类疾病的诊疗、医学教研以及医院的管理等方面会发挥重大作用。下面我们将结合我校相关专业在进行数据挖掘教学中的情况阐述下教学的困惑与改革的想法。
1 教学现状分析
我校开设数据挖掘课程始于2013信息管理与信息系统专业开设的“医学数据挖掘”;2018年,根据数据挖掘发展现状,结合课程实际教学情况,结合技术发展动态,充实了相关的技术内容,构建了《医学数据挖掘》新的课程体系,后期又将课程名称调整为《生物医学数据挖掘》,他们之间主要在案例选择上有细微差别,下文中我们将课程统称为医学数据挖掘。这门课早期主要面向信息管理与信息系统专业学生,后面扩展到医学信息工程与智能医学工程专业,目前每年必修课学习人数约120~150人。通过多年的教学实践,学生基本能掌握数据挖掘的基本概念,熟悉数据挖掘的各种经典算法以及利用算法的主要步骤和具体实现方法,了解相关技术在医疗领域的应用;在实践上能够利用数据挖掘工具WEKA软件平台,同时部分学生还能使用Python高级语言实现简单编程对实际数据进行分析,实现数据挖掘的具体操作。下面就教学中出现曾经出现的问题简单列举如下:
1.1 教材问题,教材的选用对课程很重要
目前可选的数据挖掘教材很多,但偏向医学方向的数据挖掘教材却很少,没有特别合适的。不管是老师还是学生,对教材都不是十分满意。理论教学采用传统数据挖掘教材代替,同时补充医学应用案例的方式来组织教学,案例与算法理论的存在不一致的地方。在实际教学过程中教材发挥的作用非常有限,得通过各种途径来做知识的补充。
1.2 学生先导课程知识掌握薄弱
医学数据挖掘是《高等数学》《线性代数》《概率统计》《Python程序设计语言》等先修课程的实践应用和拓展。医学本科院校中学生在数学与程序设计等方面,掌握得不是非常好,在理论教学过程中对算法的理解有难度,导致部分学生因理解困难出现厌学情绪。
1.3 教学过程理论部分偏重,教学模式单一
理论教学内容一般根据数据挖掘教材进行讲解,授课重心倾向于如何使得学生了解和掌握数据挖掘的各种算法,而轻视了实验与实践教学,从而使得学生在实际解决问题能力不强。
1.4实验设计方式单一,实验主要以验证性的为主
试验课使用的是WEKA平台,其优点是入手相对容易,使用者可以在很短的时间内完成一个简单的数据挖掘任务,同时该款软件在实际工程中也有应用,这是我们当初选择这个作为实验平台的重要原因。但在实验教学中过程中发现采用WEKA软件平台来实施实验教学存在一个很严重的问题,虽然它封装了很多算法,可以直接通过点击鼠标来完成实验,但学生过分依赖傻瓜式的操作,无法通过实验了解算法的实际运算过程,从而导致实验教学不能很好地巩固理论教学的知识点,实验与理论之间存在很大的间隔。
1.5 完整的数据挖掘案例缺失
应用数据挖掘技术到不同的领域,涉及的过程很多,比如数据的预处理,特征提取,模型训练,结果解析等。因为上实验课时间的关系,老师事先把数据处理好,只让学生运行理论课程算法,这样能保证实验课学生能做出结果,但太过于理想,不利于学生将数据挖掘技术应用于实际项目。
1.6 学生学习的主动性不强,课程成绩评价机制简单
以往的教学主要以老师讲授为主,学生被动听课,参与度不高,而且数据挖掘算法理解难度较大,学生的积极性不高,部分学生学习态度不端正,设计的课程考核机制不能有效地促进学生的学习积极性。
2 课程改革思路
进行课程改革目标是希望通过本课程的改革,使得学生在理论上掌握数据挖掘的基本概念,熟悉数据挖掘的各主要功能以及实现数据挖掘的主要步骤和具体实现方法,在实践上能够利用数据挖掘算法,实现对医学数据的信息挖掘的具体操作。通过理论教學和实验的训练,培养学生理论和实际相结合的实际运用能力。下面我们主要从如下几方面来解决教学实践过程中的问题。
2.1 医学数据挖掘教材与教学内容选择
医学数据挖掘作为数据挖掘在医学上面的扩展,不管是在教材选择方面还是在授课内容方面不同的院校都侧重点不一样,很明显通过传统的数据挖掘教材来执行教学计划十分的不合适,主要原因有二:传统数据挖掘教材主要面向计算机等专业学生,其学生的数学素养较高,在算法讲授上更容易接受,对于医学院校的学生,在掌握的能力上有所欠缺,其次是传统教材更注重算法原理推导,而对于医学专业学生更注重算法的应用性,综合上述两点,我们的采用策略是理论讲解以教材为主,尽可能使理论算法通俗易懂,避免学生陷入复杂的数学推导;而对于案例设计以医学背景的数据集合为主,重点突出不同数据挖掘算法应用在不用医学数据上的效果。未来的教学我们将整理近几年的教学资料形成授课讲义。教学内容的选择上我们没有像有些院校把不同领域的前沿算法在课堂上讲授给学生,我们课程的指导原则是以最基础的数据挖掘算法为基础,在内容选择以经典算法为主,比如关联规则算法(Apriori算法),聚类,决策树,朴素贝叶斯算法,神经网络,支持向量机等。最新的相关算法以课后扩展阅读的方式提供给学有余力的同学。我们的这种选择不管从学生素质还是培养目标来看,都更加合理。
2.2 鼓励学生以数据挖掘技术为基础,参加各类科研与大创项目
将所学的算法应用到实际的场景中,是对学生积极性的极大促进[4]。从目前几届的学生情况来看,通过参加各类竞赛和项目的同学,不但算法理论掌握扎实, 也极大地培养了学生动手实践能力,为后续应用数据挖掘算法打下了很好基础。后续的教学改革中,我们将继续引导对学生朝这方面努力,将所学的理论算法落地应用。目前已有多名同学申请了大学生科研项目和省级大创项目,同时还有同学以所学知识参加全国计算机设计大赛、人工智能挑战赛等赛事。通过这些活动极大地促进学生的学习积极性。
2.3 转化授课教师科研项目用于案例教学
医学数据挖掘授课教师主要从事数据挖掘方向科研,有很多科研项目用到了数据挖掘算法,比如SVM,决策树,贝叶斯算法等,对于这些项目如果直接照搬过来给学生用,难度较大,学生难以掌握,因此需要把相对复杂的科研算法经过精简后作为案例教学,这是我们课程组一致认为只有教师自己把算法理解通透并应用到了实际场景,才能在授课的时候把算法应用讲解透。目前我们已经成功地把基因特征选择的相关算法应用在案例教学上,学生非常感兴趣,让学生体会到所学知识的力量,后续我们将加大案例转化这方面工作,把更多老师的工作整理成教学案例。
2.4 理论教学设计
数据挖掘是理论性较强的课程,理论教学是学生掌握相关算法的重要环节,要完成课堂教学,必须从学生的特点,教材,授课目标,教学策略等方面展开。根据医学院校学生特点,我们采取课前发布本章所需的背景知识,比如讲解贝叶斯算法的时候,把相关的条件概率,全概率公式提前让学生复习了解,从而保证理论教学过程中的重点思想的理解。课堂教学我采取的策略是把基本算法讲透,扩展算法适当介绍的策略,课后我们鼓励学生利用网络教学资源,学习理论课程的网络视频资料,教师在整个教学过程中始终定位为一名引导者,坚持做到课堂教学与自主学习的相互促进,及时作业巩固对课程的学习也是必要的,对于有能力的同学,推送相关的学术论文。
2.5 实验教学层次设计
实验教学是理论教学的有效补充,两者相互促进,缺一不可。后期实验主要分三个层次,验证性实验主要通过WEKA来完成;其次是设计性实验,主要通过Python来实现,促进学生对算法工作原理的掌握;最后是综合性实验设计,通过对数据的预处理,比如异常数值处理、归一化等技术,然后做特征选择,模型训练,直到跑出预测结果。上述的每个过程对学习效果都会有影响,让学生能深入各个环节。具体如表1所示:
2.6 改革成绩评价机制,学习过程考核与期末测试相结合
以前成绩评价是以考试成绩加平时成绩为主的方式进行,发现有很多的弊端,主要原因是平时成绩记分方式简单,流于形式,不能很好地起到促进学习过程的作用。为了更加有效地促进学习,我们设计的形成性评价方案包含如下几个部分:期末考试成绩占70%(学校要求不能低于这个标准,授课老师认为60%更加合适),过程性的成绩占30%。30%的过程性成绩由15%的平时成绩,10%的综合作业成绩,以及5%的考勤。其中平时成绩主要体现平实作业,检验学生及时消化和巩固理论试验教学内容,这个相当于阶段性的测试成绩。授课教师可以通过这项成绩发现教学中的问题,把问题解决在萌芽状态。10%的综合作业成绩主要体现综合大作业的完成度,主要考查学生利用所学知识分析解决实际问题的能力。这种过程性设计,将考核目标朝多元化方向发展,使得学生更加注重学习的过程。
3 总结
在教育部大力发展新工科的背景下,医学数据挖掘作为医学院校中的信息类专业的专业课,顺应了人才培养目标要求。我们的教改从教材选用、教学内容,实验设计以及多层次评价等多个方面进行了改革与探索。实践表明,明确了教学内容,授课方式和辅助手段,培养了学生的自主学习能力,提升了学生的实践动手能力,在合理的课程评价体系下,很好地促进了学生的学习进程。总之,这门课程的教学改革,虽然我们取得了一些成绩,但还有很多不足的地方,我们将坚持改进与创新,不断完善课程。
参考文献:
[1] 葛晓燕.数据挖掘课程混合式教学改革探索[J].电脑与电信,2021(6):43-46.
[2] 汤显,石蕴玉.新工科背景下数据挖掘课程教学改革与探索[J].教育教学论坛,2019(42):141-142.
[3] 李姗姗,李忠.新形势下本科数据挖掘课程教学的反思与改革[J].新校园(上旬),2017(6):105-106.
[4] 修宇,刘三民.基于“竞赛驱动”的数据挖掘课程教学改革探索[J].福建电脑,2018,34(2):75-76,79.
[5] 邵俊明,杨勤丽.理论创新驱动的数据挖掘课程教学改革[J].计算机教育,2017(4):92-93,97.
收稿日期:2021-12-24
基金项目:皖南医学院校级精品开放课程“医学数据挖掘”(2018kfkc08);“互联网+创新教育”下医学信息基础课程混合式教学模式研究(2019jyxm25);省级“六卓越、一拔尖”卓越人才培养创新项目(2020zyrc159); 安徽省新工科研究与实践项目(2020-24); 皖南医学院示范实验实训中心(2020sxzx01); 皖南医学院校级教学研究项目“大数据背景下医学数据挖掘课程实践教学研究”(2018JYXM10);2021年度皖南医学院教学质量与教学改革工程线上课程(2021ylkc03);2020年安徽省高等學校省级教学示范课(2460)
作者简介: 黄道斌(1981—),男,江西永丰人,讲师,硕士,主要研究方向为数据挖掘,机器学习,深度学习。