应用场景浸入式医疗健康数据挖掘课程教学改革探索

2022-03-05 09:49邵泽国
科教导刊·电子版 2022年1期
关键词:数据挖掘医学实验

任 和 邵泽国 李 萍 凌 晨

(上海健康医学院医疗器械学院 上海 201318)

随着大数据时代不断发展,数据挖掘分析技术在飞速提升,各大院校对大数据专业的建设力度也在不断加重,而数据挖掘课程作为大数据方向的重点课程,也成为着重建设研究的课程之一。从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向相关联,不同的是数据挖掘更侧重于应用的层面,是一门以数据理论知识为基础、以方法论为核心,重视创新能力培养与训练的综合性学科[1,2]。新工科背景下,如何进行大数据专业技术课程的教学改革和实践探索,以培养具有突出实践能力与技术创新能力的跨界复合型大数据人才,已成为高校数据科学与大数据技术等专业及其相关扩展专业教学改革研究亟待解决的重要内容和热点问题。对于医学院校而言,如何有效的将大数据知识点与医学应用有机结合,实现学以致用,更是探索的重点问题。

1 现状及问题

1.1 大数据人才培养现状

大数据的飞速发展引起了世界各国的高度重视。英美法等诸多发达国家纷纷出台研究和发展计划,斥资数十亿美元联合多个政府部门大力推动泛大数据领域的发展[3-6]。我国对大数据也极为重视,2014年的“两会”提案中,更是将大数据业务上升为国家战略[7]。国家政策的持续重视突显出了市场对大数据人才的渴求。同时,对大数据人才的教育培养也成为了热门研究对象,特别是对具备以大数据为核心研究对象,利用大数据的方法解决具体行业应用问题的相关人才的培养。2015年,国务院发布的《促进大数据发展行动纲要的通知》明确指出:鼓励高校设立数据科学等专业,重点培养大数据专业人才、大力培养跨界复合型大数据人才、积极培育大数据技术和应用创新型人才[11]。可见对大数据人才的多元化培养,是政府、各大高校和企业未来重点探索的目标和方向。自 2016年发布的《2015年度普通高等学校本科专业备案和审批结果》中首次增设数据科学与大数据技术专业起,到2018年全国已有248所高校开设了大数据专业课程,其中部分高校还建设了大数据学院和大数据研究院[8-10]。

大数据技术的飞速革新以及大数据人才的持续需求,也对大数据人才培养提出了更好的要求。如何培养适应大数据的技术快速发展、数据结构多样、结合领域广泛等特点的优秀人才成为了教育界持续讨论的热门课题,各大院校也针对大数据特点开展教学改革,力图保证教学培养与市场需求的一致性。

1.2 医疗健康大数据人才培养的难点/痛点

医疗健康大数据是与大数据技术结合最为活跃专业领域之一,是医学、数据科学等多学科多技术交叉的学科。通过数据分析为传统医学诊断提升维度继而发现新知识、新规律,进而促进精准医疗,提升医疗价值。如此新兴的领域对人才培养也提出了更高的要求。由于医学院校自身的特点,学生需要学习大量医学相关课程,而如何将信息处理技术和所学的医学知识相结合成为了困难点,同时也造成课程教授的过程中多出现理实分离的现象。相较于传统培养方式,医学健康大数据人才不仅需要掌握专业基础知识,更需要具备较强的应用实践能力。课程体系和教学模式是人才培养的核心组成:医学健康大数据课程体系需要做到传统医学课程和大数据课程齐头并进,确保课程教授过程中先验知识储备的完整性;而教学模式的创新更是医学健康大数据人才培养的重点和难点,如何在学习知识和大数据技术的同时了解并掌握其使用方式和应用范围也正是本文讨论的关键之处。

1.3 医疗健康数据挖掘课程教学存在的关键问题

数据挖掘作为大数据方向的基础课程,在医学健康大数据专业中也十分重视,同样也存在的一些问题。例如学生学习“线性回归”课程后了解线性回归模型的工作原理和算法使用,但在要求他们对实验课中提出的“肺癌患者预后问题”进行研究时,他们无法快速的整理出自变量和因变量可能关系、分析实验数据的有效性,即便跟随实验步骤完成此次实验,之后换成“卵巢癌患者用药监控及预测问题”又会再一次陷入困境,针对研究问题的自我变通能力较差;也有学生学习“logical回归”课程后,通过大量实验熟悉了该算法,但却不清楚模型参数所代表的含义,在得到训练模型并分析结果后无法结合实验场景任务要求对模型和结果进行解释。这样的学生所学知识点较为片面和分散,没有真正达到医学健康领域的应用能力要求,无法适应医学和信息技术融合的医学信息人才需求。

同时,学生的学习效果两极分化比较严重。数据挖掘课程涉及到多个学科方向,所以其项目的工作量一般比较大,而医学课程本身也复杂繁多。不少同学在独立完成的过程中容易因为诸多困难而放弃懈怠,通过抄袭等手段完成作业,实验并未起到辅助学生熟练运用课堂理论知识的目的。同时,很多医学信息实验需要多学科的合作,对学生的项目参与能力提出更高要求。这就需要学生以团队的形式浸入到医学场景的背景下进行课程学习和联系,才能更好的实现课程效果。

2 数据挖掘课程教学模式改革

理论知识来自于实践,实践作为检验理论知识的唯一途径。“应用场景浸入式”教学模式是以实际应用场景为课程切入,以实际问题为驱动,通过对问题的解析和拆分为引导,帮助学生自助发现解决问题的合适方法,进而实现理实结合。为了有效提升课堂教学效果,教师需要使学生们全面了解数据挖掘应用领域以及具体原理。在开展教学时,通过“应用场景浸入式”教学模式将数据挖掘基本原理、概念以及算法与实际案例进行有效结合,帮助学生全面了解数据挖掘在大数据处理中发挥着重要意义和作用[12-16]。

数据挖掘一般分可以分为问题定义、数据获取、数据清洗、特征选择、模型建立、模型优化、评估和分析。问题定义部分主要教授对问题的分析能力,判定需求是回归问题还是分类问题等;数据获取部分主要教授通过爬虫、问卷、随访、追踪等方式收集采集各类数据的方式和代码能力,学会根据数据挖掘任务的具体要求,从相关数据源中抽取相关数据集。数据清洗部分主要教授对“脏”数据或不规则数据类型的整理清洗手段,清楚重复样本,清除疑似错误异常的样本,清除偏离样本整体分布的样本,对数据的归一及质控可以很好的加速之后的模型训练;特征选择部分主要教授分析问题需求及数据特征避免维度灾难,降低模型复杂度,提高模型可解释性;模型建立部分主要教授多种数据挖掘分析算法,帮助学生了解多种算法的不同用途和角度,帮助学生了解并熟练运用各类算法;模型优化部分主要教授模型的选择、调参、优化等针对不同需求强化模型局部或全部的能力;评估与分析部分主要教授对模型性能的多角度评估,对模型结果的分析以及于课题实际问题的解释能力,如图1所示。

图1:数据挖掘课程一般流程及问题解决方案

由此可见,数据挖掘课程的知识点密集且相互连贯需要大量的实战应用,而在医学院校中所学医学知识较为专业入门比较困难,两个领域结合课程的教授过程容易出现理实分离的问题,如何有效的将两者结合起来成为了课程教授的关键。本文探讨通过团队协作和应用场景浸入式的方法优化医学院校数据挖掘课程学习过程。

2.1 团队协作

面对数据挖掘课程实验项目所包含的诸多知识点,独立学习很容易产生疲惫,密集的知识点也让学生很难有效的总结所学,反而学习效率不高。组织学生形成实验小组是一个行之有效的方式。数据挖掘的过程:问题定义、数据获取、数据清洗、特征选择、模型建立、模型优化、评估和分析。在实际过程中可以归纳为问题定义、数据准备、模型构建、评估与分析。因此,可以安排三至五人形成一个学习小组,参考数据挖掘课程知识流程对成员进行分工,具体如下:小组成员集中讨论大课题内容,分析问题方向,明确问题定位,基本确定是分类/回归问题等,同时对组员职责进行确定;确定研究角度,安排一到两人针对本组子课题问题方向,通过数据收集手段寻找收集相关数据,并对数据内容及类型进行清洗,方便后续训练使用;根据小组讨论确定的方向,分析所收集数据的数据集特征,在课程范围内确定一到两个原型模型进行分析使用,经过初步测试后,小组集中讨论确定模型优化方向,完成后使用清洗过的数据进行训练,并得到结果;最后,由一名同学评估模型性能,形成报告,同时全组讨论分析结果的意义。

2.2 应用场景浸入式

数据挖掘课程的内容知识需要实时的实验训练才能帮助学生快速掌握,因此设计一套应用场景浸入式的教学流程是十分有效的。根据课程教授中遵循数据挖掘的实际操作过程,并结合构思一套完整的实验项目配合理论课程进度,实现课程过程浸入一个完整的医学问题背景下,有效的串接了医学知识和数据挖掘知识。例如以流感在我国发病情况,分析地域对流感感染传播的影响为例,在教授分类/回归问题定义时候,组织小组自行讨论问题多种方向角度,明确问题定义并说明理由;在教授数据采集及数据清洗等知识点时候,安排各组成员在课题下从不同的角度建立子课题,并利用课堂所学的知识,通过多个渠道采集收集各类流感相关数据,对数据进行清洗;在教授数据挖掘算法时候,要求各小组负责同学,分析课堂所学结合小组课题需要选择模型,并通过之前的数据进行分析训练,同时讨论模型是否可行,确定优化方向并完成优化;在教授模型性能评估时候,指导学生对之前的模型进行评估,同时小组成员对结果进行分析和解释。

2.3 结果反馈

本研究在学校4个班级共158名学生中进行实验,平均以4-5人一组,分别以“中国人口密集度分布及流动走向”及“地域中多因素对流感传播的影响”为课题进行了2次小组实验,各环节人员分布统计如图2所示,按时完成率为100%。由图可见,经过2次实验的训练绝大多数学生都经历数据挖掘各知识点的训练。以总分100分、数据采集30分、模型建立40分、结果反馈30分,对其进行打分,平均分如图3所示,绝大多数小组实验完成得分均超过80分,效果良好。

图2:实验小组任务人数结构图

图3:各班实验各环节平均分

3 讨论

医疗健康数据挖掘课程教学过程不仅仅是大数据算法的教授过程,更是要帮助学生代入场景真正掌握使用最有效的方法解决不同的医学问题能力。

通过如图1所示的应用场景浸入式的授课模式,可以保证理论知识与实验内容的结合,同时将大数据技术融入医学背景,突出医学专业优势(如表1所示)。通过一个完整主题的实验项目贯穿整个理论课程,使得学生能够很好的传来所学知识,并快速运用到实际问题中。学生在理论学习的同时,实时的进行实验项目训练保证了知识的连贯性,有效的提升学生学习效果。在学习数据挖掘算法原理的同时熟练掌握其应用方式和范围,真正做到学知所用,培养出符合市场需求的大数据人才。此外,通过团队协作、角色轮换的实验训练培养模式可以使得学生们在协作完成实验的过程中保持积极性,并习惯协同工作的作业模式,对过程中的每个环节都能做到熟练掌握,灵活变通。经过两至三次实验项目的轮换,能够实现每位同学都经历了数据挖掘的各个步骤的训练。不仅能培养同学团队协作的能力,在降低单个项目工作量的同时,通过组员的相互督促和鼓励促使同学完成任务。完成实验的同时又清晰的了解了项目过程每个环节的连贯性和必要性,日后进入公司企业也能快速融入团队。

表1:数据挖掘课程知识点的医学背景示意表

通过反馈结果可以发现,以小组形式进行应用场景浸入式的数据挖掘课程进行的教授效果良好,学生参与度极高,从最终分析结果的反馈来看对数据挖掘在医学健康背景下的理解也较为深入。学生们的学习兴趣得到普遍提升。

4 结语

大数据技术是一门蓬勃发展的技术,已经在各个行业得到了广泛的使用。在数据驱动的信息技术时代,跨界复合型大数据人才创新培养工作仍处于起步探索阶段。数据挖掘作为其中重要环节,也成了医学院校学生需要掌握的技能之一。通过构建合理的课程讲授体系结合实践内容,可以有效的提高学生能力和素质,以协同作业的实验团队合作模式加以辅助,为大数据人才培养教学做出贡献,切实有效的培养具有突出集成实践能力与技术创新能力的复合型大数据人才。

猜你喜欢
数据挖掘医学实验
医学的进步
做个怪怪长实验
基于并行计算的大数据挖掘在电网中的应用
NO与NO2相互转化实验的改进
实践十号上的19项实验
医学
一种基于Hadoop的大数据挖掘云服务及应用
医学、生命科学类
基于GPGPU的离散数据挖掘研究