潘媛媛 ,黄道斌,卢小杰,叶明全
(1.皖南医学院 医学信息学院,安徽 芜湖 241002;2.皖南医学院 健康大数据挖掘与应用研究中心,安徽 芜湖 241002)
2016 年国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》,健康医疗大数据成为国家重要的基础性战略资源之一,逐渐成为社会关注的焦点[1-2]。作为有效挖掘医疗大数据潜在价值的关键手段[3],健康医疗大数据分析与挖掘技术越来越被医药企事业重视,相关技术人才的需求增长也越来越迅速,然而具有一定健康医疗知识背景的大数据分析和挖掘人才依旧稀缺。在此背景下,医学院校为相关专业开设数据挖掘课程具有重要意义。通过数据挖掘课程的学习,学生可以掌握数据预处理、关联规则、分类、聚类、可视化等挖掘技术,并应用到生物、健康及医药卫生领域。同时,大数据时代的数据分析与挖掘需要学生具有优秀的数据挖掘建模能力,而能力培养离不开实践教学[4]。数据挖掘是一门数学理论要求高、实践性强的课程,对医学院校的本科生来讲实践教学具有一定的难度[5]。
数据挖掘这门课程早期是面向综合院校计算机专业开设的课程,但随着数据挖掘技术在健康医疗行业中的广泛应用,已成为医学院校相关专业本科生的专业课,如信管专业、医学信息工程专业等。目前,医学院校数据挖掘课程在实践教学中存在诸多不足。
(1)实践教学未能结合健康医疗行业特点。健康医疗大数据除了具备通用的大数据性,还具备高度专业性、多态性、隐私性、时序性、不完整性等医疗特性[6]。医学院校数据挖掘技术的人才培养应该进一步结合健康医疗行业特征,不仅要求学生有扎实的挖掘技术,还要熟悉健康医疗行业和相关业务需求,这也是医学院校开设医学数据挖掘课程的培养目标。然而,鉴于医学院校医学特点,数据挖掘课程开设较晚,在很大程度上“照搬”计算机专业,缺乏与健康医疗行业的结合。课程实验资源一般来自不同行业领域,与健康医疗相关的实践教学资源匮乏,不能让学生掌握医疗大数据的医疗特性,从而无法满足医疗大数据背景下对数据分析、数据处理的人才培养要求。
(2)实践教学无法满足不同层次学生的实践需求。在教学活动中,学生占学习活动的主体地位,每个学生都有自身不同的学习需求[7],调动学生学习热情,实践教学就必须围绕学生的主体地位展开。相较于综合院校计算机专业,医学院校学生计算机理论基础薄弱,实践教学没有考虑不同层次的学生理解能力以及实践能力的差异性,将实验内容和数据统一打包布置给学生,对于同一个实验内容,部分学生认为简单而重复性操作,部分学生则认为较难无法完成实验,忽视不同层次学生的学习需求,从而不能激发学生的学习积极性。
(3)实践教学资源不能体现完整的挖掘过程。完整的数据挖掘过程是包含数据采集、预处理、挖掘算法、结果评估、模型解释的完整过程[8]。以往的实验项目侧重于决策树、贝叶斯、支持向量机等具体模型的构建,忽视辅助模型构建的前期数据处理以及后期数据可视化等工作,不能让学生体会完整的医学数据挖掘过程,造成学生一拿到数据就开始套用模型却不知道选择模型的理由。
1)结合健康医疗特征。
有别于综合院校开设数据挖掘课程,医学院校开设数据挖掘旨在让学生掌握数据挖掘理论以及如何用数据挖掘技术解决实际健康医疗问题,这就要求课程培养必须紧密结合医疗健康业务特征。所以,实践教学资源库的建设应围绕培养健康数据分析人才而设计,其中实验案例和实验数据应以医学健康数据资源为主。例如,在自主研发实验案例时,将具体的数据挖掘理论(决策树、神经网络、贝叶斯、聚类、支持向量机)融入到临床诊断、生物检测、医院管理、健康管理等应用场景中,合理设计与医学背景知识相关的实验案例;在编写试卷时,应重点考查学生应用数据挖掘技术解决健康医疗数据的综合能力。
2)考虑不同层次需求。
实践教学必须围绕学生的主体地位展开,因此资源库建设须考虑不同层次学生的实践需求,具体表现为能让学生考虑自身包括兴趣、能力等在内的因素进行自主选择适合自己的实验项目。例如,针对决策树这一章内容,其资源库的建设过程中便可以同时包括以下实验项目:①给定一个糖尿病数据集,试计算年龄、高血压、吸烟史3 个属性的信息熵;②给定一个完整的糖尿病数据集,实现基于信息熵进行划分选择的决策树算法,并为数据集生成一棵决策树;③给定一个具有连续属性值的含有缺失值的糖尿病数据集,能否用决策树算法实现分类?若能则产生基于信息熵的决策树,若不能则说明理由。
以上3 道实验项目难度逐层递进,通过第1道实验项目的实践,学生能够及时复习巩固课堂理论知识,适合基础稍弱的学生完成;通过第2道实验项目的实践,学生能够掌握决策树分类的基本过程,能让学生意识到用所学知识完成实际问题的成就感,激发学习热情,比较适合基础较扎实的学生完成;第3 道实验项目具有创新性,需要学生大胆推测、积极摸索与实践。资源库的层次性原则保证了不同层次学生都能找到适合自身的实验内容,激发学习的热情和积极性。
3)遵循开放性。
开放性原则包括两方面含义:一方面,对于教师而言,资源库建设应该汇聚医学数据挖掘课程组全体教师的集体力量和智慧,给予教师上传、修改和完善资源库的权限,同时资源库共享给老师作为课堂教学的案例来源;另一方面,对于学生而言,既要保证资源库形式的开放性,有自主选择的验证性实验、综合性实验、设计性实验等,又要保证资源库实验案例的构成应具备开放性,设置必做实验(教师要求必须要做的实验),设置“自助实验套餐”(学生选择自己想要做的实验),设置“实验套餐”(教师要求的部分必做实验和学生可做的部分可选实验),不同的学生根据自己的实际需求选择适合自己的实验项目或套餐进行操作,也保障学校实验课的安排和老师对学生实验效果的评价过程。
根据资源库建设应遵循的原则以及对数据挖掘实践教学不足分析,采用“三级四层”设计方法对实践教学资源库进行建设。按照素材级资源、案例级资源和试卷级资源对资源库资源进行三级划分建设,考虑资源整合程度、学生实践需求以及医学院校人才培养特点按照基础层、初级层、应用层、提高层对资源库进行层次建设。“三级四层”设计框架如图1 所示。
图1 资源库建设框架
1)素材级资源。
素材级资源是指通过网络收集、医院信息系统采集、自主编写以及科研课题产生等各种形式获得的原始数据资源。主要包括实验数据集、文本、图片、视频、动画以及仿真软件等,如公开地剔除病人隐私的医学病例文档和图像、数据说明词典、实验操作视频、实践指导文档等。素材级资源是没有经过处理的第一手资源,保留实验资源的原始特征和规模,教师可根据实验教学的实际需要进行自主处理,提高实验案例设计和编写的灵活性。
2)案例级资源。
案例级资源是指在素材级资源的基础上按照数据挖掘课程的教学重难点对资源进行整理、加工形成的实验教学案例资源,既是学生掌握课程知识点和提升实践能力的重点资源,也是老师理论、实验教学的主要案例来源。实验案例资源可通过专业老师和学生共同完成设计、编写和修正。
3)试卷级资源。
试卷级资源指从素材级资源、案例级资源的基础上随机产生的评价学生学习效果的各种测试卷。主要包括课堂测试卷、课程期中试卷、课程结束考试卷以及学生平时练习卷等,从而充分发挥考察学生学习效果的功能。
“四层”框架结构是实践教学资源库对“三级”资源进行具体的整合和设计,主要分为基础层、初级层、应用层和提高层。
1)基础层设计。
资源库基础层是对“三级”资源的初级整合,主要是对各级资源通过整理、加工、分类、维护、排序、检索和传输等数据处理过程形成的各种素材库、案例库和试卷库。其中素材库按照资源类型形成数据集子库、文档子库、图片图像子库和仿真软件子库等;案例库按照课程知识点形成决策树案例子库、聚类案例子库、贝叶斯分类子库和支持向量机案例子库等。基础层的设计目标主要是便于师生对教学相关素材的查询和获取。
2)初级层设计。
初级层是对“三级”资源的深入整合,主要是设计帮助学生理解数据挖掘算法,复习基础知识点,明确基础方法的验证性实验库。验证性实验库包含一系列具有明确目的、详细步骤的与知识单元一一对应的验证性资源。例如,给定一个小型的乳腺癌数据集,让学生按照实验指导上的实验步骤一步步完成数据规范化的处理。验证性实验库比较适用于学习基础稍弱、理解能力稍差的学生按照实验要求完成相应实验步骤。
3)应用层设计。
应用层是对“三级”资源的更加深入的整合,主要是设计具有课程教学逻辑的综合性实验库,综合性实验库包含一系列能够覆盖若干知识点和方法的考查学生综合运用能力的综合性资源。主要是按照数据挖掘技术方法对资源进行的任务化设计,例如,给定门诊患者体检指标数据集,让学生先结合分类模型对数据集进行特征选择,再在筛选所得数据集上根据k-均值聚类算法(采用欧式距离)计算前五次迭代后的三个聚类中心和聚类结果(设k=3,初始聚类中心为6、16 和26)。综合性实验库比较适用于基础较好、学习能力强的学生,指导学生应用一个或多个数据挖掘方法分析复杂的健康医疗数据。
4)提高层设计。
提高层是对“三级”资源的最深入的整合,主要是以项目的形式构建设计型实验库,又称为创新型实验库,比如设计临床决策支持系统、糖尿病预警系统等。此类实验针对完整的数据挖掘过程,即包含数据采集、预处理、算法应用、结果分析、结果解释和呈现等。主要目的在于使学生了解实际数据挖掘的完整流程,使学生在主动参与设计课题的过程中逐步构建起对数据挖掘应用的认识。实验项目可以分解为多个子任务来分步实施,且一般由实验小组合作完成。设计性实验库比较适用于创新意识较强的学生,培养学生既熟悉医院信息系统业务逻辑,也能真正解决健康医疗领域中实际问题的创新能力。创新性实验库可成为辅助学生参加校内外各种数据分析比赛的训练场。
在健康医疗大数据背景下,医学院校为相关专业开设数据挖掘课程具有重要意义。实践教学资源库的建立对培养具有一定健康医疗知识背景的大数据分析和挖掘人才有重要的促进作用。基于实践教学资源库建设原则提出的“三级四层”资源库建设框架,培养了学生的实践和创新能力,适应健康医疗大数据的人才需要。另外,为了使实践教学资源库更好地服务于教师和学生,在今后的研究中应进一步构思数字化实践教学平台的建设。