余夏夏,庄锦湖,熊 娟,陈 思,王子梅,应 颖,高 毅
深圳大学医学部:1.生物医学工程学院;2.公共卫生学院;3.基础医学院;4.医学教育发展中心,广东 深圳 518000
随着信息技术的发展,大数据时代随之到来,医疗大数据应运而生,其对于临床辅助诊断、研发药品等医疗各个方面都有着重要的作用[1]。2015年,中国陆续颁布相关指导性文件以规范健康医疗大数据的应用发展。2016年,国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》,标志着医疗大数据正式纳入国家战略之中[2]。短短十几年间,以健康医疗大数据为代表的新型医疗形态正在重塑医疗卫生体制改革机制,不断满足人民群众多样化、个性化的健康需求[3],健康医疗行业迎来数字时代。
医疗大数据在医疗界已经有着许多应用;但是,目前在医学教学上却鲜有报道,庞大的数据资源与不高的利用率和挖掘程度,使得学生难以接触到真实世界的大数据。没有数据的支撑,理论和实践相分离,这使得教师的授课不能更好地贴近实际,学生对于理论的理解不能提升到实践层面,不利于培养学生的实践能力。医疗大数据和医学教学相结合,依据混合式教学模式[4]搭建医疗数据分析科研教学平台,或许有助于解决这些问题。基于互联网的教学平台使得医疗大数据的共享和使用成为可能,而教学也可以不再局限于固定的地点和时间段,降低学习活动开展的时空限制,学生可以随时随地访问平台获取数据和分析数据,从而激发学生的主动学习热情,培养学生的实践能力和自主学习能力。
教学平台的结构如图 1所示。该平台基于Py- thon并采用浏览器/服务器模式(B/S模式)进行搭建。其中,Django模块是基于Python的已经编写好的Web框架[5]。根据需求平台功能会继续得以完善,因此代码管理十分重要。Vue模块是一个用于构建用户界面的渐进式框架[6]。该模块上手简单,轻量快速,可以更好地管理代码,有利于平台的维护与管理。依靠包含医疗大数据和用户信息的数据库,平台通过浏览器为用户提供相关的学习交流功能和学习资源。
图1 教学平台结构设计图
基于满足教学需求的立场出发,该平台设计主要遵循实用与合规两大原则。
1.2.1简便实用
平台是用于教学的,如果功能设计得多而复杂,将不利于教学的实施。对学生和教师而言,需要的是一个方便使用的平台,不用花费过多时间熟悉平台。功能和界面可以完善,但重在实用易上手,不能太过复杂。
1.2.2合乎规范
平台的构成中涉及医疗大数据,应该遵守相关的规定对数据进行隐私保护,对平台不同成员赋予不同权限。这种不同账号权限是目前常用的管理方式,既保障了数据安全,也减少了不必要的功能展示,减轻用户上手难度。
平台所纳入的医疗大数据资源目前主要由三部分组成,分别是三个公共的医学数据库:MIMIC III(Medical Information Mart for Intensive Care III)数据库[7]、MIMIC IV(Medical Information Mart for Intensive Care IV)数据库[8]、FDA不良事件报告系统(FDA Adverse Event Reporting System,FAERS)数据库[9]。医学图像数据则来自Figshare网站上一个公开的脑瘤数据集Brain Tumor Dataset[10]。
MIMIC是一个重症医学数据库,是贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医师、重症科医师、计算机科学专家等共同建立的。其中,MIMIC III涵盖该医疗中心2001—2012年间ICU患者数据,MIMIC IV则涵盖了该中心2008—2019年间的ICU患者数据。MIMIC数据库具有资料详细、样本量大和种类多的特点,并且两个版本的融合使得探寻时间与疾病等关系的研究有了更多可能,4万多患者的信息可以很好地满足课程的研究需要。该平台中的MIMIC数据库包含的数据集分两类:一类是临床数据;另一类是床旁监护设备采集的波形数据和相关生命体征参数记录事件。
FAERS是一个旨在支持FDA对药品和治疗性生物制品上市后监测计划的数据库,该数据库包括了FDA收集的所有不良事件信息和用药错误信息。平台中的FAERS数据库数据用于丰富和完善相关的数据类型。
脑瘤数据集则是采集于中国南方医科大学南方医院和天津医科大学总医院2005—2010年期间的患者大脑CE-MRI图像数据,共计3064张[11]。这一数据集可以补充前两个公共医疗数据库在医学图像数据上的缺失。
平台主要面向对象是医学教育领域中的师生,包含大量与大数据相关的学习资源。这些资源主要包括课程讲解、课程习题库、教学视频和数据资源等。资源的上传主要由管理员与教师完成。学生可以自主访问和调整学习内容、学习顺序、学习速度等,使他们能够定制个性化的学习方案,并通过教师发布的相关习题进行巩固。基于教学需要出发,平台由可视化、师生互动、课程资源、数据分析和平台管理五大模块组成(如图 2所示)。
图2 平台功能架构
可视化模块不仅提供给学生对数据进行可视化分析的功能,还允许教师对学生的作业完成情况、成绩等进行可视化分析,从而直观地掌握学生的学习情况。
平台数据可视化功能是由Grafana实现的。Gra- fana是一个开源且跨平台的数据可视化工具,可以将枯燥的数据通过美观的图标展示出来,并且可提供数据监控、统计和告警等功能,是目前较优异的数据可视化工具之一[12]。Grafana具有以下优势:①灵活的图表功能,面板有着可视化的工具和日志,并且官方库中已经有许多的仪表盘插件(折线图、饼图等);②支持多种数据源,并且可以实现数据源的混合展示,且Grafana可以多角度展示可视化数据;③支持使用SQL语句进行数据库查询,也可以通过使用给定的选项进行数据查询。
平台通过搭载Grafana工具,使得教师能够在学生完成相关任务之后,对其完成情况、所讲课程对学生是否有提升等各项指标进行可视化处理和展示。同时,教师也可以自行配置好可视化模板,向学生展示可视化医疗数据,教授统计学的相关技能与展示医疗数据的应用,其各个功能模块图表以及模板如图 3、图 4所示。教师可以利用平台判断学生的作业完成质量,并给出相应的成绩,不再需要通过对学生的代码以及编译结果的截图进行评分。
图3 可视化数据查询
图4 可视化选项
在传统教学的教学过程中,一般教师通过板书、PPT或者教材等工具向学生传授知识,师生之间缺乏交流互动,难以激发学生的独立思考。随着教师在黑板上循序渐进地进行公式定理的推导,传统的板书有助于学生对知识点的理解消化;但是,这种模式极其依赖教师个人主导能力的发挥,教学手段单一且教师的重复工作量较大;有些高校则过分强调开展多媒体教学,授课被现成的多媒体课件牵着鼻子走,教师从写黑板到点鼠标的变化,实际上违背了数学类课程教学的特点[13]:这些都会造成学生对知识的掌握刻板且不懂变通,课堂气氛沉闷等问题。为此,平台为学生提供了交流互动方式:学生可以在学习过程中向教师询问相关问题,也可以学生之间相互讨论;同时可以利用平台提供的PDF标注工具标注出自己理解困难的部分,在向教师提问时能快速定位自己理解困难的内容,有助于学生较快解决学习上的问题。
平台的课程资源对于用户而言是共享的,这些数据主要包括课程视频、习题库和医疗大数据等。除了由管理员来上传这些公共资源,平台也向所有教师开放了上传功能的权限,使得每一位教师都可以根据自己的课程需要增添新的内容,并且自主选择是否共享出来,从而丰富平台整体的教学资源。
数据分析模块主要提供数据管理、分析工具和模型构建三大功能。
2.4.1数据管理
数据主要来源于平台提供的MIMIC数据集资源与教师上传的数据。学生可以根据需求下载进行相关的实践学习,以增强对所学知识的理解。
2.4.2分析工具
平台提供数据分析与可视化工具,并且提供了R语言、SQL语句等,用户可以自行完成数据可视化、相关性分析等统计学任务(如图 5所示)。
图5 可视化示例
2.4.3模型构建
平台提供相关的在线代码编辑器的功能,实现基于浏览器完成代码的编辑,在平台上就可以完成Python、R和SQL语句等相关数据分析和模型构建程序的编写,学生不需要再自行下载相关的数据分析软件,并把大量的时间花在环境配置以及软件安装上(如图 6所示)。
图6 代码编辑器
同时,教研团队模拟当前流行的算法大赛形式,提供了打榜功能。教师可以设置项目与打榜规则让学生构建模型进行竞争打榜,极大地发挥学生自身的主观能动性和自主学习能力,不仅可以将课堂中所学的知识灵活运用,同时促使其主动学习课本之外的新知识、新理论。
平台管理模块主要负责平台的维护、解决相关技术上的问题和提供技术上的支持,包括根据用户身份的不同而进行权限分配、资源审核管理等。
医疗数据分析科研教学平台于2021年初正式引进课堂,经过一年的测试与使用,可以较好地满足目前课程的需求,至今平台的授权注册用户为72个,其中超级用户2人,教师用户2人,学生用户68人,并且已经完成基于混合式教学[14]模式的“医学统计学”“Python与机器学习”等课程的教学实践。为了解该教学平台的使用效果和满意度,采用自制问卷对师生进行满意度调查,内容包括平台整体体验、互动性、易用性、有用性、持续使用意愿5个方面,问卷采用李克特(Likert)5级量表法[15],其中所有平台量度评价题项均记正分。另外,将利用平台进行教学的2021级学生作为试验组,将没有利用该平台进行教学的2020级学生作为对照组,进行“医学统计学”和“Python与机器学习”两门课程的比较,观察该平台对学生学习成绩的作用。
问卷调查结果显示:师生对于平台比较认可,得分为(3.56±1.07);操作的难易程度得分为(4.17±1.01),互动性得分为(3.44±1.26),均满足师生操作的需要;平台的有用性得分为(3.56±0.96),但学生对平台的认可度存在较大的差异,其持续使用意愿得分为(3.61±1.11),这可能是由于平台本身存在不足,也可能是由于平台刚开始引进,学生还没有完全适应平台操作。
教研团队将2021年度引入平台的课程与2020年度未引入平台的相同课程进行对比。平时成绩由于平台的引入而有所改变,为了更好地比较平台对于学生知识吸收掌握的影响,教研团队排除平时成绩的占比,仅对期末成绩进行比较(如表1所示)。
表1 课程期末成绩比较
在“医学统计学”课程上,学生的期末成绩维持稳定,是否引入平台对于学生的统计学理论学习提升并不显著,引入平台的作用是使学生不再局限于纸上谈兵。而“Python与机器学习”课程是一门实践性较强的课程,本科教育对于机器学习知识的考查侧重于学生的实践能力,对理论创新性要求不高[16],引入平台可以很好地满足学生对课程实践的需求,使得学生拥有大量机会进行实际运用,对于其课程学习起到很好的促进作用。
“人民健康优先发展”是中国医疗卫生健康领域的发展理念,全民健康是全面小康的重要组成部分[17]。数字时代、生物科技和新一代信息技术驱动健康医疗大数据在医疗卫生领域融合突破,成为医疗发展的新引擎。然而,中国的健康医疗大数据面临着共享效率不高、共享范围有限等多方面挑战[18],因此高等教育作为人才培养的主要基地,应该积极作为,为医疗大数据的教学应用探索一条新道路。
医疗数据分析科研教学平台于2021年春季学期投入使用,其基于互联网的远程交互性,逐步统合公开的医疗数据资源,打造数据分析案例,从而为“新医科”建设[19]提供良好的实践平台。在平台未来的建设和实践中,应对日新月异的技术进步和教学问题的出现,平台仍然有着很大的可塑性。首先,平台的应用将继续得到改进与丰富,包括完善讨论区,增加学生线上学习情况分析,增强后台数据的利用率等,可以更好地关注、反馈学生的学习情况;其次,将平台扩展应用于医学教育的更多课程中,根据不同医学课程的特点和需求,在实际教学的变化中改良平台,使得平台可以个性化应对课程需求;最后,医疗数据始终是平台构建的基石,为加强医疗数据,应从丰富数据资源与多来源数据兼容两个方面着手:①平台将引入更多现有的医学影像数据库或其他院内数据,也将引入新冠肺炎数据资源,如nCoV[20],丰富医疗数据资源的种类;②基于HL7 FHIR标准[21],构建数据映射工具,将引进的医疗数据映射为统一标准,从而以一致的数据格式实现跨多个来源的数据交换,使得平台成为医学数据的整合中转站,为学生后续投入科研提供更多资源,甚至为医学研究提供助力。
大数据时代的到来,使得医疗领域迎来新的发展契机,随着产业和社会的进步,大健康产业的诞生促使高校做出变化,医疗数据分析科研教学平台的构建,旨在为医疗大数据的教学应用探索一条新道路,这是一次应对互联网+时代的进步,拥抱技术的尝试。合理有效地在医学教育领域中发挥大数据的优势,需要医学教育行业的师生共同摸索,通过医疗大数据带动高校医学教育进步,不断为医学教育增添新的元素和活力。