巩永强 ,王 超,许海云,方 曙
1中国科学院成都文献情报中心,四川成都,610041;
2中国科学院大学经济与管理学院图书情报与档案管理系,北京,100190;
3济宁医学院医学信息工程学院,山东日照,276826;
4山东省科学院情报所,山东济南,250014;5山东理工大学管理学院,山东淄博,255000
随着信息技术发展及智能设备的广泛应用,行业与个体产生的大量复杂数据以多种形式得以保存,社会数据量产出呈明显指数增长趋势,人类社会从以信息技术(information technology, IT)为主的信息时代进入以数据技术(data technology, DT)为主的大数据时代,数据成为行业新资源。全球知识平台网络互联背景下医学知识的融合、病情事实的分析及诊疗方案的制定所需的知识由传统的熟记硬背转为对相关信息的定位[1],医疗质量的维持和提高从完全依赖人力评估转向结合人力判断的医学数据。慢性病大数据、组学数据和高通量数据在临床医学中的应用使得与疾病有关的全方位大数据的获取与分析成为可能,医生对疾病分析实现了从个体到群体再到个体的转变,医疗模式由以通用既定方案为中心的治疗模式转向以促进健康、疾病预测和个体化诊疗为中心的预防模式。数据技术的临床应用从根本上推动了医疗体系的数字化转型,医疗数据带来的挑战和影响持续扩大,数据意识(data awareness)和数据素养(data literacy)成为当前及未来医疗人才需具备的标准配置[2],特殊时代背景促使医学教育领域开始重视医学生的数据思维及数据搜集和分析能力的培养,使其能够基于专业知识分析相关医疗数据得出最适合病患的个体化诊疗方案。1910年发布的《Flexner报告》将当代科学引入医学教育,面对数据技术对医疗领域的冲击,现代医学教育体系有必要纳入数据素养教育实现学科的重新建构和可持续发展[3]。基于此,本文针对医学数据素养的内涵和教育实施路径进行探讨,以期为后续相关的理论与实践研究提供借鉴和参考。
国内外已有大量文献针对数据素养概念进行了研讨,研究角度不同致使研究结论各异,概括起来可分为以下4种类型:①信息素养观。美国大学与研究图书馆协会发布的《高等教育信息素质框架》新增数据素养描述,从信息素养教育角度认可了数据价值[4],部分学者认为数据素养是信息素养在大数据时代的延续和扩展[5],然而严格来讲数据的外延大于信息,数据素养所需要的知识技能是数据层面进一步的具体化和复杂化,因此数据素养并非信息素养的单纯提高和深化。②统计素养观。另有研究认为数据素养是对统计数据进行批判性思考并将其作为证据的能力[6],有学者直接将数据素养等同于统计素养[7],但是数据科学领域中数据分析侧重数据背后知识规律的挖掘,其所要求的数据处理技能多在统计能力范畴之外,二者虽有相同之处但各为独立概念。③科学素养观。多数文献强调数据素养是处理科学研究数据集所需的知识与能力[8],认为数据素养是具备数据知识和技能并能利用数据资源发现问题、分析问题及解决问题的能力[9],但是数据素养的概念覆盖多种数据类型,科学数据素养的研究对象主要为高度系统性的科研数据,所以侧重论述科研数据的定义较为偏颇。④数据管理观。更多研究认为数据素养是数据收集、管理、评估、共享、应用等一系列关键能力的组合[10],是数据道德规范下发现和获取、选择和评估、管理和处理、利用和共享数据,基于数据解决问题的意识和能力[11]。数据管理观定义高度概括了数据素养所需知识能力,但其基于群体角度分析适用于大众的数据技能,未考虑学科和专业等因素,代表性存在不足。综上可知,学界对于数据素养尚无统一定义,学科化的医学数据素养概念更是少有探讨,医学数据素养的概念和内涵有待深入研究。
探究医学数据素养的概念首先应了解医学数据的特殊性和复杂性,因为除具备常规数据的共性属性以外,医疗数据还拥有诸多独有特征:①大规模和实时性。医院信息化建设促成了患者数据的产出和保存,精准医学发展也导致个体病理数据的急速膨胀,基因组、影像诊断、实验室图谱等高速增长的诊疗数据呈现海量规模,传统医疗业务的数字化产生更多实时监控数据,如远程医疗、麻醉监控和ICU监测系统等,因此医疗数据具备大规模和实时增长的特点。②价值性和隐私性。大数据时代个人健康数据应用于新药研制、疾病诊断和干预措施研究等商业行为会产生重大效益[12],纳入系统研究则有助于疾病诊疗规则的建立和疾病攻克。患者医疗信息包含其身份信息、生物特征、疾病信息等个人敏感数据,所以相较于普通数据,医疗数据的价值性和隐私性更高。③不完整性和不准确性。诊疗措施的多样性致使医疗数据大多为多维纵向数据,患者多病种以及诊疗中断、人工记录主观化、数据迭代更新等原因易造成数据项出现偏差和残缺等问题,同时表述方式不同(如疾病的名称和病案编码)等语义信息差异也导致原始医疗数据存在多种不确定性,因此医疗数据的不完全性和不准确性较为明显。④多源异构性和多态性。医疗信息领域多种数据标准、协议和规范致使数据来源和格式呈明显的多样化和异质性[13],不同终端产生的医疗数据除结构化数据外还包括文字、信号和图像等在内的多种形态数据,呈典型非结构化或半结构化特征且在数据总体中占较大比例,导致医疗数据的分散和割裂程度比较严重。临床实际中的数据规模和类型超出医务人员的认知和解读能力,其面临复杂数据乱象问题常常束手无策,因此医学数据素养的提升迫在眉睫。
结合已有定义和医学数据特点本研究认为医学数据素养为在道德伦理范畴和法律允许范围内,能够敏锐地意识到临床常规或突发数据的潜在价值和意义,并可基于医疗知识对数据进行获取、处理和分析得出结论应用于实际诊疗中的知识和技能的集合,其内涵包括医学数据意识、医学数据知识、医学数据技能和数据临床应用4个部分。见图1。
图1 医学数据素养的内涵
医疗数据包含个人隐私和疾病信息,其泄漏会对个人甚至整个社会造成危害,因此数据安全是所有基于数据的医疗活动的基础,涵盖了数据需求意识、数据伦理意识和数据法律意识的医学数据意识是数据素养的核心因素。医疗决策是高度数据驱动的,依据患者相关数据不仅能制定个性化诊疗方案,还可基于疾病的历史和实时监控数据建立预测模型实现精准预防[14],医务人员对疾病数据的敏感性有助于疾病诊疗,尤其是基于专业知识对传染性疾病暴发初期相关数据的感知,因此医疗数据活动首先需要具备数据需求意识,即在临床诊疗中具备数据敏感性以及能具体描述所需原始数据的特征、意义并可实现定位、获取和跟踪。
医学数据伦理意识是指数据的使用、引用、共享等都需获取数据提供方(如患者)的知情同意并在伦理道德允许范围内限定公开传播的时间和范围,避免出现数据的不当使用。医务人员常处理禁止自由共享的包含个人可识别信息的临床数据[15],医疗数据除常规科研引用外,还有通过分享或二次利用等途径实现数据价值的最大化,上述行为均涉及到伦理道德审查,因此伦理意识养成是医学数据意识的重中之重。
数据法律意识是指了解患者数据泄露的不良后果及潜在法律风险并能够进行隐私影响评估(privacy impact assessment, PIA),在认知层面对数据的产权和收益归属及可否关联具备一定的判断力,在法律法规规定范围内限定医疗数据访问权限,处理数据时能依照安全性原则对不同保密等级的数据进行保留或销毁。患者虽是诊疗数据的产出者却并非数据提供者,医疗机构也不具备数据所有权,医疗数据利益相关方的多样性和复杂性成为数据利用障碍之一,然而相关法律界定却趋于模糊和抽象,因此法律意识的具备和强化是医学数据意识的必须补充。
作为典型的数据密集型和数据驱动型学科,医学领域包含海量复杂数据,即使记录不完善的数据都可能隐藏了有待发掘和利用的重要医学信息[16],再者数据的认知和特征提取是数据利用的首要前提[17]。因此医学数据素养的关键是医学数据知识的理解和掌握,内容包括数据科学基本概念、元数据描述规范和著录标准,常见医疗数据特征、结构、格式和变量类型,不同类型数据存储注意事项和数据之间交互关系,常用数据分析算法和模型的原理,医学信息的数据描述及异常值所表征的真实临床意义等。
从数据产生经加工处理到实现再利用的过程中,数据价值随时间推移发生的演化规律称为数据生命周期。为使培养对象具备数据价值循环可再生的整体性思维,数据技能的培养应基于数据生命周期理论展开。结合医疗数据特点,本文依据DataONE数据生命周期模型,将医学数据技能划分为医疗数据获取、医疗数据评估、医疗数据处理、医疗数据分析和临床数据解析5个模块。医疗数据获取是进行所有数据操作的前提和保证,能力要求除基本的医疗信息资源检索外还包括不同等级开放数据(如公共卫生数据)、共享数据(如不同级别卫生机构间)的获取以及目标数据(如非公开患者健康数据)在数据仓储中的准确定位,能够结合分析和应用需求设计数据筛选标准,记录特定疾病(新生儿疾病、传染性疾病等)真实来源并在获取和保存的过程中保证数据的准确性和可溯源性。
医疗数据生成和来源途径的多样致使数据可信度不一,数据结构偏差、输入失误和数据标签模糊均会影响临床研究结果价值,因此对数据质量需开展数据评估。在完整性方面,查看必填字段有无缺失遗漏;准确性方面,检查数据字段数值是否满足既定范围要求、指标数值与总体分布的符合度、数值单位标引是否符合逻辑;一致性方面,按照数据数值与格式标准规范统一等原则对医疗数据进行判断,鉴别和估测数据的真实性、局限性及其价值,识别虚假数据和误差,对医疗过程中的异常数据及离群值所表征的特殊信息高度敏感并能预见其临床效应。高质量诊疗决策需多种来源和类型的医疗数据支持,医疗数据处理指能够基于专业知识按照临床和科研的前瞻性或回顾性需要,将多种不同数据按照同一标准进行格式转换以实现跨组织数据集成和匹配的过程,并能在数据聚合之前完成去标识化、潜在偏差识别及组织加工、归档存储等规范化操作,理解常用处理算法和过滤规则并可根据数据类型和分析任务设计清洗方案,对于电子病历中的缺失数据能够进行敏感性分析并可使用将误差控制在合理范围内的估算值进行插补以消除不确定性。
医疗数据分析是指采用定量方法,尤其是以可分析非结构化医疗数据的机器学习为代表的分析模型处理数据和支持决策制定的过程,要求能理解数据分析原理并掌握适用于医学数据的数据挖掘算法和模式识别方法,可结合疾病数据集的变量数量和特征选择合适的工具与模型实现疾病的监测、关联和预测分析。医疗数据解析是对数据分析结果的解读和表达,数据解读是指个体能结合上下文根据数据分析结果对原始病患进行分型分类,识别数据所表征的病因、病情和趋势,从数据科学角度解释数据指标的临床意义,数据表达则为对分析结果的展示。医学数据往往牵涉多个变量和维度,二维表达无法揭示全部相关因素,可视化便成为探索巨量医疗数据的优选工具。虽然几乎所有层次的医学生在图表的构建和解析方面都存在一定困难[18],但对诊疗数据分析结果提取的知识进行验证并应用于诊疗实践是医学科研和临床工作中不可缺少的一环,因此利用数据作为证据增强所需佐证对象的合理性时,能够依托专业知识和数据属性选择合适的可视化形式对分析结果进行呈现、解析甚至否定,并以患者和专业人士等受众所能理解和接受的方式进行沟通是数据解析能力的基本要求。
医学数据临床利用是所有医疗数据活动的终极归宿,其中临床诊疗应用是指在分析方法和工具科学合理的前提下,医技人员能够从专业角度整合多个数据源并根据其来源和级别准确评估数据应用代价和价值,实现分析结果在诊疗方案制定、病因和风险识别、并发症和术后感染预防、疾病预后等业务领域中的无断点、无异常的个体化临床应用。单个医疗站点的数据分析结果往往质量堪忧,多个医疗站点数据共享则可增大数据集量,提高分析结果精准度,因此数据共享是数据价值发挥的重要保证[19]。医疗数据牵涉多方利益,共享活动的发生应明确数据所有权、访问权及权利转让,了解共享法规和安全数据传输机制并能制订共享协议,在限定的时间和范围内按照最低必要标准(minimum necessary standard)、模糊度最小化和利益透明三原则共享数据集,在不影响数据效用的前提下使用医疗数据匿名化和假名化处理技术消除歧义和可以反推隐私的标识符以降低风险。原始目的以外使用数据的广义行为统称为数据二次利用或数据重用。医疗数据二次利用可实现从经验中学习(learning from experience),临床研究、医学教育等利益相关群体均可从中获益[20]。领域内二次利用多为提升单个病种的诊疗质量,领域外则是为学术研究、新药研发或保险赔付,其中最大纷争在于隐私保护和利益划归,所以医疗数据重用的首要事项是获得数据所有方同意,同时二次利用领域需区别于初始领域以保护原始权益和隐私。
国外医疗机构或院校较早意识到医学数据素养的重要性并开展相关教育活动,2011年美国国立卫生研究院资助马萨诸塞大学医学院Lamar Soutter图书馆的新英格兰数据管理协作课程项目开展数据素养教育[21],弗莱堡大学医学院为提升耳鼻喉科专业本科生数据素养举办了耳鼻喉科数字化项目课程[22],纽约大学医学院面向医学中心研究团队开设临床研究数据管理 (clinical research data management, CRDM) 培训以加强临床研究人员项目数据管理技能[23],华盛顿大学医学院面向本科生实施了交叉学科实验性数据科学(experiential data science for undergraduate cross-disciplinary education, EDUCE)方案以提高生命科学专业本科生的数据科学核心能力[24],德国汉诺威医学院面向医学专业本科生开设数据素养选修课以促进数据医学相关内容学习[25]。国内部分院校开展了医学数据素养相关教学,南方医科大学面向研究生群体增设《医学研究数据的管理与分析》课程,中国医学科学院医学信息研究所针对情报学专业研究生开设了面向数据科学家(data scientist)的数据挖掘方法和工具介绍课程,其他医学院校多开办了数据科学相关讲座或学术沙龙讲解数据管理工具或方法。
综上可知,国外医学数据素养教育较为侧重本科生数据管理技能教学,国内院校虽也开展了包含数据素养内容的教学工作,但其起步较晚,教学内容和模式基本上是对国外同行的借鉴和模仿,存在教学方式滞后、学科特色缺乏、教学对象未覆盖本科生等一系列问题。
无论是数据意识的具备还是数据知识技能的掌握,目的都是个体能通过医疗数据分析挖掘出可用于临床实践的知识规律。作为长期教育工程,医学数据素养教学目标应按照渐进性原则分阶段设置。通识教育结束后个体在认知层面初步具备数据伦理观、法律观、价值观和数据科学基础知识,专业教育完成后个体能够掌握专业学科领域所要求的数据科学通用技能和专业的知识技能,实践教育期间及之后医务人员能在临床和科研中通过对数据的标准分析提取数据证据应用于诊疗实践,从而利用数据技能养成终生学习的能力。医学数据素养教育层次化目标体系由低级到高级,由简单到复杂,由理论到实践,不仅符合临床经验生成模式而且也对应了数据科研范式下循证医学领域数据-信息-证据-知识(data-information-evidence-knowledge, DIEK)的转化规律所表征的路径[26]。见图2。
图2 契合DIEK路径的医学数据素养教学目标体系
学科数据素养所需的知识和能力需要阶段化培养,医学数据素养教育也应结合专业培养进度分块进行。医学数据意识和医学数据知识部分宜在医学专业教育初期借助通识教育实现相关内容的理论教学,教学任务通过以教室为场地的课堂教学完成,由于本阶段以教师理论讲授为主,故为典型的基于理论的学习。医学学科体系庞杂,即使细分领域之间也存在一定学科壁垒,不同年级和专业学生的知识结构和研究内容分歧明显,数据认知与数据需求存在显著性差异[27],然而精细化和专业化的数据知识能力是医务人员从事临床和科研工作的必备技能,所以医学数据技能教育应为通识教育基础上的学科专业教育,教学内容根据学科专业和教学对象特点进行模块化设计,教学模式为数据技能知识课堂理论讲解辅以数据通用技能和专业技能的强化训练实验课程,针对性设计的模块化教学内容循序渐进,理论与实践并举实现数据知识和技能的递进式融会贯通。数据临床应用则为对真实数据集进行处理后应用于具体临床案例的活动,培养对象在项目实际操作过程中能够进行数据分析成果的现实场景应用、临床数据共享或二次利用等操作,积累数据分析结果临床应用经验。以上数据知识和能力强化过程同以系统为中心的医学学习的授予式学习、形成式学习和转化式学习三层次正相吻合,因此医学数据素养的渐进式培养完全符合医学学科专业学习规律。见图3。
图3 以系统为中心的医学数据素养渐进式教育模式
数据素养的全面具备离不开专业性系统课程的开设,为实现数据素养教育目标有必要围绕数据生命周期开发专业性系统课程,课程内容设计与教学目标体系和医学学习层次相匹配,按照难度梯度进行阶段性和模块化设置。课程初期培养数据意识和学习数据知识,属基础阶段;课程中期是对数据技能的讲解和训练,在理解数据处理原理基础上能根据数据特征选择合适的方法和工具进行操作;后期则是医疗数据应用项目演练,练习将医疗数据分析结果应用于临床诊疗实践,基于数据支撑结合病患实况制定诊疗方案。数据素养课程全过程基于真实数据集的专业案例讲解,梯度式课程设计将不同阶段所需数据素养知识和技能完美衔接,促进数据科学知识传授的同时增强了专业知识与现实世界之间的联系,实现了数据科学和专业知识的融合教学。
以浅层培训或突击式讲座形式的数据素养教学仅为补充性的强化手段,无法达到系统性课程教学带来的数据知识和技能积累,虽然当前在线教学得到了大规模应用,但该类基于网络的自主学习模式缺少课堂监督、交流和教学考察等环节,教学质量和效果无法得到有效保证。当然线下培训和线上学习的教学方式及相应效果不可完全否定,作为课堂教学的辅助,其有利于数据科学新兴工具与方法的掌握,授课教师可将课程资源进行在线教学模块建设或推荐相关教学内容以作为学有余力和数据需求较高者补充或强化数据素养的重要手段和途径,为学生提供从入门到高阶的学习资源,因此以传统教学方式为主的课堂教学和以可调动学生兴趣并丰富学习形式的新型教学方式为辅的多样化教学形式可以加快数据素养教育模式的建立和完善。
学习本身是与感官体验逆向的,在自身未意识到利益的前提下较少有学生能主动学习一门新学科,尤其是专业课程繁多的医学生更不会自觉将时间和精力投入非医学专业课程的学习,鉴于此医学数据素养知识能力学习状况考核也需采用学分制形式半强制性要求学生掌握课程内容。数据素养知识能力的考核与评价并无绝对固定的知识点和标准答案,已有的数据素养评价体系多是根据既定指标进行主观打分,评价方式的准确度不能保证。目前考试系统可明确列出题目的分数得失明细并给出知识点掌握详情,因此由于数据意识及数据知识和技能部分的多数知识内容属于显性知识,其可通过客观题考试的形式进行客观考核,无法量化评价的数据技能模块及实践应用部分的内容多为隐形知识,可在实验项目或实习学习结束时以基于项目数据的研究报告借助主观考核的方式进行主观评价,主客观兼顾实现知识与能力掌握情况的综合考察并通过定量与定性方法给出最终考核成绩。
师资质量是任何教育成功开展的关键,医学数据素养具备交叉学科背景,课程授课教师在教学科研工作中应不断扩充医学和数据科学知识储备、增强数据技能,在理论和实践层面提高自身以胜任数据素养教学工作。教学过程中应积极主动了解教学对象的医学数据知识和技能需求,选择最具代表性的真实临床实例进行案例教学,采用适合个体认知习惯的教学方式培养其数据意识,根据专业背景和学习阶段筹备不同类型的数据资源作为训练数据集供重复练习使用以强化特定数据技能,引导学生在分析和解决专业问题过程中基于数据进行表达和交流,在学与习中实现数据素养和专业知识的共同提升。
本文基于数据素养相关研究和医学数据特点探讨了医学数据素养的概念和内涵,根据国内外医学数据素养教育现状和医学学科及专业特点提出教育模式的实施策略。不过作为跨学科教育,医学数据素养教育工作的开展离不开高校和图书馆两位主体的重视、参与和支持,图书馆应依据资源优势将核心职能参考咨询服务数据科学化,积极组织数据素养相关讲座或竞赛辅助教学,高校也应依托行政力量协调各二级学院共同整合数据资源创建用于数据共享、引用和存档的Dataverse项目助力数据素养教育工程。医学数据素养属新兴概念,局限于研究主题相关文献的缺乏,无法通过充分的调研和参考进行详实的统计分析和论证,故研究尚停留于理论层面的探讨,再者临床实际中医学数据大多属于多源异构数据,体量庞大格式复杂,所需数据知识和技能更为具体专深,本文对其进行统一论述缺少一定的针对性和专业性,因此研究仍存在诸多不足之处,期待在今后的实践中能够得到进一步优化,探索出更为符合医学教育和数据素养特性的教育模式。