曾湘琼
健康信息学(Health Informatics,HI)诞生于1970年代,由健康科学与现代信息技术融合而成,是研究搜集、整理并可视化健康信息的交叉学科。学界对健康信息学的定义不尽一致,甚至差别较大,消费者健康信息学、医学信息学、生物信息学都可视为健康信息学研究范畴。随着网络技术发展,跨部门、跨区域信息实现互联互通、共创共享,健康信息学的早期研究成果已逐步应用于医疗咨询服务、医疗管理体系以及医疗治疗系统,健康信息学的研究对象、研究范围及研究方法也不断拓展与突破(唐凤等[1],朱庆华等[2],吕红[3])。在健康信息服务人才培养方面,健康信息学专业学位教育始于1980年代,美国最为系统化(李晶[4])。2018年美国图书馆协会(American Librarian Association,ALA)公布的61所LIS认证学院名单显示,半数以上学院来自美国,几乎所有这些高校都开设有健康信息学课程和健康信息学研究。面对患者及医疗机构对低成本、高精准健康医疗的需求,2008年以来美国政府设立国家健康信息协调办公室,促进电子健康信息交换项目(electronic health information exchange)——信息提供者与医院之间的各种健康信息共享在全国范围的推广,旨在通过电子健康记录系统及健康护理一线职业者之间的即时性数据共享,提高疾病诊断精度,降低医疗成本(Furukawa等[5],Cline等[6])。
在世界范围内,图书情报学、健康图书馆学、档案学、健康信息学、信息学等的学位与人才培养教育中,影响力较广泛的是iSchools联盟高校下设的图书情报学院(Library Information School,以下简称“LIS 学院”)。截止到2019年6月,iSchools联盟成员单位102所,一些新加入iSchools联盟的LIS学院名称与初期主流的院名“图书情报学院”有很大差异,如信息技术类学院、信息管理类学院、信息科学类学院;每年LIS学院不仅在iSchools联盟高校的官方指导下定期举办学术会议,探讨包括健康信息学在内的课程设置、培养目标等人才培养问题,更通过学术研究解决应用领域存在的问题,从而促进学科发展(Chu[7])。当前不断发展壮大的健康信息学,早期的教育工作也是在几所LIS学院开展的。当前有超过30所LIS学院通过了ALA认证,设有健康信息学学位点或与此相关的研究方向,有专门的硕士或博士项目(如西安大略大学)。LIS学院的健康信息学教育,从培养目标、教学计划、教学课程到健康信息服务与工程技术人才职业发展规划,都具有比较系统、完整的培养体系。LIS学院的健康信息学教育课程种类丰富,大致可分为:信息技术与管理类(如数据挖掘、数据可视化、机器学习、医疗数据库研究);健康信息与管理类(如信息组织、消费者健康信息学、医学信息学、知识管理、健康信息行为);业务管理与方法学类(如战略管理、健康研究方法、健康信息学实践、慢性病管理)三大类课程。
很多LIS学院与企业、研究机构建立协同合作关系,拥有广泛的社会资源支持。伊利诺伊大学厄巴纳-香槟分校、北德克萨斯大学、多伦多大学、匹兹堡大学等iSchools成员高校尽管未设立健康信息学专业,但LIS学院在信息科学、图书馆情报学专业下设置研究方向与相关课程,并联合计算机科学、生物信息科学、护理学院等学院的学科资源优势,积极支持健康信息学人才培养。LIS学院中从事健康信息学研究与教育的人员主要来自信息科学、医学、公共卫生与药学学科,这种跨学科研究模式,有利于发挥各学科专业优势,也体现了健康信息学教育强调交叉应用的人才培养特点。LIS学院重视实践教育,鼓励学生跨学科按职业化发展途径选修学位课程;课程设置针对性强,部分学院提供本硕博完整的学位层次且大多集中在硕士学位项目;健康信息学的博士学位项目,要求博士研究生具备健康管理领域的独立科研与教学能力,注重培养博士生的应用实践能力。健康信息学毕业生流向图书情报系统、医疗保健公司、计算机/互联网/大数据公司、医疗康复中心、政府卫生规划与咨询单位、医院、医疗仪器设备公司、研究机构等;随着大众健康管理意识提高,健康信息学专业人才需求强烈,职业认可度更高,毕业生就业方向向不同领域延伸。
健康信息学的一个重要研究课题是分析和组织健康医疗信息。随着网络技术发展,世界各地医院电子档案系统每日生成的健康医疗数据庞大,依靠传统方法几乎无法完成大规模健康信息的提取、分析、可视化管理等过程,需要有先进的数据处理技术从海量的数据流中筛选关键信息,帮助医学工作者做出医疗决策。当前大数据被视为继物联网、云计算之后IT产业的又一次颠覆性技术变革,深刻影响着医疗、精准扶贫、文化建设、城乡管理等与人们日常生活息息相关的方方面面。比如,大数据在帮助人们研究肿瘤与癌症方面发挥了重要作用。一般来说,在血液中发现十亿分之一的癌症特异性突变是异常困难的,犹如大海捞针。2018年11 月,加拿大Princess Margaret癌症中心Daniel De Carvalho利用大数据方法,对血液中DNA分子进行分类,成功识别出血液中癌症源DNA,为癌症早期预防及靶向药物治疗开辟了极具应用前景的新方法[8]。Chaudhry[9]阐述了包括大数据在内的健康信息技术对于医疗的影响。大数据对于识别贫困及其成因,以及识别精准扶贫的具体措施都具有重要的作用[10]。
由于大数据技术在重大疾病治疗与预防、数据处理等方面的巨大优势,一些iSchools联盟高校相继开设大数据学位教育课程。2017年Ortiz-Repiso等[11]对65所iSchools成员高校的LIS学院共计597个学位项目进行统计,37所iSchools高校的87个学位项目都聚焦于数据科学、大数据分析、数据策展三个学科领域;该87个学位项目中有26 个学位开设3 门以上的数据类相关课程,有12个学位是数据科学学位,涵盖数据获取、数据分析、数据管理、数据可视化、人机交互等共161门课程。美国拥有的iSchools成员数量最多,在大数据教育方面领先其它国家。美国共45个与数据相关的学位中,有11个学位由数据科学学位与大数据分析类学位构成。由表1可见,大数据学位教育主要集中在硕士研究生学位层次,本科与博士研究生专业教育项目尚且投入不足。
表1 iSchools成员开设3门以上数据课程的26个学位数分布
LIS学院为适应大数据时代健康信息学面向智慧医疗的需要,增设了许多大数据相关课程。为理解此类教育课程的特点,本研究从ALA认证的23所LIS学院中选取了较有代表性的美国7所LIS学院为样本。选择这7所LIS学院主要是基于两方面的考虑:一是为了减少网络调研工作量但又不失一般性;二是因为当前健康信息学研究与教育主要集中在美国,美国拥有世界最多的LIS学院数量,且部分学院在课程设置、项目资源支撑、师资配置等方面都比较系统完整,这些学院的健康信息学教育在世界范围内发挥了领导核心作用。7所LIS学院所在高校分别是亚利桑那大学、佛罗里达州立大学、密歇根大学、韦恩州立大学、北卡罗来纳大学教堂山分校、肯特州立大学、德雷塞尔大学。
北卡罗来纳大学教堂山分校、德雷塞尔大学、密歇根大学在2017年的“美国新闻与世界报道”专业排名中分别位列第1、第3和第4位;除佛罗里达州立大学通信与信息学院仅开设了健康信息学课程以外,其余6所高校有健康信息学学位点或健康信息学的研究方向,如表2所示。
表2 美国7所高校健康信息学学位点、研究方向及课程设置情况
截至2019年6月,对7所LIS学院健康信息学学位或教育项目下的与大数据相关的课程进行调研,课程开设情况如表3所示(借鉴张德等[12]的调研方法)。因大数据课程目前尚未见有统一定义,从LIS学院课程阵列中挑选的课程,凡含有“信息”“数据”“计算机”“统计”“电子”五个关键词之一的,视为大数据相关类课程,剔除虽含有关键词“信息”但显然不是计算机基础技术范畴的课程,如信息景观、信息机构和专业等课程;个别如用户界面设计、文本挖掘等虽未含有以上关键词中的任何一类,但从字面意义可理解为与计算机技术相关,因而也被选为是大数据相关课程。本文是定性而非定量分析,所以尽可能多地将一些课程选取为大数据相关课程,难免会出现遗漏或多选,但不会影响定性结论(下文的其它表格数据都是坚持此同一选择标准)。
表3 美国7所高校健康信息学教育的大数据类课程开设情况
据表2、表3可知,7所LIS学院的健康信息学或健康图书馆学(因为范畴接近,将这两类专业合并为一类)专业教育均开设了大数据相关类课程,学位教育集中在硕士层次,除北卡罗莱纳大学教堂山分校的信息与图书馆学院开设博士学位教育外,其他6所暂未开设本科和博士学位的大数据类课程教育。其中,佛罗里达州立大学通信与信息学院无健康信息学位点设置,亦无健康信息学研究方向,仅有少量健康信息学的课程,如健康信息学导论、消费者健康信息学、健康信息技术管理等,因而不会出现大数据相关课程。表3课程包括了必修和选修课程。
大数据教育的核心课程主要有数据库系统概论、统计学原理、信息系统分析与设计、信息分析与决策、数据结构、云计算技术概论、数据挖掘与分析、云平台架构技术、大数据采集与处理、数据结构、数据科学基础、数据仓库与数据挖掘、数据可视化原理、分布式处理与云计算、大数据分析与应用、数据库技术与应用、数据处理与数据库、算法设计与分析、算法与数据结构、信息论与编码、自然语言处理与理解、机器学习、信息与知识获取、模式分析等课程。这7所LIS学院中,北卡罗莱纳大学教堂山分校开设网络数据库、系统分析及设计、数据挖掘、计算生物学中的机器学习、数据库系统I,II;德雷塞尔大学开设网络系统与架构、信息系统分析与设计、交互系统设计、数据挖掘、生物统计学导论;密歇根大学开设医学自然语言处理、数据库管理系统、生物统计学导论、数据库应用程序设计、统计与数据分析导论、数据科学和预测分析。虽然这三所高校开设较多的数据类课程外,但总体来说大数据核心课程开设量偏少,且多数学院未开设数据挖掘、信息可视化、数据库技术及应用、大数据分析与应用、医学自然语言处理等一些核心课程。
为进一步理解7所LIS学院在培养大数据科学与健康信息学复合人才的特征,笔者统计与健康信息学学位同在这些LIS学院下的大数据相关类学位情况,这些学位有数据科学、信息学、信息科学、信息技术、信息管理、图书馆学和图书馆与信息科学等7类学位,具体见表4。例如,亚利桑那大学信息学院开设了信息学博士学位教育、信息科学学士学位和硕士学位教育、图书馆与信息科学硕士学位教育,其它类推。亚利桑那大学信息学院的信息科学与艺术和信息学与技术学士学位、肯特州立大学信息学院的通信与信息博士学位,在表中均被归属到信息科学学位。
表4 美国7所LIS学院开设大数据类课程的非健康信息学学位分布情况
具有数据科学学位的有德雷塞尔大学本科和硕士教育,以及密歇根大学的硕士教育;信息学学位和信息科学学位教育是被统计的学位教育中开设最多的,原因是这两类学位教育都在信息学院;仅有韦恩州立大学和佛罗里达州立大学开设了信息管理硕士学位教育;图书馆与信息科学主要集中在硕士教育阶段;这7类学位与健康信息学同在LIS学院,因而主修健康信息学学位的学生也可自主选修这些课程;学院数据课程完全可对本院学生实现课程共享,这也是上文提到的一些LIS学院健康信息学专业开设较少与大数据相关课程的原因,但对具有大数据处理与分析能力的健康信息学人才培养仍具有积极意义。
我国健康信息学教育起步晚,研究与教育经费不足,课程设置与健康实践融合度不够,健康信息学(HI)专业人才队伍匮乏。目前加入iSchools联盟的我国高校(不包含我国港澳台地区)有武汉大学、中国人民大学、北京大学、华中师范大学、南京大学和中山大学,这些学校的LIS学院在一定程度上代表中国LIS学院发展水平。国外的健康信息学教育状况可参考李晶[4]和向菲等[13]的研究,国内健康信息学教育发展与教学改革现状参见周晓英和张璐等[14]的研究。
6所高校尚未设置以LIS 学院为依托的健康信息学专业教育或相关研究方向,且本、硕、博学位教育集中在图书馆学、情报学、档案学、信息管理与信息系统等四个二级学科,具体见表5。由表5可见,武汉大学、中国人民大学、北京大学、南京大学4所高校LIS学院只有少量课程涉及健康信息学内容。这些LIS学院中仅有武汉大学专设有数据科学学位点(博士),其他学院开展的学位项目,主要围绕信息情报的提取、分析、组织与管理而设计课程,但均未有大数据课程甚至健康信息学的相关课程设置。除中山大学外,6所LIS 学院都是信息管理学院,因而从事教育科研工作的大多数教职人员大都具有计算机技术或数据分析的研究经历,课程大纲绝大多数是旨在培养学生的信息组织、分析及应用能力。个别学院如华中师范大学的信息管理学院开设有信息系统分析与设计、数据库设计与开发应用、数据仓库技术、大数据管理技术与方法、信息可视化、数据挖掘技术、数据分析与应用、云数据管理技术等与大数据相关的课程,这为培养将来从事数字医疗、电子健康数据管理等工作的人才队伍奠定了很好的理论和实践基础,是我国开展健康信息学人才培养十分积极的一面。
从数据课程开设角度分析,6 所高校的LIS学院普遍都开设了数据科学与大数据的基础教育课程,课程种类和数量与北美iSchools高校差别不大;但如前所述,我国高校尚未设置以图书情报或信息学为依托的健康信息学专业,同时也未见有医学信息学、生物信息学课程的讲授与专业设置。我国在健康信息学研究与人才培养方面,与欧美国家相比差距甚大,详见表6。
表5 我国6所iSchools高校LIS学院学位教育分布情况
表6 我国6所iSchools高校开设大数据类课程情况
在大数据时代,数据与信息资源是可被二次利用的宝贵财富。Furukawa等[5]在对美国2008-2012年的电子健康信息交换项目的研究中指出,通过区域性健康信息组织(医院、实验室、医学协会)、电子健康记录系统及健康护理一线职业者之间的即时数据共享,可提高疾病诊断精度,降低医疗成本。因特网也可以为数据与信息资源的共享提供帮助[15-16]。遗憾的是,我国目前尚未开展健康信息学的专业学位教育,这可能导致在未来数字医疗产业中将缺乏促进智慧医疗技术快速发展的智力支撑。笔者提出中国LIS学院开展健康信息学人才培养的3点拙见。
(1)在培养体系上,要以民众健康为中心,在高校LIS学院设立健康信息学学位点,树立明确的人才培养目标,清晰界定课程体系。健康信息学与计算机、电子、图书档案、生物医学等都存在不同程度交叉融合,LIS学院应在培养健康信息学人才之初就与医院、康复诊疗中心、医学研究所建立长期的合作关系,培养学生健康知识的应用和转化能力。
(2)在培养过程上,应顺应当前大数据时代背景,以大数据和健康信息为主题,摈弃零碎的数据与计算机课程设置,系统全面开设用于获取、分析、归类、可视化健康信息数据的大数据技术课程,如数据挖掘、人工智能、机器学习、自然语言、数据可视化、分布式处理与云计算、大数据分析与应用、数据处理与数据库、算法与数据结构、信息论与编码等;健康信息专业教育课程,在图书情报学院(LIS学院)传统课程基础上,联合大数据学院、医学院、数学学院、药学院、护理学院、计算机学院、生命科学院、信息学院等,资源共享,开展目标明确、面向应用、特色鲜明的健康信息学教育教学工作。搭建创新创业平台,让学生和教师作为主要力量参与健康信息资源采集、基于大数据方法的区域性群体健康信息表征与决策、健康信息用户终端开发等各类项目;努力将医院健康信息资源、企业大数据技术、政府健康管理项目三者融入到健康信息专业人才培养教育全过程;争取社会资金支持下,多方协同作用,将健康信息学教育建立在固定的LIS学院、流动的信息流、积极的社会支持大格局中。
(3)在培养目标上,培养健康信息专业学生具有医学信息学、生物信息学、图书馆学或档案学等扎实的基础理论知识,掌握自然语言、人机交互等现代计算机语言与数据处理技术;毕业学生能够胜任医院电子健康记录系统开发与维护工作,能够帮助企业、政府、实验室或研究机构实现健康信息实时在线监测与分析。
目前多个iSchools联盟高校LIS学院开设健康信息学专业,并且拥有数据科学、大数据分析、数据策展等学位教育项目,然而我国尚未设置健康信息学专业学位教育,亦缺乏健康信息学学位点下的大数据课程,与欧美国家相比差距甚大。“互联网+健康医疗”产业迅猛发展,大数据技术与云计算、互联网、人工智能相互作用不断培育新的经济增长点,各国政府正抓紧构建健康医疗体系。我国是世界人口和世界最大互联网用户国家,也是医疗诊治人口最多的国家,无论是医院电子病历还是消费者健康信息搜寻网络记录,健康信息资源丰富。国家在制度和经费上正大力支持健康医疗产业发展:2015年国务院印发《促进大数据发展行动纲要》;2016年国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》《“健康中国2030”规划纲要》,提出15年内构建健康服务体系,创新互联网健康医疗服务模式;2017年十九大报告指出要完善国民健康政策,为群众提供全方位全周期健康服务;2018年国务院办公厅印发《关于促进“互联网+医疗健康”发展的意见》,推进跨系统、跨机构、跨地区“线上线下一体化”的电子健康卡便民医疗服务;国家卫计委加快推进电子健康记录系统等全民健康信息化建设,从而使得医疗就诊卡、银联医保卡、妇幼保健、计划免疫等主索引业务系统、就诊卡管理系统统一接入到电子健康卡管理服务信息系统,保障了海量、高价值密度的基础医疗数据来源的高可靠性,进而为大数据技术在健康信息学领域的应用开辟广阔的道路。
本研究注意到我国高校LIS学院开设很多大数据课程,多所高校申请了大数据学院,多个研究所如南京大学健康信息研究所、中科院-马普学会计算生物学伙伴研究所、中科院广州生物医药与健康研究院等拥有健康信息研究方向,这些为我国尽快实施面向健康大数据应用的健康信息学专业教育奠定了重要基础;教育部门与相关领域学者应抓紧研究制定培养目标明确、课程设置面向应用、师资结构合理的健康信息学专业。我国正处于大数据技术的快速发展时期,亟需各类数据科学与大数据技术人才,构建健康信息学人才培养模式,设置健康信息学专业,配备具有计算机、医学、生物学、数学与统计科学、图书馆学与情报学等专业背景的师资队伍,关乎“健康中国”计划的实施,关乎大数据科学人才培养。开展并加强健康信息学教育,培养一支具有大数据知识与技术应用能力的健康信息学队伍,既是为构筑新时代智慧医疗体系提供智力支撑,也是“健康中国”时代国家战略发展的必然需求。