李小涛 金心怡 李 艳 张士靖* 关子易
(1.南京航空航天大学科技信息研究所,江苏 南京 211106;2.南京航空航天大学工业和信息化智库评价中心,江苏 南京 211106;3.华中科技大学同济医学院医药卫生管理学院,湖北 武汉 430030;4.山西医科大学公共卫生学院,山西 太原 030001)
医学信息学是医学与图书情报学科的交叉与融合,其学科结构与研究进展近来受到学术界的密切关注。杨颖等[1]以PubMed为数据来源,通过共词聚类分析探索了1999-2008年医学信息学学科结构的演变过程。袁晓园等[2]检索了我国学者被Web of Science收录的医学信息学论文,并通过高频关键词的共现网络分析了我国学者在该领域的五大热点研究主题。曹霞等[3]以Web of Sciences收录的7种医学信息学核心期刊为数据来源,分析了该领域合著网络的整体结构特性。张志强等[4]分析了生物医学信息学面临的机遇与挑战,并给出了发展建议。前人的研究为探索医学信息学的热点与前沿奠定了基础,但目前尚未有学者基于该学科的ESI高被引论文进行研究前沿的可视化分析。
ESI(Essential Science Indicators)即基本科学指标数据库,是基于SCI和SSCI的衡量科学研究绩效、跟踪科学发展趋势的重要分析评价工具。作为评价一流学科的重要指标之一,ESI高被引论文是各学科被引频次前1%的论文,其数量特征可以从宏观上反映学科发展水平,评估机构的学科竞争力;其内容特征可以体现学科的研究热点与前沿,指引学科发展方向[5]。
本研究构建了基于ESI高被引论文的研究前沿模型,对医学信息学2013-2017年的ESI高被引论文及其施引文献绘制科学知识图谱,精准揭示了该学科的前沿研究领域,为国内研究机构整体把握医学信息学学科结构、跟踪学科发展动态提供参考与借鉴。
研究前沿的识别与探测是图书情报领域关注的焦点之一,国内外学者对研究前沿的界定大致有3类:第一类将一组高被引文献定义为研究前沿[6];第二类将一组施引文献定义为研究前沿[7];第三类将一组突现的动态概念和潜在的研究问题定义为研究前沿[8]。陈超美教授是支持第三类观点的代表性学者之一,他提出的Citespace概念模型将一个研究领域概念化成从研究前沿Ψ(t)到知识基础Ω(t)的时间映射Φ(t),即Φ(t):Ψ(t)→Ω(t)[9]。本研究沿用陈超美教授对研究前沿的界定,并以该概念模型为基础对研究前沿进行识别与探测。
ESI高被引论文是在其发表年份和所属学科领域被引次数位于前1%的论文,ESI数据库通过对近5年的ESI高被引论文进行共被引分析和聚类分析识别各学科领域研究前沿[10]。ESI高被引论文在揭示研究前沿中的重要作用已得到广泛认可,Citespace的概念模型也已广泛应用于科学知识图谱分析中,将ESI高被引论文与Citespace的概念模型相结合,可构建基于ESI高被引论文的研究前沿模型(见图1),更好地对研究前沿进行探测和可视化展示。
图1 基于ESI高被引论文的研究前沿模型
图1中模型以ESI高被引论文为核心,ESI高被引论文通过共被引聚类形成不同的前沿研究领域(共被引聚类A、共被引聚类B),ESI高被引论文是各研究领域的知识基础,ESI高被引论文的施引文献则代表各前沿研究领域的新进展。通过对ESI高被引论文及其施引文献的可视化分析,可以得到各前沿研究领域的发展现状和趋势。
本研究的数据来源于Web of Science(WOS)核心合集。首先在WOS核心合集中检索医学信息学的研究论文,检索式为WC=“Medical Informatics”,共得到86 199篇文献;然后在检索结果页面中选择“ESI精炼”(购买ESI数据库后,检索结果页面才会有此选项),将论文发表年份限定为2013-2017年后,得到该学科领域近5年的ESI高被引论文158篇。进一步对158篇ESI高被引论文的施引文献进行检索,去除自引后的施引文献共有8 046篇,其中1 152篇施引文献来自“Medical Informatics”学科。158篇ESI高被引论文及其1 152篇施引文献即为本文的分析对象。
根据本文对研究前沿的界定和图1中的模型,158篇ESI高被引论文可被视为医学信息学的知识基础,ESI高被引论文通过施引文献形成的多个共被引聚类即为医学信息学的前沿研究领域,前沿研究领域的最新进展蕴含在1 152篇施引文献中。通过Citespace V从施引文献的标题、摘要中提取的专业术语和出现频率突然增加的术语作为聚类标签,可对各前沿研究领域的研究内容进行标识和概括。本研究通过科学知识图谱对医学信息学各个前沿领域的重要文献进行内容分析,深入细致地识别与监测该学科的发展动态。
将医学信息学158篇ESI高被引论文及其1 152篇施引文献(合计1 310篇文献)导入采用Citespace V,节点类型设置为Cited References,阈值为Top 50,时间段(Slice)设置为1年,进行文献共被引分析,结果见图2。图2中形成了5个明显的文献聚类,每个聚类的标签都用“#”号和阿拉伯数字进行编号,分别代表医学信息学领域的5个前沿研究领域。聚类标签来源选择为施引文献的标题(Title),标签抽词算法设置为LSI。根据聚类标签和重要节点文献的内容分析,可知这5个前沿领域分别是:电子健康档案(Electronic Health Records,EHR)、移动App(Mobile Apps)、病人门户系统(Patient Portals)、临床决策支持(Clinical Decision Support,CDS)、社交媒体(Social Media)。下面分别对5个前沿领域的最新进展进行分析。
图2 医学信息学前沿研究领域
这一前沿领域由图2中的“#0 electronic health records”聚类中的ESI高被引论文及其施引文献构成,其研究内容主要包括以下两个方面:
2.1.1 电子健康档案的数据共享与交互
Mandel等[11]介绍了从哈佛医学院和波士顿儿童医院开始的替代医学应用和可复用技术(SMART)项目,其目标是开发一个平台,让医疗应用程序能够在不同的医疗IT系统中一次性编写和运行。在2013年下半年,他们采用快速卫生互操作资源(FHIR)对SMART进行了升级。FHIR是由卫生信息交换标准(Health Level 7,HL7)组织借鉴最新的Web技术创建的一套医疗信息规范,用于医疗数据的交换和共享。FHIR能够和不同应用环境兼容,例如手机上的App、云通讯及电子病历共享系统和大型医疗机构的服务器等。Wolff等[12]研究了电子健康档案在医生、患者及其护理伙伴间的共享问题。他发现向患者及其护理伙伴提供医生对其电子健康档案的访问记录后,患者对自己的健康管理能力更有信心,护理伙伴也可以更好地访问和使用病人门户系统功能,并改善和患者的沟通效果。
EHR反映了卫生保健提供者的部分观点,患者没有控制或与他们的数据进行交互的能力,因此Roehrs等[13]认为需要一种综合的方法来储存与健康有关的数据,即个人健康记录(PHR),可以由卫生保健提供者和病人使用。提供者不仅可以使用以前的健康相关记录,还可以通过病人的交互作用来扩展他们的数据。PHR的另一个优势是患者可以与他们的健康数据交互,做出可能对他们的健康有积极影响的决定。
2.1.2 机器学习与数据挖掘
EHR越来越多地作为临床风险预测的数据来源,通过机器学习和数据挖掘可以更加有效地从EHR数据中发现新知识。Goldstein等[14]通过文献回顾分析了EHR应用中的机会和挑战。他发现现有的研究并没有充分利用EHR数据的广度,只有较少的研究是通过网站进行验证的,而且许多研究并没有完全解决EHR的数据偏倚问题。Zheng T等[15]提出了一种数据信息框架,通过特征工程和机器学习,从EHR中识别出2型糖尿病患者。他们评估和对比了该框架内使用的机器学习模型的识别性能,包括k-近邻、朴素贝叶斯、决策树、随机森林、支持向量机和逻辑回归。该框架获得了较高的识别性能(平均AUC为0.98),远远高于当前最先进的算法(AUC 0.71)。
这一前沿领域由图2中的“#1 mobile app”聚类中的ESI高被引论文及其施引文献构成,其研究内容主要包括以下4个方面:
2.2.1 移动App的应用研究
Dennison等[16]调查了年轻人对支持健康行为干预的App的看法,发现他们对这类App有一定的兴趣,准确性、合法性、安全性是影响年轻人使用这类App的主要因素。因此在研发健康行为应用程序时应充分考虑用户的这些需求。Fiordelli等[17]对智能手机在医疗保健中的影响进行系统的文献综述,发现智能手机应用于医疗保健的范围非常广泛,而慢性病是其应用的重点。
2.2.2 移动App对健康的影响研究
移动App对健康的效用主要体现在肥胖干预、促进心理健康等方面。人们对利用信息传播技术来治疗肥胖越来越感兴趣,智能手机的干预可能是一种方便的、具有潜在成本效益的、广泛的体重管理策略。TurnerMcGrievy等[18]研究了通过App进行自我监测对饮食和运动行为的影响,发现App用户的自我监测意愿更强,减肥效果也更明显,证明了手机App监测方法在减肥试验中的潜在益处。Carter等[19]则研究了通过智能手机应用对肥胖患者进行体重自我监控的和医疗干预的可行性,他们研发了名为“My Meal Mate”的体重管理App,通过对128名肥胖患者应用该App的情况进行随机抽样调查,证明了该App是一种可接受的、可行的减肥干预措施。Donker等[20]系统地回顾了研究移动设备(如智能手机和平板电脑)上的心理健康类App的文献,发现有8篇相关论文分别介绍了5款针对抑郁、焦虑和药物滥用的App,结果显示这类App确实有助于缓解抑郁、压力,让患者药物使用显著减少。
2.2.3 移动App的评估量表研究
智能手机App应用于医疗卫生领域越来越多,但对这类App进行评估的量表还很少见。Stoyanov等[21]开发了一个对健康应用类App进行测试、分类和评级的多维量表(Mobile App Rating Scale,MARS),23个评价条目涵盖了4类客观指标(参与度、功能性、美观、信息质量)和1类主观指标,他验证了MARS作为移动健康类App的分类和质量评估工具,是简单、客观、可靠的。
2.2.4 隐私问题研究
移动App涉及的健康隐私问题也开始引起学术界关注。Sunyaev等[22]评估了移动健康App隐私条款在iOS和Android上的可用性、范围和透明度,发现只有30.5%的移动健康App有隐私条款,他认为应该采取措施解决移动健康App在隐私保护方面的问题。
支持病人与医师在线交流的病人信息门户系统可以降低成本,改善病人的医疗服务质量,与电子病历集成并支持双向通信是病人门户系统未来的主要发展方向。当前国外对病人门户系统的研究主要集中于系统的效用及影响因素上。这一前沿领域由图2中的“#2 patient portals”聚类中的ESI高被引论文及其施引文献构成,其研究内容主要包括以下两个方面:
2.3.1 病人门户系统对健康产出的影响
Kruse等[23]回顾了病人信息门户系统对医疗服务质量影响的文献,发现该系统确实提高了病人的满意度,但是对提高健康产出并没有明显的帮助,该系统当前最有意义的作用是让病人在线查看自己的健康信息记录。Kelly等[24]以一个为父母提供儿童住院信息的门户系统为研究对象,调查了该系统的作用及父母的满意度。结果发现系统易于使用,改善了医疗服务,90%的父母对系统表示满意。
2.3.2 应用病人门户系统的影响因素
Irizarry等[25]研究了病人信息门户系统使用的影响因素,发现患者的兴趣和应用能力受到年龄、民族、教育程度、健康素养、健康状况和护理者角色等个人因素的强烈影响,门户系统需要同时满足医疗机构和病人的信息需求才能得到更大的认可。Tieu等[26]研究了弱势群体通过病人信息门户获取电子健康记录中遇到的困难,发现计算机操作困难、阅读写作困难和医学知识缺乏都影响了弱势群体对门户系统的使用,他认为应为弱势群体提供更多的培训和支持。
这一前沿领域由图2中的“#4 clinical decision support”聚类中的ESI高被引论文及其施引文献构成,其研究内容主要包括以下两个方面:
2.4.1 医患共同决策模式
作为一种新的医疗文化模式,医患共同决策(Shared Decision Making,SDM)越来越受到学术界的关注。医患共同决策即医务人员充分告知患者各种治疗方法的好处和坏处,知情的患者权衡利弊并与医务人员充分交流后共同作出决策,但这种决策模式对于改善患者愈后的效果尚未得到公认。Shay等[27]的研究表明SDM可以有效地促进患者对医疗的正面情感认知,但促进患者改善健康行为和健康产出比例分别仅为37%和25%,因此SDM的效果还有待进一步验证。
2.4.2 电子处方应用
在各国政府的支持和鼓励下,电子处方被广泛地使用,临床决策支持系统(CDS)常常为电子处方显示过多的警报,导致警报疲劳。Nanji等[28]研究了门诊中药物相关的CDS警报的覆盖率,发现最常见的警报是重复用药(33.1%)、患者过敏(16.8%)和药物相互作用(15.8%),他认为应该对CDS的警报进行细化,提高这些警报信息的相关性和针对性。Payne等[29]探索了药物交互作用(DDI)临床决策支持警报的首选策略,讨论了三个关键问题:如何显示DDI临床决策支持信息?DDI临床决策支持的表达形式是否要因人而异?如何评估DDI临床决策支持的有效性?他的结论是临床决策支持警报需要重大改进,应减少警报疲劳、提高患者安全。
基于EHR的积极临床决策支持(CDS)可以在基因药物治疗及病人护理中得到应用。Bell等[30]设计了基于EHR的临床决策支持系统,应用于多种药物遗传监测,该系统针对高风险药物向临床医生提供警报。他通过实验验证了开发该系统的可行性,可为临床医生提供基于基因的药物处方警报。Hoffman等[31]认为药物基因组学要成功地应用于日常的临床护理,需要一种机器可读的、适用于EHR和CDS的药物基因组知识数据库。他概述了这种知识库的关键特征,并讨论了这些知识资源应用于药物基因组学和精准医学的重要性。
这一前沿领域由图2中的“#5 social media”聚类中的ESI高被引论文及其施引文献构成,其研究内容主要包括以下两个方面:
2.5.1 社交网络对健康行为的影响
Maher等[32]系统地回顾了关于在线社交网络对健康行为干预有效性的文献,发现只有非常少量的证据表明,纳入在线社交网络的干预措施可能是有效的。但他同时也承认,这一领域的研究还处于起步阶段,需要进一步地研究来确定如何利用在线社交网络实现大众传播。Laranjo等[33]通过Meta分析评估了基于社交网站的干预措施在健康行为改变中的有效性,发现社交网站对健康行为改变的干预是有效的,但纳入分析的文献之间存在较大的异质性。
2.5.2 社交媒体在医疗服务中的应用
Moorhead等[34]总结了社交媒体在公众、患者和医疗卫生专业人员之间进行健康交流的用途、优势和局限性。他认为社交媒体在卫生服务中的优势在于可加强与他人的互动,能促进、分享和获取健康信息,后续研究应评估不同类型的社交媒体对健康传播的有效性,并探索利用社交媒体监测和提高健康信息传播质量和可靠性的潜在机制。Grajales等[35]认为大量的利益相关者(如临床医生、卫生管理人员、专业院校、学术机构、卫生部等)不知道社交媒体的应用途径和潜在的风险,以及这些风险是如何减弱的。他通过文献回顾研究了医疗和卫生保健部门中使用社交媒体的方式、地点和原因。客观的社会媒体作为个人健康信息共享平台正变得越来越受欢迎,Nikfarjam等[36]认为社交媒体的信息通过自然语言处理(NLP)技术可以用于公共卫生监测,尤其是应用于药物安全监视。他设计了一种基于机器学习的从社交媒体上提取药物不良信息的方法,并验证了其有效性。
本研究以Citespace的概念模型为参照,提出了基于ESI高被引论文的研究前沿模型,从ESI高被引论文及其施引文献入手绘制科学知识图谱,发现了医学信息学5大前沿研究领域:电子健康档案、移动App、病人门户系统、临床决策支持、社交媒体。通过对上述前沿领域的进一步分析,总结出医学信息学研究的3个趋势:1)重视信息行为对健康产出的影响。移动App对健康的影响、病人门户系统对健康的影响和社交网络对健康的影响是各个前沿领域的重要研究内容;2)密切关注新兴技术在医疗领域的应用。移动app在医疗中的应用研究、应用病人门户系统的影响因素研究、电子处方应用研究等新兴技术在医疗服务中的应用研究成效显著;3)数据科学对医学信息学研究的影响日益明显。无论是对电子健康档案进行机器学习与数据挖掘,还是在社交媒体研究中引入自然语言处理技术进行公共卫生预测,都是数据科学在医学信息学研究中的具体应用。
本研究将基于ESI高被引论文的研究前沿模型应用于医学信息学,揭示了该学科的前沿研究领域及其发展动态。ESI高被引论文是各学科领域学术影响力最高的文献,也是一流学科的重要评价指标之一,因此基于ESI高被引论文的学科前沿分析能更好地适应“双一流”背景下学科建设的需要。该模型能帮助相关高校精准识别学科研究前沿,监测学科研究动态,洞察学科发展趋势,在制定学科发展规划、凝练学科研究方向等过程中有着广阔的应用前景。此模型不仅适用于医学信息学领域,也可应用于其他学科的研究前沿探测。