1987年,美国国立卫生研究院首次将医学信息学定义为将计算机运用到健康保健和医学不同领域,对医疗数据进行分析和传播的信息科学[1]。由此可知医学信息学是与医学、计算机科学、图书情报学等多学科交叉的一门科学。
我国医学信息学科在医学图书情报学的基础上,伴随着我国医药卫生事业信息化的发展而逐渐兴起,在过去的30年中得到了快速发展,学科内涵日益丰富,研究领域也不断扩展[2-4]。
为有效及时地把握医学信息学科的发展状况和研究热点,国内学者采用科学计量学的方法开展了相应的研究。
2015年,魏丽、张云秋等利用BICOMB、VOSviewer、SPSS等分析软件,以Pub Med数据库中医学信息学领域核心期刊2010-2014年的科技文献为数据来源,绘制共现网络图、热点密度图和聚类树图,探测国外医学信息学领域研究前沿,研究显示国外医学信息学领域的研究前沿主要包括电子健康档案的自然语言处理和数据挖掘,医疗决策帮助系统,计算机辅助的药物治疗,临床决策支持,医疗保健的态度、质量和模式,病案系统及其联动,信息系统及其整合等[5]。
2011年,徐丹等使用知识图谱工具HistCite和Pajek软件,探索该领域的研究热点并绘制学科发展的主要路径[6]。2014年,袁晓园等通过共词分析的方法对关键词进行聚类分析,归纳出医学信息学研究的六大主题[7]。
然而,目前的研究大多是对国内或国外医学信息学研究热点的计量分析,而二者的对比研究则相对较少,同时存在时间维度不统一、数据来源差异等问题[8-11]。
本文选择医学信息学研究体系较为完善的美国作为主要研究对象,采用科学计量学中的共词分析法,对中、美两国医学信息学领域研究的现状和热点进行了分析,明确两国在医学信息学领域研究的差异,旨在为我国医学信息学领域的研究提供借鉴和参考。
以Web of Science(WOS)核心合集为数据源,于2015年3月1日进行检索,收集中国及美国发表的研究方向为医学信息学的学术文献,检索式分别为:((SU=MEDICAL INFORMATICS) AND CU=(PEOPLES R CHINA OR TAIWAN OR HONG KONG OR MACAU))和((SU=MEDICAL INFORMATICS) AND CU=USA),时间跨度为2005-2014年,文献类型限定为Article或Letter或Note或Review。
通过检索最终得到医学信息学领域中国发表了相关文献1 433篇,美国发表文献7 780篇,分别将数据导出为TXT格式文件。
本文采用共词分析法对中、美两国医学信息学领域发文的知识结构和研究热点进行分类和梳理。目前,大多数知识图谱工具不支持文献数据清洗[12],而且聚类效果不尽如人意。因此本文使用TDA软件对关键词数据进行清理,并生成共词矩阵和相异矩阵,使用专业统计软件SPSS 20.0对关键词矩阵进行聚类分析,通过Ucinet软件和NetDraw软件对关键词的分布进行可视化分析,从而归纳出两国医学信息学领域的主要研究热点,并进行对比分析。
2.1.1 关键词词频统计
对中国发表的1 433篇文献进行统计,共得到4 611个关键词。使用TDA软件的List Cleanup功能对上述4 611个关键词进行自动清理,将一些同根词、同义词、近义词、单复数形式或复合形式进行合并,如Support vector machine和Support vector machines。
另外,由于软件存在无法自动识别英文缩写和全拼、部分同义词未能合并、非同义词合并等问题,因而需要人工对其进行筛选和处理;同时结合医学信息学的主题,删除没有实质意义或关联的词汇,如评价、技术等,并删除一些地域性词汇。
经过处理后共得到关键词4 358个,关键词最高频次为41次。选择词频≥9次的48个关键词(词频共717次)作为聚类分析的基础,详见表1。
由表1可知,中国医学信息学的研究主要集中在支持向量机、电子病历、射频识别技术、认证、远程医疗信息系统、特征选择、安全、电子健康档案、智能卡、数据挖掘等方面,是关于数学、统计和计算机方法在医院管理、临床管理、护理管理等方面的应用。
2.1.2 关键词聚类分析
使用TDA软件生成关键词共词矩阵(表2),并使用Ochiia系数将共词矩阵转化为相似矩阵,将相似矩阵导出到EXCEL中。
由于相似矩阵中的0值过多,统计时容易造成误差,因而用1和全部相似矩阵数据相减,得到关键词的相异矩阵,见表3。
表1 中国发文关键词统计(词频≥9)
注:36号关键词“PACS”意为“医学影像存档与通信系统”
表2 中国发文关键词共词矩阵(部分)
表3 中国发文关键词相异矩阵(部分)
将关键词相异矩阵导入到SPSS 20.0中,采用系统聚类、离差平方和法对关键词进行聚类,得到聚类树状图(图1)。值得注意的是,SPSS的系统聚类模块已经嵌入了相似度算法,若不对其进行阻止,则会在上述相似矩阵的基础上再进行一次相似度计算,造成对相似度的高估和扭曲。因而需要在Syntax编辑窗口对Syntax进行编辑,阻止聚类模块在聚类之前重复计算相似度[13]。
图1 中国医学信息学研究热点聚类树状图
在关键词相似矩阵的基础上,通过Ucinet软件进行关键词网络分析,同时使用NetDraw软件对关键词的分布进行可视化分析,如图2所示。根据聚类树状图和关键词分布图并研读相关文献,将相关研究聚为五类。
第一类:远程医疗、电子健康档案和电子病历的安全管理(关键词4、5、9、21、2、8、24、3、29、7、27、43)。加强数字医学信息的安全建设有助于改善病人的医疗安全和信息安全,涉及的技术和方法主要有智能卡技术、射频识别技术(RFID)、用户认证和访问控制等。研究内容包括基于混沌映射的用户认证方案[14]、基于射频识别技术的处方防篡改访问控制系统设计[15]、基于智能卡的用户隐私保护系统研究[16]和中、美电子健康档案建设标准对比研究[17]等。
第二类:计算机自然语言处理和文本挖掘在中国传统医学中的应用(关键词17、19、23)。中国传统医学历史悠久,蕴含的资源极为丰富。计算机人工智能技术和数据挖掘技术的逐步兴起为研究中国传统医学提供了新的思路,是我国医学信息学研究的重要特色。研究内容包括数据处理与分析在中国传统医学中的应用[18]、研发中国传统医学临床数据仓库促进知识发现和决策支持[19]、中国传统医学护理记录的挖掘技术研究[20]、二阶潜变量模型在中国传统医学症状评估中的应用[21]等。
第三类:计算机技术在医院管理、临床管理及辅助诊疗方面的应用,以及远程医疗(关键词40、47、13、20、38、31、32、26、36、48、35、18、39、11)。医院信息化管理一直是我国医学信息学的研究重点,研究内容包括云计算在十二导联心电图远程医疗服务中的应用[22]、多维度心音数据库的研发[23]、护理信息学在中国及台湾临床实践中的应用[24-25]、医学影像中模糊细胞神经网络技术的发展[26]等。
第四类:数学方法和计算机技术在临床诊疗及生物工程方面的应用(关键词42、46、44、45、28、37、15、41)。研究内容包括人工神经网络在微阵列图像分割与心血管疾病危险分级方面的应用[27-28]、基于云环境的医疗数据交换协议[29]、有限元建模用于重建病人下颌[30]等。
第五类:统计方法和机器学习在临床诊疗中的应用(关键词1、6、22、25、12、34、33、14、16、10、30)。涉及的统计及机器学习方法主要有遗传算法、粒子群优化和logistic回归等。研究内容包括基于支持向量机的群智能乳腺癌诊断系统研究[31]、对小数据集进行数据转换以提高特征抽取的分类性能[32]、基于遗传模糊系统的不定型性心绞痛风险评估[33]、体检系统与临床决策支持系统的集成研究[34]等。
图2 中国医学信息学关键词分布图
2.2.1 关键词词频统计
对美国发表的7 780篇文献进行统计,共得到15 280个关键词。使用TDA软件清理后,共得到关键词13 878个。选择词频≥40次的48个关键词(词频共3 254次)作为下一步聚类分析的基础,见表4。
表4 美国发文关键词统计(词频≥40)
注:16号关键词“MCMC”意为“马尔科夫蒙特卡洛方法”
由表4可知,美国医学信息学的研究主要集中在电子健康档案、互联网、自然语言处理、医学信息学理论、临床试验、临床决策支持系统、电子病历等方面,还包括数学、统计和计算机方法的应用,以及移动医疗、远程医疗、互联网健康信息共享等方面。
2.2.2 关键词聚类分析
经处理,依次得到关键词的共词矩阵(表5)、相异矩阵(表6)、关键词分布图(图3)、聚类树状图(图4)。根据关键词分布图和聚类树状图研读相关文献,将相关研究分为五类。
表5 美国发文关键词共词矩阵(部分)
表6 美国发文关键词相异矩阵(部分)
图3 美国医学信息学研究热点分布
图4 美国医学信息学研究热点聚类树状图
第一类:临床试验过程中的数理统计理论与方法研究(关键词24、28、11、29、10、45、12、34)。临床试验的前期主要涉及试验样本量选取及效能等研究热点,后期主要是围绕数据整理和数据分析的方法展开研究。研究内容包括在盲法试验的进行过程中通过随机化区组设计的方法重新评估样本数量和在不中断试验的情况下提高试验效能[35]、纵向随机临床试验中数据填补的方法对比研究[36]、纵向数据的相关性分析在艾滋病和社会心理学研究中的应用[37]、使用马尔科夫模型和混合效应模型评估健康状态和成本的改变[38]等。
第二类:电子健康档案的介绍、建设技术、方法及应用研究(关键词8、42、1、30)。电子健康档案是对个人健康相关活动的电子化记录,包含医疗服务、保健服务、免疫接种、健康教育活动等记录,是卫生信息技术中一直以来的研究热点及重点。研究内容包括基于云技术的互操作电子健康档案系统的构建[39]、电子健康档案在识别患者表型组中的应用综述[40]、电子健康档案中医疗决策信息共享模型研究[41]、美国纽约卫生信息技术和医疗信息交换发展现状研究[42]。
第三类:数据挖掘、机器学习、人工智能在临床诊疗和决策支持方面的应用,以及医学信息学总论(关键词23、33、19、48、6、32、40、3、18、7、17、4)。医疗数据的规模日趋扩大,但利用效率却相对低下,数据挖掘、机器学习和人工智能的发展必将发掘隐含在其中的巨大价值,提升医疗技术水平。研究内容包括对不平衡数据集进行挖掘与改进阵痛和分娩过程中药物不良事件预测模型[43]、基于图形概念排序的生物医学文本索引研究[44]、机器学习和自然语言处理在预测肥胖症及其并发症方面的应用[45]、集成基因组学和表型知识的语义网在病因基因鉴别中的应用[46]、医学信息学过去10年的回顾及未来10年的展望[47]。
第四类:互联网健康信息传播、医学信息学教育(关键词27、46、2、36、43、21、47、31)。随着IT技术的快速发展,人们获取健康信息的来源不再局限于医生,社交媒体、健康信息网站、论坛等在内的互联网健康信息传播方式已经受到人们越来越多的关注,也是目前医学信息学领域的研究热点。研究内容包括在线健康信息咨询在癌症患者群体中的应用[48]、社交媒体健康信息的内容相关性模型研究[49]、俄勒冈卫生科学大学的生物医学信息学教育模式研究[50]、护理信息学在美国护理教育中的重要地位探析[51]等。
第五类:统计分析方法在临床管理和临床试验中的应用,移动医疗和远程医疗的发展,循证医学研究(关键词5、44、16、39、25、37、15、26、9、14、20、35、13、38、22、21)。涉及的统计分析方法主要有马尔科夫蒙特卡洛方法(MCMC)、贝叶斯分析、成本效益分析、生存分析和meta分析等。研究内容包括贝叶斯方法在风险调整后医疗卫生结果监控中的应用[52]、虚拟现实外科手术模拟器培训效果的meta分析[53]、四种青少年健康信息评估移动设备的可用性比较[54]、远程病人监护系统在充血性心力衰竭监测中的应用[55]、循证医学与临床决策之间的辩证关系研究[56]。
从上述分析可知,中、美医学信息学研究热点之间既存在一致性也存在差异性。
计算机技术在医院管理和临床诊疗中的应用是两国学者共同关注的研究重点,包括医院信息系统、电子病历、电子健康档案等,这与医学信息学科的使命相吻合,同时计算机技术的应用也为医院工作效率的提高和医疗质量的改善做出了极大的贡献。另外,计算机技术与数学统计等方法交叉所产生的数据挖掘、机器学习和人工智能技术在临床诊疗中所发挥的作用也与日俱增,主要体现在临床决策支持、疾病预测与风险评估等方面。
一是美国医学信息学科整体发展水平较高。近10年,美国医学信息学领域在国际期刊上发文7 780篇,而中国仅为1 433篇。另外从研究热点聚类的结果来看,美国医学信息学研究范围更加广泛,研究方法和成果更加多样化。
二是美国对医学信息和数据的利用更为充分。中国医院信息系统的重点在于处理医院管理工作和临床诊疗事宜,而美国医院信息系统侧重于对医院信息和数据进行深度挖掘,最终支持临床决策。另外,从关键词排序可以看出,临床决策支持在美国发文的关键词中排在第6位,而在中国发文的关键词中排在第33位,说明中国更加注重信息的采集和管理,美国注重信息的分析及利用。
三是美国医学信息学教育体系更为完善。美国医学信息学教育始于20世纪中叶,早在1972年美国国立医学图书馆就开始支持医学信息学研究生培训计划,如今不仅建立了规范的学位教育,而且有了专门的研究中心和学术机构。中国于1983年才开始开设医学信息学相关专业,目前仅有少数学校设立了硕士点,而博士和博士后教育几乎空白。另外,本文中“教育”作为高频关键词在美国发文中有所体现,研究内容包括美国具有代表性的高校医学信息学教育模式介绍以及护理信息学、生物信息学教育等,但在中国发文高频关键词中并未出现。
四是美国循证医学研究水平及层次较高。1992年循证医学在国际上逐渐兴起,1996年我国开始引进循证医学,它强调医生对患者的诊断、治疗应基于当前可得的最佳证据。循证医学对卫生事业各方面都有十分重要的意义,被誉为21世纪的临床医学[57]。作为医学信息学的重要研究方向,循证医学在美国发文关键词中出现69次(排第14位),而在中国发文高频关键词中并未出现,说明循证医学在我国仍处于发展阶段初期,主要借鉴和使用国外的研究证据和方法,自主创新研究较少。
本文采用共词分析法对中、美近10年发表在国际期刊上的医学信息学论文进行分析,借助TDA、SPSS 20.0、Ucinet和NetDraw等工具对高频关键词进行聚类和可视化分析。根据聚类树状图和关键词分布特征分别总结了中、美在医学信息学领域的研究热点及两国在医学信息学领域研究的一致性和差异性。
2010年出版的《中国图书馆分类法》第五版已将“医学信息学”作为一个独立的类目,可见中国医学信息学发展迅速,正日趋成熟[58],但与美国医学信息学研究相比仍存在较大的差距。因此中国应在坚持技术应用为重点的基础上,改变教育模式,完善医学信息学教育体系,提升医学信息学相关新兴学科的研究水平,促进中国医学信息学的发展。