袁晓园+华薇娜
〔摘要〕基于Web of Science数据库,对中国医学信息学国际文献进行收集,采用TDA50软件清洗数据,从不同角度进行定量分析,采用社会网络分析软件绘制高频关键词的共现网络图,结合文献分析和网络共现图探讨五大研究主题。
〔关键词〕医学信息学;文献计量学;定量分析;社会网络分析;UCINET;共现网络
1987年美国国立卫生研究院、国家医学信息中心第一次对医学信息学(Medical Informatics)[1]进行定义,此后30年,医学信息学得到高速发展。
从信息科学的角度,Ackerman等[2]提出病人、数据提供商和保健站点间,实现医疗信息数据标准化。1986年美国国家医学图书馆集结多个学科团队,研发了统一医学语言系统(United Medical Language System),它对信息学的整体研究提供了巨大的帮助[3]。2006年Dolin[4]研究临床文档架构(Clinical Document Architecture,CDA),详细描述从HL7发展到CDA的过程,并相继推出了CDA-R1和CDA-R2。2009年DeShazo[5]采用文献计量学方法,分析过去20年间医学信息学国际出版物的科研产出和研究领域。在中国,一些学者也从不同层面对它开展了研究[6-22]。
本文选择文献计量学的定量分析法。文献计量学是采用数学和统计学的方法,定量分析一切知识载体的交叉科学[23]。经过40多年发展,它已经渐居核心地位,是与科学传播及基础理论关系密切的学术环节。现在全世界每年发表的文献计量学学术论文约为400~500篇[24]。由于中国医学信息学的发展越来越走向专业化,作者认为很有必要对它的文献发展进行定量分析,从而掌握该领域的发展脉搏和研究热点。
1数据来源及方法
11数据来源
选择Web of Science数据库(简称WOS),它是美国汤姆森科技信息集团基于WEB开发的产品,是大型综合性、多学科、核心期刊引文索引数据库。本研究选择WOS数据库下3个子库SCIE(科学引文索引扩展板——1900-至今)、SSCI(社会科学引文索引——1900-至今)和A&HCI(人文艺术科学引文索引——1975-至今)。
从该数据库收集中国大陆、台湾、香港发表的医学信息学的研究文献,检索式采用研究方向(Research Area)作为检索策略,检索式设计为((SU=Medical Informatics)AND CU=(China OR Taiwan OR Hong Kong)),检索年限为所有年限(排除2013年)进行检索,共收集1 448篇,文献类型选择论文(Article)、会议论文(Proceeding Paper)和综述(Review)进行精炼,收集到1 388篇。检索时间2013-12-01。
12研究方法
本研究采用定量分析法揭示中国医学信息学领域国际发文的文献特征,然后采用社会网络分析法,对高频关键词进行共现分析,借助UCINET60软件可视化,以了解中国医学信息学国际发文的研究主题。
21年代文献量分析
科学文献量是衡量科学知识量的重要尺度之一,因此某领域年代论文量的变化可以直观反映该领域内学科发展态势。图1将中国医学信息学国际发文1 388篇文献按照出版年进行汇总。
(1)萌芽阶段(1976-1995):1995年以前,中国医学信息学研究的发文量增长缓慢,每年论文量不超过15篇,有些年份甚至出现空缺,这段时期是中国医学信息学研究成果走向国际的开始阶段。1976年,中国香港大学的Wing,Hj[25]作为第一作者首次在国际期刊“计算机和生物医学研究”上发表了“计算机程序对小脑——丘脑皮层信号的分析”一文。
(2)平稳发展阶段(1996-1999):1996年以后,中国医学信息学研究进入平稳发展的阶段,每年文献量基本维持在20~30篇。由于计算机和网络技术的普及,中国的研究机构开始重视发展医学信息学的研究。
(3)快速发展阶段(2000-至今):2000年以后,中国医学信息学研究的发文量迅猛增长,每年文献量均在40篇以上,2008年以后,每年的发文量平均超过100篇,2012年达到历史的最高峰,预测2012年后,发文量还会持续地增长。
22来源期刊分析
中国医学信息学领域的国际文献共涉及来源期刊32种,平均每种期刊载文量=文献总量/期刊种数=1388/32=4338,将期刊按照载文量进行排序,具体的统计情况如表1所示。
从表1显示结果可以看出,影响因子最高的期刊是医学互联网研究杂志,IF=3768,载文12篇,占文献总量的086%;其次是美国医学信息学会志,IF=3571,载文20篇,占文献总量的23%;影响因子不低于3的期刊共有2种,即上述两个。影响因子不小于2的期刊有6种,如医学统计、IEEE医学和生物工程杂志等;另有13种期刊的影响因子在1左右;其余11种刊物没有查到影响因子。在这32种期刊中,能查到影响因子的16种期刊出版国分别是英国5个、美国5个、荷兰2个、爱尔兰1个、加拿大1个、德国3个。
23重要发文机构分析
在WOS数据库中,对研究者名字进行区分比较复杂,特别是中国的研究者,存在中文名同音但不同字,但是英文中的表达却相同的现象。为了降低研究误差,本文不对研究者做具体分析,而是将发文机构作为研究对象, 对科研机构总发文量进行分析,选择发文量在20篇以上的21所机构,如表2列出,除了来自澳大利亚的悉尼大学,其余均来自台湾、香港、中国大陆的研究机构。其中台湾地区的研究机构有11所,文献量占3977%; 香港地区的研究机构5所,文献量占1981%;中国大陆的研究机构5所,文献量占1491%。在此研究范围内,可以看出目前台湾地区的科研成果成为中国医学信息学国际发文量的重要来源。澳大利亚的悉尼大学是重要的合作机构,所以可以放在里面,即台湾、香港、中国大陆和悉尼大学合作的文章数较多。表2重要发文机构的统计表(文献量>=20)endprint
序号机构文献量百分比(%)1台湾大学(台湾)1369802台湾成功大学(台湾)926633香港中文大学(香港)896414阳明大学(台湾)705045香港大学(香港)694976香港理工大学(香港)553967中国科学院(中国大陆)533828上海交通大学(中国大陆)503609清华大学(中国大陆)463319台北医科大学(台湾)4431710香港城市大学(香港)3928111台湾大学附属医院(台湾)3928112浙江大学(中国大陆)3726713中正大学(台湾)3625914长庚大学(台湾)3424515交通大学(台湾)3323816中央大学(台湾)2618717悉尼大学(澳大利亚)2518018香港浸会大学(香港)2316619台北荣民总医院(台湾)2215920复旦大学(中国大陆)2115121清华大学(台湾)201443合作国家分析
中国医学信息学研究的3 429位论文作者来自于36个国家,与其他国家合作的总发文量为555篇,占40%,具有鲜明的国际合作化的表现。表3显示与中国研究者合作、发文量在10篇以上的研究者国籍的详细信息。其中与中国合作最多的是来自美国的研究者,合作发文量为241篇;其次是澳大利亚的研究者,合作发文量为70篇。其他如英国、加拿大、新加坡,合作发文量分别为53篇、31篇和29篇。
41关键词统计分析
采用TDA软件处理1 388篇文献,除去没有关键词的203篇,得到1 185篇。对关键词词频进行统计,表4列出词频不低于8的39个关键词,可以看出研究集中在支持向量机、电子医学记录、数据挖掘、心电图、功能选择、图像分割、远程医疗、分类、随机效应、中国传统医学、RFID、网络等;同时注重医院信息系统、计算机模拟、病人安全、隐私、自然语言处理、电子健康记录和本体等;有些还涉及到神经网络、人工神经网络、生物力学、芯片等领域。
42关键词共现网络分析
选择词频不低于8的39个关键词,对其做共现矩阵,采用Ucinet60软件绘制高频关键词的共现网络图,结果如图2示,删除了3个孤立节点。图2中的节点表示关键词,连线表示其两端的两个关键词节点在同一篇文章中存在共现,节点大小表示关键词的点度中心度,即关键词出现的总频次,连线粗细表示关键词的共现次数,连线越粗,即关键词共现越多,反之越少。
利用UCINET分析图2中高频关键词的点度中心度、接近中心度和中间中心度,支持向量机、数据挖掘、功能选择、遗传算法等关键词的点度中心度较高。RFID、安全、隐私、病人安全、电子医学记录;数据挖掘、决策树;文本挖掘、自然语言处理、中国传统医学;支持向量机、功能选择、数据挖掘、决策树、分类、遗传算法、神经网络;图2高频关键词的共现网络图
功能选择、心电图、乳腺癌、特征提取等各组关键词间的连线较粗,即表明它们在一篇文章中共现次数较高,当高频关键词在同一文章中共同出现的次数多,则可以初步反映该领域的研究热点。结合文献分析和共现网络图,可以推出中国医学信息学的五大研究主题:(1)电子医学记录的安全管理。(2)计算机自然语言处理和文本挖掘在中国传统医学诊断中的运用。(3)计算机和网络对医院信息系统、护理系统的研发和应用。(4)统计方法和计算机技术在临床检查、疾病诊断和 治疗、临床决策中的运用。(5)统计方法和计算机处理对临床医学、研究型数据的分析和系统构建。
5结语
本文采用文献计量学方法,从年代发文量、来源期刊、重要发文机构、合作国家和相关学科等进行分析,得出中国医学信息学领域的研究经历了3个阶段:萌芽阶段、平稳发展阶段、快速发展阶段。2008年以后,每年发文量平均超过100篇,2012年达到历史最高峰。根据来源期刊分析,中国医学信息学期刊分布主要集中在载文量为55篇以上的前9种期刊。发文量在20篇以上的21所机构中,台湾地区研究机构成为中国医学信息学国际发文的重要来源。从合作来看,中国医学信息学研究具有鲜明的国际化合作趋势,与中国合作最多的是美国、澳大利亚和英国的研究者。采用Ucinet60绘制高频关键词的共现网络图,结合文献得到五大研究主题。
本研究选择中国医学信息学的国际发文为研究样本,因样本量和选择范围较小,如果采用被引频次作为分析指标,不具备较强的代表性和典型性,容易产生抽样误差,当样本量扩大至国际范围,在较大范围内进行研究可以缩小误差变异。因此扩大样本量和研究范围,试评价重要学者的学术影响力,以及分析国际合作、测度它对其他学科的影响力和渗透性,都有待进一步研究。
参考文献
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.医学信息学的现状与未来[J].中华医院管理杂志,2004,20(4):232-235.
[7]胡兆芹,张士靖.美国医学信息学教育现状分析及启示[J].中国高等医学教育,2005,(3):37-40.endprint
序号机构文献量百分比(%)1台湾大学(台湾)1369802台湾成功大学(台湾)926633香港中文大学(香港)896414阳明大学(台湾)705045香港大学(香港)694976香港理工大学(香港)553967中国科学院(中国大陆)533828上海交通大学(中国大陆)503609清华大学(中国大陆)463319台北医科大学(台湾)4431710香港城市大学(香港)3928111台湾大学附属医院(台湾)3928112浙江大学(中国大陆)3726713中正大学(台湾)3625914长庚大学(台湾)3424515交通大学(台湾)3323816中央大学(台湾)2618717悉尼大学(澳大利亚)2518018香港浸会大学(香港)2316619台北荣民总医院(台湾)2215920复旦大学(中国大陆)2115121清华大学(台湾)201443合作国家分析
中国医学信息学研究的3 429位论文作者来自于36个国家,与其他国家合作的总发文量为555篇,占40%,具有鲜明的国际合作化的表现。表3显示与中国研究者合作、发文量在10篇以上的研究者国籍的详细信息。其中与中国合作最多的是来自美国的研究者,合作发文量为241篇;其次是澳大利亚的研究者,合作发文量为70篇。其他如英国、加拿大、新加坡,合作发文量分别为53篇、31篇和29篇。
41关键词统计分析
采用TDA软件处理1 388篇文献,除去没有关键词的203篇,得到1 185篇。对关键词词频进行统计,表4列出词频不低于8的39个关键词,可以看出研究集中在支持向量机、电子医学记录、数据挖掘、心电图、功能选择、图像分割、远程医疗、分类、随机效应、中国传统医学、RFID、网络等;同时注重医院信息系统、计算机模拟、病人安全、隐私、自然语言处理、电子健康记录和本体等;有些还涉及到神经网络、人工神经网络、生物力学、芯片等领域。
42关键词共现网络分析
选择词频不低于8的39个关键词,对其做共现矩阵,采用Ucinet60软件绘制高频关键词的共现网络图,结果如图2示,删除了3个孤立节点。图2中的节点表示关键词,连线表示其两端的两个关键词节点在同一篇文章中存在共现,节点大小表示关键词的点度中心度,即关键词出现的总频次,连线粗细表示关键词的共现次数,连线越粗,即关键词共现越多,反之越少。
利用UCINET分析图2中高频关键词的点度中心度、接近中心度和中间中心度,支持向量机、数据挖掘、功能选择、遗传算法等关键词的点度中心度较高。RFID、安全、隐私、病人安全、电子医学记录;数据挖掘、决策树;文本挖掘、自然语言处理、中国传统医学;支持向量机、功能选择、数据挖掘、决策树、分类、遗传算法、神经网络;图2高频关键词的共现网络图
功能选择、心电图、乳腺癌、特征提取等各组关键词间的连线较粗,即表明它们在一篇文章中共现次数较高,当高频关键词在同一文章中共同出现的次数多,则可以初步反映该领域的研究热点。结合文献分析和共现网络图,可以推出中国医学信息学的五大研究主题:(1)电子医学记录的安全管理。(2)计算机自然语言处理和文本挖掘在中国传统医学诊断中的运用。(3)计算机和网络对医院信息系统、护理系统的研发和应用。(4)统计方法和计算机技术在临床检查、疾病诊断和 治疗、临床决策中的运用。(5)统计方法和计算机处理对临床医学、研究型数据的分析和系统构建。
5结语
本文采用文献计量学方法,从年代发文量、来源期刊、重要发文机构、合作国家和相关学科等进行分析,得出中国医学信息学领域的研究经历了3个阶段:萌芽阶段、平稳发展阶段、快速发展阶段。2008年以后,每年发文量平均超过100篇,2012年达到历史最高峰。根据来源期刊分析,中国医学信息学期刊分布主要集中在载文量为55篇以上的前9种期刊。发文量在20篇以上的21所机构中,台湾地区研究机构成为中国医学信息学国际发文的重要来源。从合作来看,中国医学信息学研究具有鲜明的国际化合作趋势,与中国合作最多的是美国、澳大利亚和英国的研究者。采用Ucinet60绘制高频关键词的共现网络图,结合文献得到五大研究主题。
本研究选择中国医学信息学的国际发文为研究样本,因样本量和选择范围较小,如果采用被引频次作为分析指标,不具备较强的代表性和典型性,容易产生抽样误差,当样本量扩大至国际范围,在较大范围内进行研究可以缩小误差变异。因此扩大样本量和研究范围,试评价重要学者的学术影响力,以及分析国际合作、测度它对其他学科的影响力和渗透性,都有待进一步研究。
参考文献
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.医学信息学的现状与未来[J].中华医院管理杂志,2004,20(4):232-235.
[7]胡兆芹,张士靖.美国医学信息学教育现状分析及启示[J].中国高等医学教育,2005,(3):37-40.endprint
序号机构文献量百分比(%)1台湾大学(台湾)1369802台湾成功大学(台湾)926633香港中文大学(香港)896414阳明大学(台湾)705045香港大学(香港)694976香港理工大学(香港)553967中国科学院(中国大陆)533828上海交通大学(中国大陆)503609清华大学(中国大陆)463319台北医科大学(台湾)4431710香港城市大学(香港)3928111台湾大学附属医院(台湾)3928112浙江大学(中国大陆)3726713中正大学(台湾)3625914长庚大学(台湾)3424515交通大学(台湾)3323816中央大学(台湾)2618717悉尼大学(澳大利亚)2518018香港浸会大学(香港)2316619台北荣民总医院(台湾)2215920复旦大学(中国大陆)2115121清华大学(台湾)201443合作国家分析
中国医学信息学研究的3 429位论文作者来自于36个国家,与其他国家合作的总发文量为555篇,占40%,具有鲜明的国际合作化的表现。表3显示与中国研究者合作、发文量在10篇以上的研究者国籍的详细信息。其中与中国合作最多的是来自美国的研究者,合作发文量为241篇;其次是澳大利亚的研究者,合作发文量为70篇。其他如英国、加拿大、新加坡,合作发文量分别为53篇、31篇和29篇。
41关键词统计分析
采用TDA软件处理1 388篇文献,除去没有关键词的203篇,得到1 185篇。对关键词词频进行统计,表4列出词频不低于8的39个关键词,可以看出研究集中在支持向量机、电子医学记录、数据挖掘、心电图、功能选择、图像分割、远程医疗、分类、随机效应、中国传统医学、RFID、网络等;同时注重医院信息系统、计算机模拟、病人安全、隐私、自然语言处理、电子健康记录和本体等;有些还涉及到神经网络、人工神经网络、生物力学、芯片等领域。
42关键词共现网络分析
选择词频不低于8的39个关键词,对其做共现矩阵,采用Ucinet60软件绘制高频关键词的共现网络图,结果如图2示,删除了3个孤立节点。图2中的节点表示关键词,连线表示其两端的两个关键词节点在同一篇文章中存在共现,节点大小表示关键词的点度中心度,即关键词出现的总频次,连线粗细表示关键词的共现次数,连线越粗,即关键词共现越多,反之越少。
利用UCINET分析图2中高频关键词的点度中心度、接近中心度和中间中心度,支持向量机、数据挖掘、功能选择、遗传算法等关键词的点度中心度较高。RFID、安全、隐私、病人安全、电子医学记录;数据挖掘、决策树;文本挖掘、自然语言处理、中国传统医学;支持向量机、功能选择、数据挖掘、决策树、分类、遗传算法、神经网络;图2高频关键词的共现网络图
功能选择、心电图、乳腺癌、特征提取等各组关键词间的连线较粗,即表明它们在一篇文章中共现次数较高,当高频关键词在同一文章中共同出现的次数多,则可以初步反映该领域的研究热点。结合文献分析和共现网络图,可以推出中国医学信息学的五大研究主题:(1)电子医学记录的安全管理。(2)计算机自然语言处理和文本挖掘在中国传统医学诊断中的运用。(3)计算机和网络对医院信息系统、护理系统的研发和应用。(4)统计方法和计算机技术在临床检查、疾病诊断和 治疗、临床决策中的运用。(5)统计方法和计算机处理对临床医学、研究型数据的分析和系统构建。
5结语
本文采用文献计量学方法,从年代发文量、来源期刊、重要发文机构、合作国家和相关学科等进行分析,得出中国医学信息学领域的研究经历了3个阶段:萌芽阶段、平稳发展阶段、快速发展阶段。2008年以后,每年发文量平均超过100篇,2012年达到历史最高峰。根据来源期刊分析,中国医学信息学期刊分布主要集中在载文量为55篇以上的前9种期刊。发文量在20篇以上的21所机构中,台湾地区研究机构成为中国医学信息学国际发文的重要来源。从合作来看,中国医学信息学研究具有鲜明的国际化合作趋势,与中国合作最多的是美国、澳大利亚和英国的研究者。采用Ucinet60绘制高频关键词的共现网络图,结合文献得到五大研究主题。
本研究选择中国医学信息学的国际发文为研究样本,因样本量和选择范围较小,如果采用被引频次作为分析指标,不具备较强的代表性和典型性,容易产生抽样误差,当样本量扩大至国际范围,在较大范围内进行研究可以缩小误差变异。因此扩大样本量和研究范围,试评价重要学者的学术影响力,以及分析国际合作、测度它对其他学科的影响力和渗透性,都有待进一步研究。
参考文献
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.医学信息学的现状与未来[J].中华医院管理杂志,2004,20(4):232-235.
[7]胡兆芹,张士靖.美国医学信息学教育现状分析及启示[J].中国高等医学教育,2005,(3):37-40.endprint