基于文献定量及知识图谱方法的医学信息学研究现状分析

2013-05-11 08:28李国栋
中国科技信息 2013年24期
关键词:信息学可视化医学

李国栋

南阳医学高等专科学校,河南 南阳 473058

1.概述

医学信息学是一门兴起于上个世纪70年代基于医学、计算机科学、信息管理学、和统计学的新兴交叉学科,随着医学院校对医学信息教育的开展和医疗事业单位信息化的发展,医学信息学的研究逐渐深入,对本学科领域以及相关领域的研究文献数量不断增加。本文通过用文献定量分析和可视化分析的方法,对医学信息学研究文献进行统计和分析,以知识图谱的形式显示学科发展路径,揭示医学信息学研究领域的特点、研究前沿和发展趋势,为今后更加深入的研究提供参考。

2.数据来源及工具

使用万方知识服务平台进行文献检索并导出2003年以来有关医学信息学的学术论文的题录,文献题录包含标题、作者、关键词、摘要、机构、来源等字段供分析使用。使用的软件有中文文献检索管理软件NoteExpress、文献题录信息统计分析工具SATI 3.2、可视化文献分析软件Gephi,这些软件用于加工整理文献信息、分析数据和进行可视分文献分析。

3.方法与步骤

3.1 搜集文献数据

使用万方知识服务平台的高级检索功能进行文献检索,检索式为“关键词:(医学信息) + 关键词:(医学信息学)* Date:2003-2013”,得到1,548条文献信息,再用数据库的“导出”功能导出NoteExpress格式的文献题录,将题录导入NoteExpress进行查重、去除无效数据等操作,最后得到1387条文献题录数据。

3.2 数据定量分析

3.2.1 抽取字段和词频排序 从NoteExpress导出符合要求的题录数据,使用SATI3.2进行处理,使用“字段抽取”和“频次统计”功能统计出作者、关键词、机构、期刊来源等字段的词频进行排序,以供后序的词频分析使用。

3.2.2 词频分析 通过对对各个字段的词频进行排序,对论文高发阶段、核心作者和机构群体、核心期刊群体等进行分析,用表格和图表的形式呈现出分析结果,展示医学信息学学科领域的研究现状。

3.2.3 关键词共现分析 使用软件SATI3.2生成关键词的高频词共现关系矩阵,进行格式处理以后导入可视化分析软件Gephi生成高频关键词的共现关系图谱,直观地反映出研究领域的热点和前沿,并预测医学信息学研究的发展趋势。

4. 结果分析

4.1 文献定量分析

4.1.1 发文数量分析 本研究共获得文献题录信息1387条,其中包括期刊论文965条、会议论文259条、学位论文163条。从2003年以来医学信息学研究领域研究的学术论文分布如图1所示。从图中可以看到2003年至2006年对医学信息的研究论文数量呈上升趋势(前期),2006年至2010年数量则稳定于高位(中期),而在2011、2012两年里本学科领域的研究文献数量呈下降趋势(后期)。这说明在前期医学与信息管理、计算机技术相结合的背景下,研究热点频繁出现,相关的学术文献数量激增。对医学信息学领域的研究在中期热点集中,发展迅速,因此学术文献的数量居高稳定。而在后期由于本学科领域热点的研究已经趋于成熟,热度渐消,因此整体的学术研究文献数量处于下降趋势,随着学科领域理论与技术的不断进展,将会产生新的学科热点,发文数量也会进入下一个循环周期。

图1 发文量逐年分布图

4.1.2 作者分析 通过对第一作者字段的抽取和词频统计,对所有866名作者的发文量进行统计排序,并将在本学科研究领域中发文量超过4篇的作者列出(表1)。可以看到,以第一作者发表4篇以上的作者有28人,一共发表169篇,占总数的12.2%,其中发表数量最多的有13篇,10篇2人,9篇3人,7篇32人,6篇3人,5篇6人,4篇10人,其余发文量3篇及3篇以下的共有837人。由此显示,医学信息学的学科研究队伍已经形成了以吉林大学王伟教授和上海中医药大学包含飞研究员为代表的核心作者群体,研究的学科范围涵盖了医学信息学教育、生物医学信息、医院信息化建设、数字资源建设、医学信息服务、云计算等学科,包含飞的单篇最高被引次数为22次,王伟的被引次数为12次,这说明作者论文的质量和影响力也能够代表本学科领域的学术水平。

表1 第一作者发文量统计(部分)

4.1.3 来源期刊分析

根据本文统计数据(表2),从2003年至今国内共有250种中文期刊发表了1387篇有关医学信息学研究的学术论文,其中发表数量在10篇以上的期刊共有12种,合计发文474篇,占总量的34.2%,其中《医学信息学杂志》发表130篇,《中华医学图书情报杂志》发表125篇,《医学信息》发表60篇,发表41篇,可以看出以《医学信息学杂志》、《中华医学图书情报杂志》、《医学信息》、《医学情报工作》等期刊为代表的期刊群已经成为进行医学信息学研究的主要学术交流阵地,在这些期刊上发表的相关学术论文代表了本学科领域研究的发展方向趋势。

表2 来源期刊统计表(部分)

4.1.4 关键词统计分析

关键词是能够反映文献实质内容的词汇,通过它对文献内容的标引,我们能够快速地通过检索工具得到符合我们要求的文献。通过对大量关键词数据的统计分析,可以准确地把握学科领域的研究动态和发展趋势。本文围绕“文献信息”和“文献信息学”主题从文献题录的关键词字段中共抽取出现次数2次以上的关键词574个,词频在10次以上的关键次一共46个,词频在30次以上的关键词有 “医学信息资源”、“医学信息服务”、“信息服务”、“医学信息检索”、“医学信息学应用”、“医学改革”、“医学图书馆”、“医院图书馆”等,从这些调频关键词的分布可以看出近年来医学信息学的研究领域的热点主要分布情况。对了2003年以来各年文献中高频关键词的前10名的统计清晰地展示出医学信息学研究的研究脉络,可以看到“医学信息资源”、“医学信息服务”、“医学信息管理”等研究主题始终贯穿在医学信息学研究的过程,同时“医学图书馆”、“互联网”、“医院信息系统”、“数据挖掘”等研究热点也在随着时间推移而不断涌现和变换。而近3年来在研究大方向不变的情况下,“医学信息教育”、“教学方法”、“教学改革”、“医学信息管理”、“医院信息系统”等关键词逐渐出现,说明有关医学信息学教育、医学信息管理应用的研究开始成为学科研究的前沿和热点。

4.2 文献可视化分析

文献信息可视化分析是情报学研究的重要领域之一,特别是近年来功能强大的可视化分析软件通过对海量数据的挖掘分析功能为研究者准确、直观地提示学科领域热点和前沿提供了强大的技术手段,在文献定量分析的基础上,用多维图谱对学科领域研究进行共词分析、共引分析、聚类分析和时区分析。本文使用可交互的复杂网络关系可视化分析软件Gephi对2003年以来医学信息学研究文献进行了关键词共现可视化分析。具体方法是使用SATI3.2对文献题录进行处理,生成关键词共现关系矩阵,用Gephi对共现关系矩阵进行数据清洗之后绘制出关键词聚类和共现关系图谱(图2)从而展示出医学信息学研究领域聚焦的热点以及它们之间的关联。

从图2的关键词共现关系图谱中可以看到,从2003年以来对医学信息学的研究围绕“医学信息”和“医学信息学”两个主题又逐步形成了不同的研究热点,图中节点的颜色分组代表了对关键词聚类分析结果,节点之间的连线则反映了关键词之间的共现关系。为了更加清晰地了解文献信息学的进展状况,本例对文献信息以年为单位进行切割,并选取2003年、2008年和2012年的文献数据进行了可视化分析对比(图3、图4、图5)。

图2 2003年以来医学信息学文献关键词共现关系图谱

图3 2003年医学信息学研究关键词共现图谱

图4 2008年医学信息学研究关键词共现图谱

图5 2012医学信息学研究关键词共现图谱

通过图3,可以看出2003年围绕医学信息学主题开展的研究有“医学信息管理”、“远程医疗”、“数据库”、“网络环境”、“图书馆”、“信息服务”、“医学信息学应用”、“医院信息系统”等,出现了“医学信息服务”、“医学图书馆”和“医院图书馆”等研究热点。图4显示2008年 “医学信息学” 研究领域出现的热点有“信息服务”、“循证医学”、“医院信息系统”、“教学改革”、“医学信息服务”。图5显示在“医学信息学”研究领域的热点仍围绕着“医学信息服务”、“医学信息管理”、“医学图书馆”等主题开展,聚类分析显示出“军队医学应用”、“医学信息教育”、“医学信息标准”、“重点学科”、“决策”等主题的研究也在逐步升温。通过对三幅关键词共现关系图谱的对比,还可以看出2003年和2008年的共现关系网络比较简单,焦点集中,而2012年的共现关系网络复杂,焦点之间的关联丰富,这说医学信息学作为一门新兴的交叉学科,正在加速与其他学科整合,学科领域的研究热点不断涌现的发展趋势。

5.结语

海量的文献信息数据中包含了学科领域研究的各种隐藏信息,通过数据挖掘析出有用的数据,再用文献定量和可视化分析的方法,可以清晰地显示出该学科领域研究的演进过程。本文通过文献统计和定量分析、可视化分析的方法,使用目前最前沿的学科知识图谱软件对医学信息学学科领域研究的演进过程和前沿热点进行了分析,为本学科研究者把握学科前沿,深入开展研究提供了可靠的参考。

[1]董建成.医学信息学的现状与未来[J].中华医院管理杂志,2004,20(4):232-235.DOI:10.3760/j.issn:1000-6672.2004.04.016.

[2]徐一新,应峻,董建成等. 医学信息学的发展[J]. 中国医院管理,2006,26(3):30-32.DOI:10.3969/j.issn.1001-5329.2006.03.010.

[3]Mathieu Bastian,Sebastien Heymann,Mathieu Jacomy et al.Gephi: An Open Source Software for Exploring and Manipulating Networks[C].//Proceedigns of the Third International AAAI Conference on Weblogs and Social Media.2009:361-362.

[4]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58.

[5]钟伟金,李佳.共词分析法研究(一)——共词分析的过程与方式[J].情报杂志,2008,27(5):70-72.DOI:10.3969/j.issn.1002-1965.2008.05.022.

猜你喜欢
信息学可视化医学
基于CiteSpace的足三里穴研究可视化分析
本刊可直接使用的医学缩略语(二)
思维可视化
鸡NRF1基因启动子区生物信息学分析
医学的进步
基于CGAL和OpenGL的海底地形三维可视化
预防新型冠状病毒, 你必须知道的事
PBL教学模式在结构生物信息学教学中的应用
“融评”:党媒评论的可视化创新
医学、生命科学类