冯 麟 雷 罗 罗爱静
(中南大学信息安全与大数据研究院医药信息系 长沙 410000) (中南大学湘雅三医院 长沙 410000)
基于文献的国内外医学大数据研究*
冯 麟 雷 罗 罗爱静
(中南大学信息安全与大数据研究院医药信息系 长沙 410000) (中南大学湘雅三医院 长沙 410000)
以CNKI和Web of Science索引库SCI/SSCI为数据源,从社会网络视角对国内外医学大数据文献从年度分布、期刊分布、研究方向等方面进行分析,绘制高频关键词、高产作者、高产机构共现网络图谱。结果表明国内外医学大数据研究有多学科协同发展趋势,但研究内容未形成要点,作者群体、机构群体还未产生密切的合作与联系。
医学大数据; 计量分析; 社会网络分析
大数据正在深刻影响社会方方面面,包括农业领域、金融领域、娱乐领域以及医疗领域[1]。据麦肯锡公司2012年的报告数据,美国医疗系统有3 000亿的收益来自于医学大数据分析[2]。 “我国目前每年医疗费用总额超过2.4万亿元,如果按照麦肯锡报告的预测,我国医疗领域利用大数据每年将节省医疗费用近2 000亿元”。中国军事医学科学院研究员朱云平在2014年11月29日召开的“第五届重大疾病防治科技创新高峰论坛”发言[3]。国际学术界和国内学术界对医学大数据的关注和参与度都越来越高[4],迄今为止已有多篇论文发表在医学领域著名期刊中[5]。本文分别以国外文献和国内文献为研究对象,构建出医学大数据领域的社会网络,从社会网络的角度出发,运用文献计量学、社会网络分析方法对医学大数据领域的现状进行描述分析[6]并对该领域未来的趋势做出预测,为今后致力于该领域研究的学者或机构做出理论指导。
本文国外文献数据源选择Web of Science 中的核心数据库(SCI/SSCI)作为索引源,检索式为:主题: ("big data")+主题: ("medical" OR "medicine" OR "clinical" OR "medical science" OR "health care")+(文献类型: ("ARTICLE")+("时间跨度: 2009-2014")。国内文献数据源选择中国知网(CNKI)数据库,检索式为:主题:(“大数据”)+摘要:(“医学”或“医疗”)+(“时间跨度: 2009-2014”) 。数据检索时间节点为2015年1月30日。文献检索过程中采用直接检索、关键词检索及特定期刊检索相结合的方法,去除书评、商业评价等非正规学术论文后得到国外文献96篇,国内文献569篇。由于CNKI与Web of Science的检索功能有差别,例如CNKI对于作者的统计只针对第一作者,Web of Science 却包含所有作者信息。因此本文只研究国内外医学大数据的年度分布、期刊分布、期刊学科分布情况并做国内外对比分析。
2.1 国内外文献年度分布
利用CNKI的分组浏览和文献导出功能,Web of Science 的创建引文报告和分析检索结果功能,对论文检索结果进行分析。横向来看,国内外的研究成果总体情况一致,都是2012以前成果平平,12年以后明显变多,14年增长最大。根据研究分析,此结果和现实事件紧密关联,符合实际。2012年3月美国奥巴马政府强力推出“大数据研发计划”。同年7月日本跟进推出“新ICT研究战略计划”,重点关注大数据应用。同年5月我国国家科技部(前国家科委)发起,在科技部和中国科学院的共同支持下召开的以“大数据科学——一门新兴的交叉学科”为主题的香山科学会议[7]也预示国内大数据研究开始。至2013年大数据领域巨作BigData出版等事件均引发医学大数据研究热潮。纵向来看,虽然国内的每年发文量都比国外高,但国外都是SCI/SSCI期刊质量更高,成果影响更大,国内还是落后于国外研究的。
2.2 国内外文献期刊分布
根据CNKI的文献来源分组数据,国内医学大数据的研究分布于34种期刊,其中大学类期刊偏多。筛选出文献数量前10的期刊,数据结果显示,国内期刊对于医学大数据研究的重视还略显不足,成果不够明显,其中《医学信息学杂志》、《中国医院院长》、《吉林医学信息》处于该方向研究的前列。通过Web of Science 的期刊分类对文献进行梳理分析,数据显示,国外医学大数据的文献分布于69种期刊,前10位的期刊为《卫生事务》(HealthAffairs)、《生物信息学》(BMCBioinformatic)、《公共科学图书馆》(PlosOne)、《未来计算机系统——网络计算和电子科学国际期刊》(FutureGenerationComputerSystems-TheInternationalJournalofGridComputingandEscience)、《医学互联网研究》(JournalofMedicalInternetResearch)、《医学系统杂志》(JournalofMedicalSystems)、《综合生物学》(Omics:AJournalofIntegrativeBiology)、《个性化医学》(PersonalizedMedicine)、《卫生政策研究综述》(ReviewofPolicyResearchvalueinHealth)等,其中医学领域著名期刊《卫生事务》(HealthAffairs)明显领先。通过国内外期刊情况对比,相同性为各期刊的成果差距都不大,未出现医学大数据领域集中性强的优秀期刊,各期刊对于医学大数据领域的论文刊登尚处于起步阶段。而纵向分析发现,国内的成果低于国外。
2.3 国内外文献研究方向分布
根据CNKI期刊学科分组数据,筛选出文献数量前10的研究方向。医学大数据研究在计算机软件及计算机应用、医药卫生教育与法规、医学教育与医学边缘、信息经济与邮政经济领域成果显著,特别是计算机软件及计算机应用和医药卫生教育与法规遥遥领先于其他领域,可见国内部分学科在医学大数据的领域已经有了足够重视和初步成果,而同时前10的学科分布可见,医学大数据的覆盖学科较为广泛。通过Web of Science 的期刊学科分类,以期刊的研究方向统计,医疗科学服务、计算机科学、生物医学技术微生物学应用、医学信息学4类方向占据了样本文献的50%多,其中医疗科学服务、计算机科学两大领域成果突出。国内外学科方向对比分析,发现国外成果最多的学科方向为医学方向,而国内最多的是计算机方向,可见医学大数据的学科专指性不强;同时国外前10期刊可分为计算机、医学和信息科学方向3大范畴,而国内期刊除了计算机、医学和信息科学方向,也包含金融,教育方向。
3.1 数据处理
从中国知网和 Web of Science的原始文献数据,到中间的知识单元关系矩阵,直到最终的可视化共现网络图谱,处理流程,见图1。
图1 文献数据的社会网络分析流程
由于CNKI的文献导出数据不包含引文数据,本文采用关键词、作者和研究机构共现网络有效地展示“医学大数据”领域的研究基础,形象地表明该领域的研究重点、作者群体的合作关系和机构直接的合作关系。其中的中心性、网络密度、凝聚子群[8]是本文分析的重点。
3.2 国内外高频关键词共现网络分析
处理国内外数据样本,Bibexcel中分别统计出最高几个关键词的频次排序。国内高频次关键字有大数据、物联网、医疗健康、卫生信息化等,国外有大数据、电子病历、数据挖掘、开放数据等。国内外关键词共性为除了本领域首要关键词“大数据”外,其他关键词的频次差别并不明显。对国内数据样本,选择高于3(阈值)的478个关键词进行统计,用NetDraw绘制2009-2014年来国内医学大数据研究领域的关键词共现知识图谱,见图2。本文所有的图谱都已经进行NetDraw图形化中间中心度处理,所以图谱节点的大小代表了与其在共现网络中出现的频次呈现地位具有一致性,即节点越大,节点在网络中占有的地位越重要[9]。图谱没有很明显的大节点,显示出国内本领域研究内容还未出现极其重要的研究热点,当前医学大数据研究内容还比较分散。Ucinet处理数据得到该共现网络密度0.0249,标准差0.2153,密度水平很差,反映国内研究内容的联系不紧密,本网络的影响力极低。凝聚子群密度值0,反映国内研究内容处于随机分布状态。
对国外数据样本,选择高于2(阈值)的20个关键词进行统计,用NetDraw绘制2009-2014年来国外医学大数据研究领域的共词知识图谱,见图3。结果显示同样没有出现明显大于其他节点的关键词,也并未出现极其热门的领域。网络密度0.1765,标准差0.4518,密度水平一般,研究领域的联系不紧密,本网络的影响力低。凝聚子群密度值0.215,反映国外研究内容分布状态分散。
综合国内外高频关键词共现网络数据和图谱来看,国内外当前关于医学大数据领域的研究偏于分散,国外稍微优于国内。
图2 国内医学大数据研究关键词共现网络
图3 国外医学大数据研究关键词共现网络
3.3 国内外高产作者共现网络分析
处理国内外数据样本,Bibexcel中分别统计出最高几位作者的频次排序。国内最高频次作者有胡海泉、庞涛、邱桂苹、周栋、桑梓勤等,国外有Ioannidis JPA、Suchard MA、Mountjoy M、Simpson SE、Blair SN、Madigan D等。为确定高产作者群体的特征和趋势,Bibexcel中选择了频次高于2以上的42位作者进行统计,绘制2009-2014年来国内医学大数据研究领域的作者共现网络图谱,见图4。图谱中出现作者“邱桂苹”的较大节点,显示出国内本领域高产作者占有重要地位的仅为“邱桂苹”,其他作者在本领域影响力很小。Ucinet处理数据得到,该共现网络密度0.0238,标准差0.1525,密度水平很差,反映国内高产作者相互的联系不紧密,本网络的影响力极低。凝聚子群密度值0.003,反映国内高产作者几乎没有形成团体派系。
对于国外高产作者的研究,Bibexcel中选择了频次高于2以上的37位作者进行统计,绘制2009-2014年来国外医学大数据研究领域的作者共现网络图谱,见图5。图谱中出现3个较大节点,显示出国外本领域高产作者占有重要地位的为Suchard Ma、Simpson SE、Madigan D,且这3位作者直接有连线,表明3位作者有合作研究,其他作者在本领域影响力很小。Ucinet处理数据得到该共现网络密度0.6000,标准差0.9008,密度水平一般,反映国外高产作者相互的联系不紧密,本网络的影响力低。凝聚子群密度值0.272,反映国外高产作者形成的团体派系很微弱。
图4 国内作者共现网络
图5 国外作者共现网络
综合国内外高产作者共现网络数据和图谱来看,国内具有影响力的作者仅有1位,国外有3位,相比国内的作者群网络状况要好;国内外的作者相互之间的合著联系较少,都未有作者团体情况出现,国外稍微优于国内。国外影响力较高的的Simpson SE 2013年发表的通过优化算法,利用大规模数据库和电子病历,提高药品安全性的文章引起了药物大数据的热潮[10]。国内影响力较高的邱桂苹在2014年提出关注医学大数据的发展,努力打破医疗界信息孤岛和数据孤岛现状,促进国内卫生信息化的脚步[11]。
3.4 国内外高产机构共现网络分析
处理国内外数据样本,Bibexcel中分别统计出高产机构的频次排序。国内最高频次机构有上海理工大学、北京大学、中华医学会、国家风湿病数据中心、万达信息股份有限公司、复旦大学等,国外有加利福尼亚大学洛杉矶分校、加利福尼亚大学旧金山分校、斯坦福大学、开普敦大学、加拿大麦吉尔大学、哈佛大学、耶鲁大学等。为确定高产机构的特征和趋势,Bibexcel中选择了频次高于2的24家机构进行统计,绘制2009-2014年来国内医学大数据研究领域的机构共现网络图谱,见图6。图谱中相对较大节点为国家风湿病数据中心,显示出国内本领域其占据重要地位,所有单一机构在本领域影响力都很小。Ucinet处理数据得到该共现网络密度0.1111,标准差0.4581,密度水平一般,反映国内高产机构联系性很差,本网络的影响力极低。凝聚子群密度值0.000,反映国内高产机构没有派别形成。
对于国外的数据,Bibexcel中选择了频次高于2的71家机构进行统计,绘制2009-2014年来国外医学大数据研究领域的机构共现网络图谱,见图7。图谱中最大的节点为耶鲁大学(Yale Univ),其次两个较大节点为开普敦大学(Univ Cap Town)、加拿大麦吉尔大学(MicGill Univ),这3所世界著名大学在国外文献中占据绝对重要地位。Ucinet处理数据得到该共现网络密度0.1821,标准差0.6316,密度水平一般,反映国外高产机构联系不够紧密,本网络的影响力较低。凝聚子群密度值0.234,反映国外高产机构派别形成微弱。
图6 国内研究机构共现网络
图7 国外研究机构共现网络
根据国内外高产机构共现网络数据和图谱来看,占据国内的重要地位的机构仅为1家,相比国外有地位的3家机构数量较少,国内相关机构还需要进一步加强研究。国内外的机构之间合作关系都较为微弱,国外稍微优于国内,国内外都未出现科研机构派别林立的现象。国外最重要机构耶鲁大学被引频次最高的一篇论文引发了如何用新的思维利用好医学大数据为患者人群解决问题[12];国内重要机构国家风湿病数据中心被引最多的一篇文章则是号召结合医学大数据的时代背景,就多中心研究模式、生物样本库的规范管理[13]。
国内外医学大数据领域的研究历史还不足10年,因此并未形成丰富的科研成果,也并未出现医学大数据领域的研究要点,各个作者、机构之间也并没有密切的联系与合作,没有出现明显的作者团体和机构派别。国外医学大数据的研究早于国内,因此不管是论文的质量,还是重要作者、重要机构的形成都比国内数量要多。就研究内容来看,国内有关大数据的研究内容需要更加精细化,形成研究热点,促进医学大数据的发展;就社会关系来看,作者机构之间的合作联系需要加强。但是可喜的是医学大数据研究涉及学科种类很多,能够促进多学科协同发展。根据以上分析,本文做出以下预测:(1)多学科协同发展。根据上文数据分析,各个学科领域的交叉融合有利于医学大数据研究的开展[14]。(2)研究内容、作者群体、机构群体将趋于集中,形成要点和体系。研究领域的共性网络有利于自身的发展,提炼出医学大数据的共性研究网络是大趋势。(3)医学大数据的研究将会助力医疗商业化,医疗从业者将在商机与竞争中使用新的技术和方法来研究医学大数据[15],这是医学在当代经济社会发展的必然趋势。
1 张振. 医疗大数据及其面临的机遇与挑战[J]. 医学信息学杂志, 2014,(6): 3-4.
2 董建华. 顺势而行——美国HIT如何迎接大数据时代的来临[J]. 医学信息学杂志, 2013,(9): 2-3.
3 高汉松. 基于云计算的医疗大数据挖掘平台[J]. 医学信息学杂志, 2013,(5): 7-8.
4 北京市科学技术委员会. 第五届重大疾病防治科技创新高峰论坛在京召开[EB/OL]. [2015-01-10].http://www.bjkw.gov.cn/n8785584/n8904761/n8904885/n8918125/10141305.html.
5 刘蓉. 社会网络视角下安全领域科学合作网研究[D].西安: 西安科技大学, 2013:2-3.
6 刘远. 我国心血管疾病科研国际合作网络研究[J]. 医学信息学杂志, 2013,(9): 67-68.
7 中国科学院计算机研究所. 计算所牵头成功举办关于网络空间大数据的香山科学会议[EB/OL].[2015-01-10]. http://www.ict.ac.cn/xwzx/jssxw/201206/t20120611_3595696.html.
8 Otte E, R Rousseau. Social Network Analysis: a powerful strategy, also for the information sciences[J]. Journal of Information Science, 2002, 28(6): 441-453.
9 姜春林,陈玉光. CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究[J]. 图书馆杂志, 2010,(4): 58-63.
10 Suchard M A, et al. Massive Parallelization of Serial Inference Algorithms for a Complex Generalized Linear Model[J]. ACM Transactions on Modeling and Computer Simulation, 2013, 23(101SI):10-20.
11 邹琴,穆森,邱桂苹,等. 探究区域卫生信息化的关键技术及发展[J]. 科技资讯, 2014(6): 14-15.
12 Krumholz H M. Big Data And New Knowledge in Medicine: the thinking, training, and tools needed for a learning health system[J]. Health Affairs, 2014, 33(7): 1163-1170.
13 2014中国风湿病信息论坛暨第四届CSTAR论坛通告[J]. 风湿病与关节炎, 2014,(8): 38-39.
14 王晓东. 大数据时代医学信息管理专业人才培养[J]. 医学信息学杂志, 2014,(1): 10-11.
15 Szlezak N, et al., The Role of Big Data and Advanced Analytics in Drug Discovery[J]. Clinical Pharmacology & Therapeutics, 2014, 95(5): 492-495.
Medical Big Data Research Both in China and Abroad Based on Literatures
FENGLin,LEILuo,
DepartmentofMedicalInformatics,InformationSecurityandBigDataInstitute,CentralSouthUniversity,Changsha410000,China;LUOAi-jing,TheThirdXiangyaHospitalofCentralSouthUniversity,Changsha410000,China
Taking CNKI and SCI/SSCI from Web of Science as data sources, the paper analyzes the domestic and foreign literatures time distribution, journal distribution and research direction from the perspective of social networks, draws co-occurance network maps of high-frequency keywords, important authors and institutions. The results show that medical big data research has multidisciplinary collaborative development trend, but there are no key points, the cooperation and interaction among authors and institutions are not very well.
Medical big data;Bibliometric analysis; Social network analysis
2015-05-06
冯麟,在读硕士研究生。
湖南省科技计划国际合作重点项目(项目编号:2014WK2034) 。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.003