,
互联网、物联网、移动互联网等相关技术的发展与应用,使全球范围内的数据容量正以前所未有的速度增长。2011年5月,EMC公司在美国拉斯维加斯举办以“云计算相遇大数据”为主题的第11届EMC世界年度大会,大会正式提出了“大数据”(Big Data)的概念[1]。
大数据科学作为“第四范式”开始出现,将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律[2]。在医学领域,随着现代检测、存储技术、传感技术、医院信息系统和电子病历的发展,采集到的数据的复杂度和数据容量都在不断增大[3-4]。
医学大数据具备了典型5V特点,即数据量大(Volume)、数据种类多(Variety)、产生快、处理快(Velocity)、真实性 (Veracity) 和密度低(Value)。对这些数据进行挖掘分析可以提升医院和健康服务机构的诊疗和服务水平,促进健康产业发展。
医学大数据现有研究集中在工程应用部分,体现在数据采集、存储和医患互动方面。在理论研究方面,大多数工作现仅停留在评述医学大数据如何大或是如何有用,从计量学角度并结合CiteSpace软件对当前医学大数据领域进行分析的文章较少。本文通过对医学大数据领域相关文献进行可视化展示,分析医学大数据的研究热点、前沿、关键文献等,梳理其演化路径,可以预测该领域的研究趋势,给该领域的研究者一个全面、直观的参考。
数据取自Web of Science(WOS)。检索式为:主题:("medicine& big data") OR主题:("medical & big data"),数据库选择SCI-EXPANDED,文献类型不限定,共检索到1 570篇相关文献,去重后得到1 520篇文献。为了解近10年医学大数据的研究热点、前沿,本文限定文献年限为2008-2017年,检索时间为2017年4月30日,虽然2017年的数据并不完整,但已有的部分文献对于最新研究主题的获取具有重要作用。各种类型的文献对本文研究国际医学大数据现状具有重要作用,故本文对文献类型不作限定。
CiteSpace软件是一款用于计量和分析科学文献数据的信息可视化软件,具有多元、分时、动态的特点,它利用分时动态的可视化图谱展示科学知识的宏观结构以及发展脉络,直观地展示某一领域的信息全部内容,识别并显示某一领域科学发展的新趋势和新动态,展现研究热点及前沿方向[5]。CiteSpace根据“年轮”大小和颜色的区别展示分析内容,一个“年轮”代表一个节点。“年轮”环内的颜色代表关键词的出现时间;年轮的厚度与关键词出现的频次成正比;节点间的连线代表节点与节点间的共现关系;连线越粗,则表明节点间关系越紧密[6]。
将1 520篇文献导入CiteSpace,绘制所需的可视化图。参数设置如下:时区选择为 2007-2017年,时间跨度选择 1年,阈值选择为g-index,节点类型选择“关键词(Keyword)”“文献共引(Cited Reference)”。
共词分析是计量学中常用的内容分析方法之一,基于两个(多个)关键词同时出现这一原理。共词分析法能将研究主题内容相近的资源聚合到一起,因此,通过对关键词共现强弱的考察,可以有效揭示它们所代表主题内容在学科研究中热度的高低。关键词共现分析法是对当前发表文献的直接统计,所寻找的是当前论文所集中关注的主题,反映的是在趋势形成之后的焦点、热点[7]。
对1 520篇检索结果进行统计分析,结果显示,2012年伊始,国际医学大数据的研究成果数量迅速攀升,2016年发文更是2012年的6.42倍。2012年联合国发布《大数据促进发展:挑战与机遇》白皮书,此后,美、英、加、澳、日、韩、中等众多国家相继发布一系列大数据技术研究和发展计划,大力推进大数据研究和应用,这可能是造成2012年以后相关研究成果攀升的重要原因。
1 520篇文献共来自91个国家1 835个机构的5 901位作者,这些文献分布于以计算机学科为主的107个学科当中,发表于679种期刊或会议论文集中。美国排在首位,发文量为522篇(占总发文量的34.34%);中国(占14.8%)、德国(7.89%)和英国(7.76%)依次紧随其后。
经统计分析发现,发文量前10的机构美国占了9所,这9所机构中,排在前4位的依次分别是哈佛大学、斯坦福大学、华盛顿大学、加州大学,各机构发文量均超过18篇,这4所大学成为美国医学大数据研究的主力机构。中国科学院以17篇的发文量位列第五,是中国医学大数据研究的主力机构之一。
应用CiteSpace进行可视化研究,其中节点146个,连线1 406条,得到国际医学大数据领域关键词共现图(图1)。结合图1对出现频次在20次以上的关键词进行分析,可以得出医学大数据领域主要的5个研究热点。
图1 国际医学大数据领域的共现关键词
2.2.1 医学大数据技术研究
医学大数据的发展离不开大数据技术的支持,大量结构化和非结构化的医学大数据需要相关大数据技术来处理分析,当前医学大数据领域在探讨医学大数据系统、大数据挖掘、模型、云计算、机器学习、算法与框架等大数据技术上较多,如图2所示的重要共现关系包括big data-system、big data-data mining、big data-model、big data-cloud computing、big data-network、big data-classification、big data-machine learning、big data-algorithm、big data-framework、big data-prediction、big data-analytics。在此方向,O'Driscoll等概述了云计算和大数据技术,并探讨如何使用这些专业知识来处理生物学的大数据集,以Apache Hadoop为例讨论分布式和并行化的大数据技术处理和分析PB级数据集,以及Hadoop在生物信息学当前使用的概述[8],具有60次的高被引频次。
2.2.2 精准医疗
个体化医疗的说法由来已久,自2015年奥巴马提出“精准医学”计划[9],更是把个体化医疗推向一个世界关注的地位。自从在本世纪之交人类基因组计划完成以来,基因组序列数据出现前所未有的扩大,为精准医疗的实现奠定了基础。此外,基础研究的进步包括分子生物学、基因组学和生物信息学的进步,以及社交媒体和移动设备的应用均推动着精准治疗的发展。对疾病的研究中,肿瘤精准治疗最为突出,其中又以乳腺癌的研究最多。如图1所示的重要共现关系包括big data-personalized medicine、big data-precision medicine、big data-disease、big data-cancer、big data-breast cancer、big data-genomics、big data-bioinformatics、big data-analytics。
2.2.3 医学健康大数据管理
电子健康记录的普及,存储了大量病历、诊断、筛查、检测等临床数据,为医学健康大数据管理奠定了基础,对其整合再利用对于身体状况监测,疾病预防和健康趋势分析都具有积极的意义。如图2所示的重要共现关系包括big data-care、big data-health care、big data-health、big data-management、big data-electronic health record、big data-healthcare、big data-electronic medical record。对于electronic health record、electronic medical record的探讨,Bates[10]等探讨《卫生保健中使用大数据分析技术识别和管理高风险和高成本的患者以降低美国保健成本》一文,具有74次的高被引频次。此外,Skripcak[11]等重点讨论了放疗和肿瘤学领域国际研究数据交换战略发展的一个思想概念框架。
2.2.4 医学大数据的隐私问题
医学大数据与其他行业大数据的区别之一是医学大数据的隐私性:在对医疗数据的数据挖掘中,不可避免地会涉及到患者的隐私信息,这些隐私信息的泄露会对患者的生活造成不良的影响。此外,HIPAA(健康保险携带和责任法案)未涵盖的大量医学数据由患者自己产生,包括信用卡数据、互联网检索数据、电子邮件数据、社交媒体数据和移动健康等数据,这些数据由第三方数据经纪人和互联网公司控制,公司将这些数据与消费者的日常活动、交易、运动和人口结构等个人信息相结合,再将结合的数据用于个人健康状况的预测分析,但同时也会出售给广告商等[12],造成了隐私安全隐患。因此,对医学大数据隐私的探讨也成为医学大数据领域研究的热点之一,如图2所示的重要共现关系包括big data-privacy、big data-riskfactor。
2.2.5 医学大数据发展的挑战
医学大数据处于初级阶段,在发展过程中还面临着不同程度的挑战,如数据的异质性、不同格式类型和不完备的EHR和基因组数据库、如何生成具有成本效益的高通量数据、数据存储和处理、数据整合与解读、隐私、基础设施、监管环境、混合教育和多学科团队、个人和全球经济的关系等[13-15]。如图1所示的重要共现关系包括big data-challenge、big data-risk。此方向上,Costa Fabricio[16]的“Big data in biomedicine”一文被引次数最高(为753次),探讨了在转化医学、生物医学领域应用大数据面临的挑战,以及个性化医疗将组学和临床健康数据相结合的重大突破。
利用CiteSpace提供的词频探测技术在关键词共现网络知识图谱的基础上进行突现值(Burst term)分析,通过考察词频的时间分布,将其中频次变化率高的词(Burst term)从大量的主题词中探测出来,依靠词频的变动趋势反映领域前沿和发展趋势。本文共探测得出24个高Burst值(表1)。
表1 高频Burst关键词
由表1可知,2008-2012年间,国际上对quality、children探讨突增,Burst值较高,均在5以上。medical education、telemedicine、education、health、image等词在2009-2014年间探讨较多。
近两年间,对mapreduce、ontology、hadoop等讨论突增,mapreduce更是具有高达5.5的Burst值,说明对医学大数据处理技术及本体的研究是当前医学大数据领域的研究前沿与趋势。其中,Hadoop是一个平台,MapReduce是一个并行处理框架,基于其的大数据处理方法是目前医学大数据的主流。对mapreduce、hadoop的探讨中,Schatz[17]介绍《基于MapReduce的CloudBurst并行算法用于分析人体基因组数据的良好性能》一文,被引次数最高(为60次)。对 ontology的研究中,Gai[18]提出在大数据中使用本体的模式来生成警报机制以帮助医生进行医学诊断一文,被引次数最高,为16次。
节点类型选择Cited Reference,运行软件后共得到节点141个,连线651条,进行调整后得到文献共被引时区知识图谱(图2),该图谱侧重于从时间维度上表示知识演进,可以清晰地展示出文献的更新和互相影响情况,它将结点定位在一个二维坐标系中,根据结点首次被引用的时间,结点被放在不同的时区中。对知识演进进行直观展示[7]。
图2 文献共被引时区知识图谱
一篇文献如果记录了所在研究领域某个重要的、基础的研究成果,对后续研究起到非常重要的奠基作用,该领域其他研究学者对该文献的认可程度高,那么被引用频次就高,可被认为是该领域的奠基性文献[19]。根据CiteSpace的被引网络图,可以得出被引最高的9篇文献,视为医学大数据领域的奠基文献。从图3可以看出,这些奠基性文献依然影响着当今医学大数据的研究。具体内容如下。
2001年Surhone等[20]等探讨了Random forests(随机森林树)预测模型。2008年1月,Google 公司Dean等[21]以谷歌大数据处理为例介绍了MapReduce编程模型在处理各种大数据任务的可用性及数据处理模式,即程序员通过指定 Map 函数和Reduce 函数,底层系统会自动实现大规模集群的并行计算,并自动处理机器故障和调度机间的通信,有效地利用网络和磁盘资源。
2013年,Murdoch等[22]利用经济框架来强调大数据提供的机会和实施过程中的障碍,探讨了医学领域应用大数据的必然性,对收集到的医患数据进行分析可以提高医疗保健服务的质量和效率。
对电子病历(EHRs)的挖掘有可能建立新的患者分层原则和揭示未知疾病的相关性,将EHR数据与遗传数据整合也将更好地了解基因型-表型关系。2012年,Jensen等[23]探讨使用EHRs数据推动医学研究和临床治疗的潜力,以及在此之前必须克服的挑战。
2011年,Hood等[24]表明分析医学将从传统的反应性医学向主动性医学迈进,即走向集预测性、个性化、预防性和参与性于一体的P4医学。Collins(2015)等[9]指出奥巴马宣布的“精准医学计划”短期目标是为癌症找到更多更好的治疗手段,长期目标则是为实现多种疾病的个性化治疗提供有价值的信息。精准医学并不是一个新的概念,它是在个体化医疗的基础上,伴随大量生物数据库(例如人类基因组序列)、特征化患者的方法(如蛋白质组学、代谢组学、基因组学、多种检测技术甚至移动健康技术)以及大数据分析工具的涌现而发展起来的。
2009年,Google谷歌流感趋势(GFT)对用户搜索数据进行挖掘,比美国疾病控制与预防中心(CDC)提前1-2周预测到了甲型H1N1流感爆发。此事件震惊了医学界和计算机领域的科学家,Google的研究报告发表在Nature杂志上。2013年1月,美国流感发生率达到峰值,而GFT的估计值比实际数据高两倍,再次引起了媒体的关注。2014年,Lazer[25]等就这一事件进行了分析,探讨了导致GFT失误的两个因素:大数据的浮夸和算法演化,提供了大数据发展路上的经验和教训。GFT作为医学大数据的重要实例之一,表明医学大数据正处在初级阶段,现阶段困难与挑战并存,而未来的潜力无比巨大。
本文对WoS数据进行医学大数据研究领域的可视化分析结果表明,医学大数据仍属于初级阶段,相关文献较少,但并不是纯概念性的理论研究,而是和医疗卫生服务紧密结合进行的实践探索。
医学大数据研究从2012年开始迅速攀升,到目前已引起越来越多的学者的关注,90余个国家的1 800多个机构的近6 000位作者从事相关领域研究。从发表论文数量和被引频次来看,美国在医学大数据研究上占领先地位,其相关机构较多,中国发文量排名第二,但在发文数量上离美国还有较大差距,中国科学院是我国医学大数据研究主力机构。
医学大数据技术、精准医疗、医学健康大数据管理、医学大数据的隐私及挑战是当前的研究热点。医学本体、mapreduce、hadoop等是当前医学大数据领域研究前沿与发展趋势。