大数据及其在医疗领域的应用

2015-01-31 06:28张昌明
中国医学教育技术 2015年3期
关键词:医疗

张昌明,朱 红

徐州医学院医学信息学院, 江苏 徐州 221004

大数据及其在医疗领域的应用

张昌明,朱 红

徐州医学院医学信息学院, 江苏 徐州 221004

随着云计算、物联网、移动互联网等技术的快速发展,数据的种类和规模以前所未有的速度增长,如何管理和利用大数据成为当前研究的热点。该文介绍了大数据的起源、定义以及大数据的特征。在此基础上,论述了大数据的研究意义以及大数据在医疗领域的应用。同时,分析了大数据在我国医疗机构的应用滞后原因,并对大数据在医疗领域的应用前景进行了展望。

大数据;数据挖掘;医疗大数据

1 大数据概述

随着云计算、物联网、移动互联网等IT技术的快速发展,数据正以前所未有的速度爆炸性的增长。来自著名咨询公司国际数据公司(IDC)的研究报告称未来十年全球数据量将增加50倍。大数据时代已经来临,大数据(big data)一词也已经成为当前IT业界最热门的词汇之一。大数据的出现不仅改变了人们的工作和生活方式以及企业的运作模式,甚至还引起科学研究模式的根本性改变[1]。大数据技术已经开始应用于商业、医疗等领域,正以难以想象的发展速度带来新一轮的信息化革命。如何更好地利用大数据来产生良好的社会与经济效益日益成为人们关注的问题。

1.1 大数据的定义

大数据概念的提出可以追溯到很多年以前,只是近几年才成为学术研究的热点。1997年,美国NASA阿姆斯研究中心的Cox M和Ellsworth D发表了一篇论述虚拟化的论文,探讨了计算资源无法即时处理数据量过大的挑战,并首次提出了大数据这一名词。2008年9月4日,《Nature》出版了名为“Big Data”的专刊,从互联网技术、超级计算、环境科学和生物医学等多个方面介绍了海量数据带来的挑战[2]。2011年2月11日,《Science》推出了名为“Dealing with Data”的专辑[3],指出了大数据对科学研究和社会发展的巨大推动作用。

什么是大数据?这一问题到目前为止还没有普遍认可的定义。被誉为“大数据时代预言家”的著名数据科学家维克托主要从“价值大”的角度给出了大数据的含义:大数据是当今社会所独有的一种新型的能力,它以一种前所未有的方式,通过对海量数据进行分析,可获得有巨大价值的产品和服务[4]。一般认为大数据指的是所涉及的数据量规模大到超出传统数据管理工具的处理能力,无法在合理时间内进行撷取、管理、分析的复杂、大规模数据集合[5]。

1.2 大数据的特征

大数据不仅是数据规模庞大,仅仅数据量的庞大显然无法看出大数据与海量数据、超大规模数据等概念之间的区别。大数据一般具有以下几个特征:Vo- lume、Velocity、Variety[6],IBM还认为大数据应该具有Veracity特征[7],即人们常说的4V特征。

1.2.1 Volume是指数据规模庞大 随着移动互联网、物联网、云计算等技术的快速发展,数据信息可以随时随地产生,数据产生的速度和规模远远超过以前任何时期,而且呈加速发展的趋势。数据管理的难度越来越大,数据的规模已经从GB、TB级进入到PB级。到底多大的数据才能称为大数据呢?国际数据公司(IDC)2012年发表第一份全球大数据技术和服务市场报告时把大数据的规模阈值设在100TB。随着数据挖掘技术的发展,大数据的规模阈值也在提高,目前一般认为PB级以上数据才称为大数据。

1.2.2 Velocity表示处理速度快 大数据具有很强的时效性,通常是动态、快速的产生。必须对大数据快速地创建并进行挖掘分析,使其产生有价值的信息数据快速传给用户,这样用户才能充分利用这些数据进行决策。

1.2.3 Variety表示数据类型和来源多样化 数据类型不仅有结构化的数据,还有越来越多的半结构化和非结构化的数据,而且非结构化的数据所占的份额越来越大,占有比例达到总数据量的80%以上。大数据的来源不仅有科研实验数据,而且还包含大量来自网络的日志、网页、图片、视频数据以及来自传感器的监测数据、地理位置信息,等,这对数据的处理能力提出了更高的要求。

1.2.4 Veracity表示数据的真实性 只有真实而准确的数据才能挖掘出真正有意义的知识,并将其用于经济、政治、社会生活的方方面面,对整个社会的发展与进步产生重要的影响,才能创造出最大的价值。

综上所述,大数据不只是数据规模庞大,只有满足上述4V特征的数据才能属于大数据的范畴。

2 研究大数据的意义

大数据的出现必将颠覆传统的数据管理模式,将给人们带来科学研究方法、商业模式和管理模式的变革,提高企业和公共部门的生产率和竞争力,并创造巨大的经济与社会价值。这也是为什么包括我国政府在内的各国政府高度重视大数据研究的原因所在。大数据研究的意义主要体现在以下几个方面:

2.1 大数据改变了传统的科学研究方法

在大数据时代,面对大数据,直接从全部数据中分析、挖掘所需要的信息,而不是对少量的随机样本进行分析。挖掘分析的数据是混杂的,有不同的来源与数据结构,不像传统的研究方法那样,它对样本的精确性有较高的要求。只注重研究数据的相关关系,不管数据之间的因果关系。也就是说只要知道“是什么”,不需要知道“为什么”。

2.2 大数据可以创造巨大的经济与社会价值

大数据就是新的财富,它已经成为新发明和新服务的源泉。采用大数据技术从海量数据中排除无关数据,对有意义的数据进行专业化挖掘,从纷繁复杂的源数据中提取有价值的信息,再提炼出有规律的知识,并将这些知识用于经济、政治及其他领域,对整个社会的发展与进步产生重要影响。在商业领域,分析人员可以针对顾客的购买习惯和不同顾客群体的消费水平等数据进行分析,采取针对性的营销策略,发掘用户新的需求,进行产品和服务的创新,这样可以提高企业的经营效率,降低成本。2013年11月11日,淘宝网站的销售总额达到350亿元,创历史新高。淘宝网站之所以能应对如此巨大的交易量,得益于对顾客往年消费习惯等数据进行了综合的挖掘分析,并采取相应的应对措施,取得了巨大的经济效益。目前,包括谷歌、IBM、微软以及我国的腾讯、百度等众多IT巨头,都十分重视大数据技术的研究,已经为大数据时代的竞争做好了准备。

2.3 大数据对维护社会的稳定,保护国家的安全有着独特的作用

大数据的研究已经超越了科学研究和商业应用领域,通过社会网络和社会分析对政府把握民意、了解社会热点问题、改善管理、及时化解社会矛盾也具有重要意义[8]。大数据也是继边防、海防、空防之后的第四个大国博弈的空间。在大数据领域落后,意味着失守产业战略制高点,国家的网络安全出现漏洞。许多国家已经将大数据的研究上升为国家战略层面。

2012年3月,美国政府正式启动“大数据发展计划”,将“大数据战略”上升为国家战略,发布了“大数据研究和发展倡议”(big data research and develop- ment initiative)[9],宣布每年投资2亿美元拉动大数据相关产业发展。该计划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引发教育和学习的变革。大数据发展计划被视为美国政府继信息高速公路(information highway)计划之后在信息科学领域的又一重大举措。我国政府也十分重视大数据的研究,科技部发布的“十二五国家科技计划信息技术领域备选项目征集指南”把大数据研究列在首位。

3 大数据在医疗领域的应用

大数据已经在科学研究、商业等领域开始应用,而在我国医疗领域的应用则相对滞后,应用需求的驱动力不足。随着区域医疗信息化的发展及医疗物联网的应用,每天都产生大量的数据信息,如检验结果、费用数据、影像数据、感应数据、基因数据,等,还包括大量在线或实时数据分析处理的需求,这些数据满足大数据的4V特征,属于大数据的范畴。如何管理和利用这些海量医疗数据并创造经济和社会价值,是医疗行业面临的挑战。

大数据技术应用在医疗领域大有可为。有资料显示,医疗大数据的分析会为美国产生3 000亿美元的价值,减少8%的美国国家的医疗保健支出[10]。目前,大数据在医疗领域的应用主要包含这样几个方向:药品的研发、个性化医疗、临床抉择支持、流行病预报与监测、远程患者的数据分析及人口统计学分析等方面。下面简要介绍大数据在医疗领域的几项典型应用。

3.1 临床决策支持

临床决策支持系统可以降低医疗费用,保证诊疗工作的准确高效。将大数据分析技术用于临床决策支持系统可以使该系统更加智能化。比如:数据挖掘医疗文献数据库可以给医师提出更合理的诊疗建议,提醒医师防止药物不良反应等潜在的错误,也可以使用图像分析和识别技术,识别医疗影像数据,提高诊疗的质量,这主要得益于大数据分析技术对非结构化数据的强大分析能力。中国临床决策支持系统起步较晚,与国外相比有较大差距,且大多停留在理论研究和实验室研究阶段。如上海大学的产科决策支持系统、第四军医大学的骨肿瘤辅助诊断系统、重庆大学的泌尿外科临床决策支持系统、哈尔滨工业大学的急性心肌梗死诊断的智能决策支持系统和复旦大学的神经外科临床决策支持系统,等[11]。

3.2 个性化医疗

通过对患者生理大型数据集(如基因组数据)的分析进行个性化医疗。全面分析患者特征数据和疗效数据,包括考察患者基因排序,对特定疾病的易感性和对药物的特殊反应关系,在治疗过程中针对患者的特殊性进行针对性的治疗。苹果公司前总裁乔布斯对抗癌症所采用的基因测序治疗是大数据技术在个性化医疗中的典型应用。乔布斯在发现患癌症后花费巨资对自身所有DNA和肿瘤DNA进行排序,得到了包括整个基因密码的数据文档,医师针对他的特定基因组成按需用药,并通过大数据技术开发个性化药物,使得乔布斯的生命又延续了8年的时间[5]。

3.3 流行病的监测与预报

大数据技术也可以用于流行病的监测与预报。中国疾病预防控制中心建设的国家传染病与突发公共卫生事件网络直报系统已经投入运行,每年有600多万的个案信息由全国各地上报并存储,现在网络直报系统覆盖了全国所有县级以上疾控机构。上报的海量数据通过大数据技术能够进行全面的疫情监测和分析,并通过集成疾病监测和响应程序,预测传播途径和时间,以便采取有力的措施降低流行病的感染率。

谷歌公司对流感的准确预测就是运用大数据技术的成功案例。谷歌公司把美国人最频繁使用的检索词条,与美国疾控中心的流感传播时期的数据进行比较,以此可以辨别出人们是否感染了流感。人们使用特定的检索词条,如“治疗咳嗽和发热的药物”是为了在网络上得到关于治疗流感的信息[12],这样通过特定检索词条的使用频率与流感在传播的时间和空间上建立联系,能够监测流感传播的路径,而且他们的判断非常及时,比美国疾控中心的数据早一周以上的时间。

随着云计算、移动互联网和物联网等技术的快速发展,全球数据增长速度越来越快,数据的规模越来越大,大数据挖掘必将带来极大的经济与社会价值。大数据时代的来临改变了传统的数据管理模式,带来新的思维变革、商业变革和管理变革,同时我们也应该看到大数据的研究现在还处于初级阶段,还有一些基础性的问题亟待解决[13],面临的问题还有很多。目前,大数据在我国医疗机构的应用则相对滞后,一个原因是医院的数据来源还不够特别复杂,大数据的异构数据处理能力优势无法充分体现。另一个原因是单个医院所产生的数据量还没有达到大数据入门量级,即PB级别。近年来,我国大部分三甲医院和二级医院都建设了医院信息系统和电子档案系统,但大部分系统的数据只限于内部使用,没有互联互通,

但是随着社会的发展和信息技术的进步,大规模区域医疗信息系统和大型数据中心将逐步建立,存储的数据量将极速增长,大数据技术必将在我国医疗领域得到广泛的应用,并产生巨大的经济与社会效益。

[1]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138

[2]Nature.Big Data[EB/OL].http://www.nature.com/news/spe- cials/bigdata/index.html,2014-08-22

[3]Science.Special onlion collection:Dealing with data[EB/OL].http://www.sciencemag.org/site/special/data/,2014-08-22

[4]维克托·迈尔一舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:17

[5]抚苏.众望所归,大数据时代来临[N].电脑报,2013-06-249(14)

[6]Marko Grobelnik.Big data Tutorial[EB/OL].http://videoe- ctures.net/eswc2012_grobelnik_big_data/,2014-01-10

[7]IBM.The FOUR V's of Big Data[EB/OL].http://www.ibm- bigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg,2014-01-10

[8]李战怀,王国仁,周傲英.从数据库视角解读大数据的研究进展与趋势[J].计算机工程与科学,2013,35(10):1-10

[9]American govermment.Big Data Across the Federal Govern- ment[EB/OL].http://www.whithous.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf,2014-08-22

[10]高汉松,肖凌,徐德玮.基于云计算的医疗大数据挖掘平台[J].医学信息学,2013,34(5):7-12

[11]张秀梅,徐建武,程煜华,等.基于知识库的临床决策支持系统构建[J].中华医院管理杂志,2014,30(6):472-473

[12]相海泉.迎接大数据时代[J].中国信息界:e医疗,2013,(5):38-39

[13]孟小峰,慈祥.大数据管理:概念、技术和挑战[J].计算机研究与发展,2013,50(1):146-169

Big data and its application in medical field

ZhangChangming,ZhuHong

SchoolofMedicalInformation,XuzhouMedicalCollege,Xuzhou221004,China

The type and amount of data is growing at an unprecedented rate, which is caused by the rapid development of cloud computing, Internet of things and mobile Internet technology. How to manage and take advantage of big data becomes a hot research topic. This paper introduces the origin, definition and characteristics of big data. On this basis, it discusses the research significance of big data and its application in the medical field. It also looks ahead to the development trends of big data in the medical field.

big data; data mining; medical big data

2015-01-09

张昌明(1968-),男,江苏徐州人,硕士,讲师,主要研究方向:虚拟现实,数据库技术。

G434

A

1004-5287(2015)03-0294-04

:10.13566/j.cnki.cmet.cn61-1317/g4.201503016

猜你喜欢
医疗
《现代仪器与医疗》2022年征订回执
《现代仪器与医疗》2022年征订回执
京张医疗联合的成功之路
我们怎样理解医疗创新
遇到疾病,如何医疗
医疗扶贫至关重要
精准医疗蓄势待发
医疗费用 一匹脱缰的马
推进医疗责任保险当立法
让法治拥抱医疗