廖玉峰 徐爱华 苏文萍 王松
摘 要:随着数据存储量的增长以及数据开放力度的加大,大数据正在影响着各个领域,并改变着各个领域。本文分析了大数据的概念和医疗大数据的特点,阐述了面向医疗大数据的云计算技术的基本框架与可行性。
关键词:大数据;医疗数据;云计算
中图分类号:TP3 文献标识码:A
Research on Cloud Computing Oriented Medical Big Data
LIAO Yufeng,XU Aihua,SU Wenping,WANG Song
(Scientific and Technical Information of Nanjing,Nanjing 210018,China)
Abstract:With the increase of the amount of data storage and data openness, various fields are influenced and changed by big data.This paper analyzes the concept of big data and the characteristics of medical big data.The basic framework and feasibility of cloud computing technology oriented medical big data are described.
Keywords:big data;medical data;cloud computing
1 引言(Introduction)
随着经济水平的快速提升与信息技术的迅猛发展,智慧医疗受到国家和企业的高度关注,统计数据表明,仅2014一年,我国互联网医疗融资就高达80亿元。智慧医疗以医院信息系统、在线医疗、移动医疗、健康社交媒体、可穿戴设备、云平台等形式被广泛地应用于日常的健康监测和管理中,并产生了海量健康数据。
智慧医疗是医疗信息化的重要研究方向,它融合了物联网、云计算与大数据处理技术。
2 大数据概念(Concept of big data)
大数据是指无法在可承受的时间范围内,用传统数据管理系统进行存储、管理和处理的数据集合。大数据通常用来形容一个领域内的大量数据,包括非结构化数据和半结构化数据。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要使用分布式运算平台来向大量的电脑分配运算任务。因此,大数据的鉴别不仅依据数据规模,还要依据数据搜索与数据分析的复杂度。
在IT和商业领域,“大数据”仍然是一个新概念。大数据首先被定义为可视化的、数量庞大的科学数据[1],在存储、管理和处理方面超出现有技术的能力。大数据现在公认具有四个维度特点:Volume、Variety、Velocity和Value,该4V维度被广泛应用于后续学者的讨论中[2]。
(1)Volume指数据量的大小决定数据的价值的和潜在的信息。获得时间序列数据需要相当大努力和投资,不过这些如移动医疗产生的数据却可以很好的检验与预测用户行为。
(2)Variety指从传感器、智能手机或社交网络获得的数据的类型的多样性。这些数据类型包括视频、图像、文本、音频、数据日志,它们以结构化或非结构化的形式存在着。通常产生于移动设备的数据都是非结构化的形式。互联网产生了及其多样化的结构化和非结构化的数据。
(3)Velocity指数据产生的速度。数据的内容不断改变,不断有不同来源的数据补充进来。
(4)Value是大数据最为重要的一个特点,指从不同类型和快速产生的大数据集中发现潜藏的巨大的价值。
伴随着大数据时代的到来,数据存储、数据管理、处理数据等技术业面临着技术革新,同时也带来了数据挖掘中诞生的新的价值和机遇。越来越多的行业已经开始利用大数据技术进行改善,例如企业商业智能、公共服务和市场营销。
3 医疗信息特点(Characteristics of medical
information)
健康信息具有多源相关性、异构有偏性、海量高速性的特点,同时,其关乎生命、涉及隐私、高度个性化、高度专业化等特点。
医疗行业早就遇到了海量数据和非结构化数据的挑战,包括急剧升高的医疗支出、人口老龄化带来的慢性疾病问题、医疗人员短缺等。据国家卫生计生委公布,2014年全国医疗卫生支出突破一万亿,中央财政医疗卫生支出突破三千亿,增长15.1%。另外,2014年中央投资230亿元支持4.8万个卫生计生机构基础设施建设。由此可见,医疗支出已经占据了国家财政支出很大的比例。然而,受非必要服务、行政措施、医疗欺诈等因素影响,治疗卫生支出的相当一部分存在浪费现象。如果针对相关医疗信息进行数据管理和数据分析,可以协助医疗机构提高诊断和治疗效率,不仅为医院节约经费开支,而且也可以在提高医疗水平的同时减少医患纠纷,减轻医务人员的工作中的精神压力并提升劳动效率,使得医疗机构的运营管理进入一个良性循环。
4 医疗大数据特点(Characteristics of medical big data)
医疗大数据除了包含Volume、Variety、Velocity和Value这四个大数据的普遍特点之外,还有多态性、时效性、不完整性、冗余性、隐私性等特点[3]。
多态性指医生对病人的描述难以用标准化进行衡量;时效性指数据仅在一段时间内有用;不完整性指医疗分析对病人的状态描述有偏差和缺失;冗余性指医疗数据存在大量重复或无关的信息;隐私性指用户的医疗健康数据具有高度的隐私性,泄漏信息会造成严重后果。
5 向医疗大数据的云计算技术(The cloud computing
医疗信息数据规模大,数据结构复杂,对医疗数据的管理和处理是面向医疗大数据的云计算的核心。云计算数据管理平台以分布式运算为核心技术,具有成本相对低廉、数据整合性强等特点,正是医疗领域大数据应用的首选。
6 结论(Conclusion)
我们认为,云端存储将成为未来数据存储的趋势,因此后续的数据管理、数据挖掘和数据分析等也将以云计算的方式直接在云端进行。面向医疗大数据的云计算也需要在云端部署相应的数据管理平台和数据处理平台,在精准收集数据的同时,对数据进行实时的处理和分析。我们认为云技术(如亚马逊、微软Azure等),连同高速通讯网络、数据密集型编程范式(MapReduce、分布式存储系统等)、语义网和机器学习算法将构成医疗领域创新大数据分析设计和发展的基础。我们需要开发相应的软件工具和技术,用以快速查询处理和分析大数据网络提供的事实数据。
参考文献(References)
[1] Cox M,Ellsworth D.Managing big data for scientificvisualization[J].ACM Siggraph,1997:21.
[2] Gantz J,Reinsel D.Extracting Value from Chaos[J/OL].IDCiview,2011(12)[2013-03-25].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
[3] 董诚,等.医疗健康大数据:应用实例与系统分析[J].大数据,2015(2):78-89.