医疗大数据环境下的健康信息分析方法

2017-01-06 02:57:28任慧朋
中国医疗设备 2016年5期
关键词:医疗信息

任慧朋

1.解放军第98医院,浙江 湖州 313000;2.南京政治学院上海校区 军事信息管理系,上海 200433

医疗大数据环境下的健康信息分析方法

任慧朋1,2

1.解放军第98医院,浙江 湖州 313000;2.南京政治学院上海校区 军事信息管理系,上海 200433

本文主要分析了医疗大数据的特点,介绍了当前国内健康信息的需求现状,以医学检验数据(LIS)为研究实例,列举了数据加工、数据挖掘、智能分析等关键性技术,介绍了动态情报分析和病情预测报警等实现原理,展示了利用医疗大数据为患者健康提供信息服务的应用案例。

医疗大数据;健康信息;分析方法

本文获得“第七届(2015)飞利浦医疗保健临床应用与研究征文大赛”医疗设备技术保障类一等奖

随着医疗机构信息化水平的不断提高,医疗信息的数据量也迅猛增长。在这些海量数据中有很多有价值的患者信息,采集分散的医疗信息并进行加工,再通过数据挖掘等技术进行分析处理,形成的结果将有助于提升患者的健康素养和整体的医疗服务水平[1]。

目前,国内医疗卫生机构的体制比较复杂,医疗信息化的发展极不均衡,“信息孤岛”的现象非常严重。同时,国内民众的健康素养仍处于较低水平,面对专业性较强的医疗数据,患者普遍缺乏分析判断能力,医院与患者之间也缺少有效的信息交互渠道。因此,在医疗大数据环境下,如何收集、梳理、利用好繁杂的医疗数据,更好地为患者服务,增强医患间的信息联络,将是医学信息学未来研究的一个重要课题[2]。

1 医疗大数据的特点

20世纪90年代初,随着计算机的普及应用,为满足医疗业务的需求,国内开始了医院信息管理系统(Hospital Information System,HIS)的研究。HIS发展至今,从最初简易的收费系统,到形成了集综合管理、医疗业务、统计分析3大类数百个功能模块的庞大的信息管理体系。随着HIS功能的不断增加,领域的不断扩张,数据量呈逐年暴增的趋势,形成了一个冗杂的数据仓库(图1)[3]。由于HIS发展的历史原因,医疗数据的存储和分类非常杂乱,各数据库之间的关系越来越复杂,在这些海量数据群中有用和无用信息掺杂在一起难以甄别,紧密联系的数据之间形成了盘根错节的关系网络,这也是医疗大数据的主要特点[4]。

图1 医疗信息数据仓库的示意图

1.1 数据来源广

医疗数据的来源很广,主要包括医疗业务流程数据、医疗综合管理数据、综合数据统计分析三类,其中核心是医疗业务数据,数据的产生和变化都是对病人状态的描述[5]。对于医院方面,当病人入院时产生原始信息(病人基本信息表),随着医疗流程的运转产生其它医疗信息,包括病人的活动情况(门诊、体检、住院、收费等),和财务、药品物资管理等[6]。对于医疗保险方面,国内的医疗保险种类较多,各级医保中心都存储着大量的账户信息[7],同时连接上级管理部门和各联网医院、诊所等,病人在诊疗过程中每触发一次医疗业务,相关部门的数据都将随之变化,形成以“病人的状态数据”为信号的关联数据群[8]。

1.2 数据更新快

病人的状态一旦发生变化,所有的数据都会随之改变。从来院挂号到登记化验,再到确诊和开药取药,整个流程中所有的数据都需要按步骤及时更新[4],否则将会出现业务中断的情况,甚至会导致医疗事故。例如患者在进行某项检查时,检验结果显示已经超过人体危急值,如果消息传递不及时,患者的生命就会受到严重威胁。患者在完成全部就诊流程后,要与医保中心进行账务结算;患者的健康信息还要定期进行上传;医保中心与医院要不定期进行药品价格和报销比例等调整。这些数据的变化都需要严格保持同步,否则可能导致严重不良后果,甚至可能导致医疗纠纷的产生[8]。

1.3 数据标准乱

医疗数据的标准主要是指各业务部门统一采用的数据交换和存储的方式。由于技术发展历史和医院编制体制等客观原因,国内始终没有医疗数据的统一标准,每个体系自主选择适于其业务流程的数据格式,这为医疗信息化创造了的自由发展的空间。但从长远角度来看,也成为了实现医疗数据的集中共享的难题。例如,医院检验设备采用的指标单位不同,就无法实现设备间化验单互认[10]。目前,医疗数据标准化的主流方式是在每个数据端安装前置服务程序,把外来的数据“标准化”成为内部系统可识别的格式,在不同来源的数据库间表面上形成了标准统一。但这种标准化模式在实际运用过程中的效率较低,出错率较高,中断后的纠错难度较大[11]。

1.4 数据共享难

医疗数据共享是实现数据集中采集的前提条件,造成数据共享困难的原因不仅仅是标准不统一,更是由于医院本身的体制现状。目前,各地区私立医院、公立医院、军队医院竞争共存,各自的隶属关系不同[12],各医院的数据结构不同,地区间的发展水平也不均衡。要实现数据高度共享,医疗机构和各医保部门间需进行密切协作。首先需要实现医院间的标准互认,要牺牲一定的“数据利益”,同时还要考虑隐私权等法律问题。所以,短时间内很难实现国内医疗数据的全面共享,这也是困扰医疗大数据应用发展的“数据孤岛”壁垒[13]。

2 健康信息需求

2.1 公民的健康素养

从世界范围来看,中国公民的健康素养(个人获取和理解健康信息,并运用这些信息维护和促进自身健康的能力)比较低,国内健康档案等建设工程起步较晚,对健康信息需求的认识比较模糊[14]。调查显示,2014年中国城乡居民健康素养水平为9.48%,而美国同期的健康素养水平在50%以上[15]。世界卫生组织也指出:“无论是发达国家还是发展中国家,对健康信息的理解都存在着困难,加强个人健康信息管理的紧迫性是世界性问题”[16]。

我国医疗资源分布不均衡,民众普遍缺乏医疗基本常识,同时“只看医生,不信数据”的思想观念根深蒂固,这些因素综合起来就会导致健康素养指标偏低。从整体评价情况来看,国内医疗机构尚处于就诊预约、价格查询和浏览诊断结果的初级信息管理阶段。普通民众对健康信息的需求较少,利用信息手段来获取健康情报的意识还比较淡薄[17]。

2.2 医疗机构的信息服务

医疗事业的工作目标是为群众提供良好的卫生服务,但获取“效益”是医疗机构正常运转的前提。医疗信息大部分产生于医疗业务流程中,这些信息资源的服务对象虽然是患者,但都是以费用对医疗信息的流转进行控制,针对患者专门设计的信息服务项目非常少。信息的服务对象应以患者为核心,对群众的健康状况进行详实的历史记录,以数据仓库的方式实现医疗数据的极端共享。目前有些欧美国家已针对个人健康档案的建设开展工作,取得了一定的规模成就,其核心理念就是服务患者,以方便患者远程共享医疗数据为目的,减少病人的重复检查,提高了医生的工作效率和准确率[18]。

近年,卫生部大力推行“农保一卡通”和“城乡居民健康卡”等民生工程,一些城市也开始探索以“电子健康档案”为基础的健康信息管理方式,以实现健康信息资源的高度共享。但国内的医疗体系框架和管理模式与国外有很大的区别,医疗保险制度的建立时间较短,且各区域的医疗信息发展水平极不平衡。综合看来,个人健康信息共享平台的发展比较缓慢,检验数据做为健康信息的核心数据,其指标单位标准在医院间很难统一。这是由医疗机构的管理机制、信息服务对象、医疗水平等多种原因造成的[19]。

2.3 防疫部门的疫情监测

从2003年的“非典”到最近频繁爆发的“禽流感”,大规模传染病公共事件的预防工作变得非常重要。2010年,国家防疫疾控中心计划实现建设全国的防疫监控体系,意图实现上下联动全覆盖的疫情监控。但由于各地区间的数据不对称和经济水平不均衡等原因[20],目前传染疫情的监控大部分采用人工监测并上报的模式。传统疫情信息上报流程,见图2。按照正常流程,从乡镇单位到省级防疫部门要经过4~5级上报,任一中间环节出现问题,疫情上报的任务就会中断。同时采样标本的确认周期长,误报率非常高,浪费了大量的人力和物力[21]。如果所有健康信息能够及时上报并集中管理,重大疫情和病情的监测效率将会大幅度提高,防疫部门可以采取针对性措施及时对疫情进行控制,准确把握防治的范围和重点,推动社会公共卫生事业的发展[22]。

图2 各级疫情报告制度响应图

3 医疗大数据分析处理的关键技术

医疗大数据的分析过程需要依靠可靠、规范、庞大的数据资源,针对不同来源和不同格式的数据,规范化的收集存储是第一道工序。数据分析处理的过程中主要用到数据挖掘技术,使用数据建模判断智能分析和预测结果,分析和预测结果的应采取数字与图像相结合的方式进行呈现。由于患者健康素养普遍不高,因此必须用最简易的方式来展示这些复杂的分析结果,对于医生则要提供专业的分析结果[23]。

3.1 数据采集

数据采集就是在不同时段对各信息源的数据进行抽取和汇集。由于数据的格式不统一,储存前需要按照规范进行数据转换,自动添加为数据挖掘等应用准备的字段,如数据来源标示、数据分类、数据索引等。医疗数据最关键的价值就是及时性,因此要求整个数据采集的过程是动态的,在已有大量数据的基础上,要时刻准备接收和转换新的数据[24]。目前大数据普遍存在的问题是“垃圾数据”过多,为保证医疗数据的准确性,必须在数据采集前就进行严格的筛选,对一些“脏数据”和过期数据建立智能的甄别机制。如果对来源数据审查不严格,会导致最终分析结果出现偏差。数据筛查与同步的判断原理图,见图3。

图3 数据筛查与同步的判断原理图

3.2 数据挖掘

数据挖掘是大数据分析过程中的核心技术。医疗大数据分析的重点是查找异常数据,分析并及时通知异常判断结果[25]。处理过程中要对数据的优先权进行等级划分,比如急诊的数据要优先于普通体检数据,军人病号的数据要优先于普通医保的数据,重型传染病HIV数据要优先于其他病情的数据,手术的检验数据要优先于一般体检数据。

3.3 数据建模

大数据最终目的是分析和预测,数据建模是情报分析预测的主要手段,是做出判断结果的技术基础。医疗数据的分类比较杂,医学类数据的建模是一个在情报反馈中不断进行动态调整的过程,而且情报反馈越多,模型设定越准确。医疗数据分类的杂乱性决定了其模型的多样性,依靠人工进行临时调整是很难的,只有根据现实数据与历史数据的结合情况实现平衡,动态建模是实现数据及时性和准确性的关键环节。本研究节选案例的模型设定就是一个建立在常见病状和新病情基础上不断自我调整的过程,通过对异常数据的分析,系统可以不断丰富判断字典,使得判断结果越来越准确,判断条件越来越丰富[26]。

4 健康信息的分析过程

在商业和军事领域的情报分析过程中,实现用户的具体需求是衡量情报信息价值的关键,医疗健康信息的分析过程也类似,其核心价值是以用户能够接受的方式给出的及时、准确的分析结果。健康信息是对某一时刻身体状态的描述,过期的情报、错误的分析结果是没有任何意义的。健康信息的分析来源是人体健康状态的量化数据,具有共性,所以健康评测需要建立在统一的判断标准之上。同时患者的个人需求是在不断变化之中的,整个分析过程是一个持续反馈的过程,是一个动态调整的循环体系。研究节选案例参照传统的军事和商业领域情报分析的流程,结合国民健康素养的现状,设计了一套基于LIS检验数据的分析系统[27]。

4.1 检验指标标准统一

统一信息的判断标准是保证医疗机构上下级信息通畅的前提,如果某种异常情况的判定在县级和省市级医院不统一,那么情报分析的结果就容易出现错报和误报。对某些医学健康信息的标准是很难判定的,以LIS数据中的尿酸值为例,对于同一份检验标本,由于检测水平和检测设备不同,其检测结果也是不同的;钠离子有4种不同的标示方法(NA,Na,NA+,Na+),不同信息系统是互不相认的;同一个病人,其检测结果在手术前后和恢复期间也有巨大差别。因此对检验指标标准的设定不仅是建立单纯的数值之上,还要同时考虑到设备、天气、病状和心态等多种因素。研究节选案例中利用中间服务层为常见的标准定义了标示对照字典,进行了同语义转化,实现了数据高度共享,同时还保留了不同医院的“个性化”数据,以便能对个体的追踪查询和分析判断[28]。

4.2 用诊断字典过滤

诊断字典是异常结果的诊断依据,是所有判定标准的集合体,其主要原理是在数据建模的基础上建立一个过滤层。本案例中以《国家检验标准第三版》的范围为基础判断字典,并对常见病种的判断进行条件组合,形成多个简易判断策略单元,每个医疗机构还可根据自身特点调整和增加条件。随着时间的推移和数据量的增加,判断字典不断丰富,对异常情况判断的效率也在不断地提高。新病种的出现要求诊断字典需要具备自我完善和调整的功能,但就目前的技术条件而言,还只能采用人工调整的方式[24]。检验指标的区间标示方法各异,有的只有最大值或最小值(开区间),有的有固定的区间范围(闭区间),针对此复杂情况本案例特设定了分类判断机制,其判断原理图,见图4。

图4 各类指标的分类判断流程图

4.3 按用户分类给出分析结果

传统情报分析的信息来源相对固定,服务对象单一,相应最终的结果展示方式较少。军事情报的主要服务对象是指挥机构或者指挥员,目标相对稳定,信息服务的目的是制定和调整作战行动计划,通过数字报表、口述、书面报告等方式基本上就可以满足信息展示的需求。但医疗信息的服务对象非常多,包括医生、医疗机构、患者、健康群体(工厂或社区)等,其对健康信息需求的差异性非常大,对信息的理解能力水平也有很大区别,所以分析结果应根据用户分类采用不同的展示方法[25]。地方医疗机构关注重点是群体指标的变化趋势,提供方式主要应该是纯数据报表或者整体动态分析图等;普通患者的健康需求较为简单,最想得到的是个人健康记录和诊断结果,而且由于普通民众不具备专业的医疗水平,所以需要采用最直观的图形化展示方式;临床医生的需求更贴近临床应用,最关心的是所负责病人的最新指标的变化,以便及时做出诊断和制定最佳治疗方案,所以需要以专业分析数据展示[27]。

4.4 智能预测报警

应用大数据的最终目的是实现预测功能,这也是大数据概念的核心目标。医疗信息可预测的内容多、意义重大,以目前医疗发展的程度,智能预测主要应用于传染病预防和临床辅助两个方面。利用大数据技术实现传染病的预防工作,首先需要各级医疗机构达成数据标准化协议,然后无保留地提供全部数据,实现医疗数据的高度共享,但这种目标在短时间内并不能实现。大数据分析对临床辅助的应用主要体现在辅助诊断指标的智能化方面,实现这个功能需要的数据量不大,只要有存储规范的数据库,数据的获取比较容易。本研究节选案例中实现了危急值的智能报警过程,其设计原理就是从大批量新数据中第一时间发现异常数据,进行分析和预测,再对可能出现问题的消息进行智能发送。危急值的报告制度是2014年国家卫生部发布的《十大患者安全目标》之一,经权威统计,医疗纠纷事件有36%是由未落实危急值报告制度而引起的。目前几乎所有医院在危急值的检测上都实现了自动化,但在报告的传递方式上依然以人工为主,医疗技师与医生的沟通效率决定了患者抢救的成功率。在系统中设计过程中,计算机取代了检验技师,实现批量数据的智能化甄别和预测分析,将人工消息传递改为智能报警提醒的方式,大大缩短了危急值报告的时间,提高了危象病人抢救的效率。危急值智能报警与传统人工操作的对比,见图5。

5 结语

LIS数据是健康信息的核心数据,本文阐述了如何利用数据采集的方式形成数据仓库,再利用数据挖掘和数据建模等技术进行分析处理。并针对医疗数据的特点,结合各类用户的需求情况,介绍了对海量数据进行分析判断的原理,展示了实现效果。

医疗大数据的应用是医学信息学未来研究的重要课题,在医疗大数据环境下如何更好地为患者提供信息服务,利用信息手段提高全社会的医疗服务水平,将会是未来研究的主要方向。

图5 危急值智能化报警设计的效果图

[1] Kandula S.The nature of data center traffic:measurements&analysis [A].Kandula S,Sengupta S,eds.Acm Sigcomm Сonference on Internet Measurement[С].Сhicago:AСM SIGСOMM,2009:202-208.

[2] Liu L.Green СIoud:A new architecture for green data center[A]. Liu L,Wang H,eds.Acm Sigcomm Сonference on Internet Measurement[С].Сhicago:AСM SIGСOMM,2009:29-38.

[3] 陈金雄.医院信息系统发展及对存储和数据安全的新要求[J].中国医疗设备,2010,25(8):1-3.

[4] Greenberg A.Towards a next generation data center architecture:scalability and commoditization[A].Greenberg A,Lahiri E,ets.Proceedings of the AСM workshop on Programmable routers for extensible services of tomorrow[С].Сhicago:AСM IMС,2008:57-62.

[5] Сhang F,Dean J,Ghemawat S,et a1.Bigtable:A distributed storage system for structured data[J].ACM TOCS,2008,26(2): 205-218.

[6] Dean J,Ghemawat S.Mapreduce:simplifed data processing OII large clusters[J].ACM,2008,5l(1):107-113.

[7] Rui ME.K-means clustering in the cloud-A Mahout Test[A]. Rui ME,Rui P,ets.IEEE Workshops of International Сonference on Advanced Information Networking and Applications[С]. Singapore:Сurran Associates,Inc,2011:514-519.

[8] 周铁成.虚拟化技术在数据中心架构中的应用研究[J].现代计算机 专业版,2009(4):88-89.

[9] 谭文辉.利用VMware实现数据中心服务器虚拟化[J].舰船电子工程,2008,28(6):156-159.

[10] 刘韬,侯宗浩.基于医学影像数据中心的PAСS系统集成的研究[J].医疗卫生装备,2006,27(3):40-41.

[11] Giilick D,Faria A,DeNero J.Mapreduce:Distributed computing for machine learning[J].Berkley,2006,12(6):18-21.

[12] 维克托·迈尔·舍恩伯格.删除[M].杭州:浙江人民出版社,2013: 42-46,53-59.

[13] 赵国栋,易欢欢,糜万军,等.大数据时代的历史机遇—产业变革与数据科学[M].北京:清华大学出版社,2013:167-175.

[14] 城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013:76-83.

[15] 周宝曜,刘伟,范承工.大数据:战略 技术 实践[M].北京:电子工业出社,2013:13-16,78-85,156-164.

[16] 维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2012:223-226.

[17] 涂子沛.大数据[M].桂林:广西师范大学出版社,2012:56-61.

[18] Thusoo A,Sarma J S,Jain N,et a1.Hive:a warehousing solution over a map-reduce framework[J].Proceedings of the VLDB Endowment,2009,2(2):1626-1629.

[19] Low Y,Gonzalez JE,Kyrola A,et al.GraphLab:A New Framework For Parallel Machine Learning[J].Eprint Arxiv,2014,48(6):13-19.

[20] Ghemawat S,Gobioff H,Leung S.File and storage systems:The Google File System[J].AСM SIOSPS,2003,(37):29-43.

[21] Borthakur D.The hadoop distributed fle system:Architecture and design[J].Hadoop,2007,11(11):1-10.

[22] Manyika J,Сhui M,Brown B,et al.Big Data:The Next Frontier For Innovation,Сompetition,And Productivity[J]. Analytics,2011,36(4):24-35.

[23] Steve Lohr.The age of big data[J].New York Times,2012,2(12):1-5.

[24] Howe D,Сostanzo M,Fey P,et al.Big Data:The future of biocuration[J].Nature,2008,455(7209):47-50.

[25] Tom Kalil.Big Data is a Big Deal[EB/OL].(2012-03-29)[2015-08-13].http://www.whitehouse.gov/blog/2012/03/29/big-databig-deal.

[26] Paul С,Ziko P,Сhris E.Understanding Big Data[M].Mc Graw Hill, 2012:36-38,123-126.

[27] Hoffmann L.Looking back at big data[J].СOMMUN AСM,2013,56(4):21-23.

[28] Emmanuel L.Big Data for Development:Сhallenges&Opp ortunities[EB/OL].(2012-05-12)[2015-07-16].http://www. unglobalpulse.org/projects/Big Data for Development.

Analysis Methods on Health Information in Medical Big Data Environment

REN Hui-peng1,2
1.98thHospital of PLA, Huzhou Zhejiang 313000, Сhina; 2.Department of Military Information Management, Nanjin Politics Сollege Shanghai Branch, Shanghai 200433, Сhina

This paper analyzed characteristics of medical big data, and introduced current status of domestic demand for health information. Through the research of laboratory information system (LIS), some crucial technologies were enumerated such as data processing, data mining, intelligent analysis,etc. Meanwhile, principles of dynamic intelligence analysis and disease prediction alarm were introduced, and real cases which using medical big data to serve patients were displayed.

medical big data; health information; analysis method

R012

A

10.3969/j.issn.1674-1633.2016.05.057

1674-1633(2016)05-0173-05

2016-03-01

作者邮箱:38152111@qq.com

编者按:为了促进飞利浦医疗产品用户间的交流与沟通,加强飞利浦医疗与广大中国用户的合作,更好地利用现代医疗设备服务于临床和科研,飞利浦医疗保健与《世界医疗器械》杂志、科讯医疗网于2015年11月启动“第七届(2015)飞利浦医疗保健临床应用与研究征文大赛”,得到了全国各地飞利浦医疗系统用户的积极响应和大力支持。此次征文大赛特邀了20余位国内相关领域的著名专家组成专家评审委员会,以公开、公平、公正的方式对参赛论文进行评选。《中国医疗设备》杂志社作为合作媒体,特于本期设此栏目刊登获奖文章。

猜你喜欢
医疗信息
医疗UDI
医疗合同中医方违约责任的判定
医学与法学(2020年2期)2020-07-24 08:46:36
订阅信息
中华手工(2017年2期)2017-06-06 23:00:31
京张医疗联合的成功之路
中国卫生(2016年1期)2016-11-12 13:21:00
我们怎样理解医疗创新
中国卫生(2016年1期)2016-11-12 13:20:58
医疗扶贫至关重要
中国卫生(2016年1期)2016-01-24 07:00:03
展会信息
中外会展(2014年4期)2014-11-27 07:46:46
什么是医疗告知
信息
建筑创作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32