王 蓓 张 晴 李洁莉 朱家沐*
随着国家医改政策不断深入,区域医疗以健康档案为中心的信息化工作被放到首要位置[1]。医疗健康大数据的管理成为关注的焦点,智慧医院信息化、数字化和现代化的发展,相比传统的信息化医院,有主动感知和智能调控能力[2]。智慧医院拥有强大的计算机软硬件网络平台,以WiFi技术、传感器技术、数据库技术和虚拟化存储来实现医院日常医疗数据的集中管理。海量医疗大数据源源不断储存到医疗机构的核心数据中心,形成了优质的医疗资源池,科研、临床与数据仓库三位一体的健康医疗大数据库应运而生。为全面提高健康医疗大数据的管理水平和数据利用率,依托物联网,采用先进的医疗大数据分析工具,研究出最优应用解决方案,深层挖掘这些数据的潜力和内涵,指导临床和科研工作,为患者的健康管理和精准医疗提供支撑。
物联网(internet of things,LOT)是以互联网和信息专网等为网络骨架,按照标准网络协议对客观存在对象或信息数据实现网络寻址访问的网络,有智能、先进及互联三个显著特点,能够实现医疗业务数据采集、加工、传递和储存,能通过射频识别(radio frequency identification,RFID)技术、红外感应器及全球定位系统(global positioning system,GPS)等信息传感设备,实现被跟踪对象的智能识别、精准定位、数据跟踪和行为监控[3]。
物联网在医疗机构应用中,最早用于医院各种物资材料的物流供应管理。近年来,由于人工智能(artificial intelligence,AI)、移动互联网、可穿戴设备及便携式医疗仪器的广泛使用,现代医学基础科学研究快速发展,诞生了很多人工智能和跨地区、跨应用平台的新应用,如针对社区患者的慢性病健康保健管理平台、分级诊疗的三级联通系统、家庭医生信息管理系统、人体医疗健康大数据、公共卫生疾病预防、医疗保健、药品保障信息系统、远程自助健康服务及个性化诊疗服务等[4]。
物联网由于基于先进移动网络,可通过扫描RFID识别码快速获取被查询对象的相关信息和追溯根源,对医疗机构的医疗设备、医用耗材的监管,有得天独厚的优势,可根据医院设备信息系统的设备档案数据进行快速查询,清楚地掌握设备生产、购销和启用情况,还可对医疗活动中医疗设备的使用、保养、维修、不良事件上报及报废等全过程进行监控和处理,同时实现患者使用各种仪器和高值耗材时,保证“一物一码,信息透明,费用明晰”。如患者神经外科手术后,安装钛板或支架,医院就可以通过物联网对其使用的医疗耗材或器械进行RFID的智能识别跟踪,一旦出现有产品的使用问题,医院可快速查明原因和及时处理问题[5-6]。
在日常的医疗活动中,系统中会生成各种各样的实时数据,其数据按结构类型分,有来源于甲骨文公司(Oracle)、微软公司SQL server等数据库的结构化数据、半结构化数据和非结构化数据,这些不同结构的数据通过物联网汇聚在一起,形成了庞大的医疗健康数据集。2014年的中国信息学学术年度会议上已经明确声明,国内医疗机构的数据规模已经从GB达到PB的数量级,医院的大数据管理重点已经从粗放型快速建设转化为精细化管理阶段,数据日益增加,甚至可能出现数据大爆发的情况。
目前,常用的大数据分析工具有MapReduce、Hadoop分布式文件系统(hadoop distributed file system,HDFS)、HBas及Zookeeper等,本研究主要采用HDFS工具从大数据挖掘的采集、分类、归档和分析整合4个阶段分析医疗大数据[7]。
健康医疗大数据的采集主要采用生物识别技术(biometrics technology,BT),通过人体的指纹、指静脉、人脸及虹膜等生理特性和笔迹、声音、步态等行为特征鉴定个人身份。①患者在医院就诊时,通过医院的感应识别系统记录患者的特征,与其身份证、社保卡信息连接形成身份确认,方便病历归档和就诊记录的追踪;②患者在社区就诊,通过医院的医联体或社区服务终端进行远程身份登记,跨区进行实时就诊情况的记录和传送,保证数据的有效性、准确性;③患者在家中或是与签约的家庭医生就诊过程中,通过移动互联网、便携式医疗仪器及可穿戴式医疗设备进行实时采集生理数据,由网络传送到医疗机构的服务器中。
健康医疗大数据在数据挖掘时,采集得到的数据主要是医院信息系统(hospital information system,HIS)、检验信息系统(laboratory information system,LIS)、影像归档及传输系统(picture archiving and communication systems,PACS)及放射学信息系统(radiology information system,RIS)等系统数据和基于电子病历(electronic medical record,EMR)的处方管理、居民健康保健管理、妇幼保健信息、干部健康管理、公共卫生传染病预警、慢性病预防治疗、远程自助健康服务、肿瘤个性化诊疗服务、人体基因数据及医学科研实验数据等[8]。这些系统产生的数据按照异构数据处理,直接利用是无法进行分析的,将这些数据库中索引表里的关键字段进行关联,采用数据异构同化处理工具二次链接,保证数据的可用性和完整性。不同类别的数据形成许多具有共同属性的集合,分为文字、数据包、图像、文档及数据表等。
采集的数据分门别类后,归类进入数据存储单元。将数据资源进行数据聚类分析、关联分析、元素因子分析、主成分分析、数据定义、数据归类和数据聚合分析专家系统等过程处理,然后开始数据属性标签及数据项分解操作,大数据分析工具对数据完成标准化归档,主要流程分别为数据一级归档、数据标签分析、数据二级归档、数据项元素分解、数据项设计。数据聚合分析模型如图1所示。
图1 数据聚合分析模型图
大数据的特点与传统的数据相比有很大区别,需要高效的计算机运行单元和分析处理工具HDFS才能完成大规模并行计算。健康医疗大数据的分析整合主要有下述5个步骤。
图2 大数据系统性数据采集指标体系图
(1)针对前端不同渠道进行数据堆栈标记,采集多维多源数据,并保证数据不丢失。
(2)得到多维度数据后,采用分析工具HDFS,用数据工具的抽取交互转化加载(extract transform load,ETL)对其进行结构化处理和存入数据库。
(3)由ETL处理后的标准化结构数据,送入数据存储管理池,转运到底层的数据仓库中,进行分类分片存放。
(4)根据分类的数据集,用R函数包对其进行数据建模和算法设计。
(5)按照建立的各种类数据模型及架构算法,结合前端不同医疗业务特征,由事件触点的标记来对应相关的位置。大数据系统性数据采集指标体系如图2所示。
面对海量而珍贵的健康医疗大数据,缺乏好的管理方法和优秀的分析工具,是无法充分利用好这些宝贵的资源。使用好数据,就一定要对数据进行深层次的分析和挖掘。数据挖掘(data mining,DM)是指从大量的数据中通过算法搜索隐藏其中信息的过程[9]。国际上有研究机构先后对大数据的挖掘利用做了相关研究,Active Health Management通过收集用户健康方面的数据完善和建立健康管理;CancerIQ通过整合临床数据和基因数据预测癌症风险评估、预防和治疗;CliniCast用大数据预测治疗效果和降低花费;麦肯锡全球研究院预计使用大数据分析技术每年为美国节省3000亿美元开支[5]。
医院健康医疗大数据以“健康管理和患者为中心”的宗旨系统设计,充分利用采集的数据进行有效分析,在系统应用初期,就可对分散无序的医疗健康信息数据进行整合,按照机器学习和人工智能模式自动分析,形成透明直观数据分析报告[10]。经过近2年的实际使用和研究,采用医院医患通APP手机平台问卷调查评价系统,客观调查医务人员和患者满意度,从大数据的数据挖掘及其统计分析数据工具的使用前后对比,居民健康管理档案建档率由原来的56%上升到了91%,患者来院的就诊满意度由原来的83%上升到了95%,相关疾病预警与早筛检出率由原来的50%上升到了75%。利用大数据技术不仅能有效降低医疗成本,还可以整合患者基因信息指导个性化治疗,利用大数据技术分析人口健康数据还可以预防疾病爆发等。
通过对医院管理系统和院外社区健康管理平台的医疗健康大数据深层挖掘分析,以物联网技术平台将多源的移动互联设备、可穿戴医疗设备及智慧医院信息系统中的数据集中管理[11-12]。经过数据筛选分类以及数据异构中间件的处理,进行多参数统计学分析,实现医生实时诊断查询、疾病情况预测、疾控预警服务、患者健康管理和基因检测结果的应用。通过物联网,与省级疾病预防控制中心的公共卫生传染病预警和慢性病预防治疗系统互联,开放网络数据资源,逐步建立居民健康保健管理、妇幼保健信息、干部健康管理、远程自助健康服务、肿瘤个性化诊疗服务、人体基因数据及医学科研实验数据,为精准医疗和保健管理现代化奠定基础[13]。