英特尔:领航医疗大数据

2017-04-07 06:41刘文生
中国医院院长 2017年4期
关键词:英特尔数据库医疗

文/本刊记者 刘文生

英特尔:领航医疗大数据

文/本刊记者 刘文生

对于医疗行业用户及其面临的大数据应用挑战来说,英特尔提供的开放架构大数据平台,是针对中国本地医疗行业用户的最佳选择。

医疗行业正迎来深度的行业变革,背后的推手之一是医疗大数据的发展与应用。

尽管中国医疗大数据建设尚处在起步阶段,但医疗大数据潜在的价值却越来越受到重视。麦肯锡在2013年报告中预测,仅在美国,医疗大数据的应用有望减少3000~4500亿美元/年的医疗费用。相关分析认为,中国存在人口基数巨大、医疗资源浪费严重、医疗资源紧缺和配置不合理、医疗支出增长过快、商保发展乏力等问题,医疗大数据的可应用场景丰富且能深度挖掘,因此医疗大数据的市场规模至少在千亿级。

从产业角度来说,医疗大数据市场前景光明。而从政府和行业角度来说,推动医疗大数据发展是一道必选题。

“我听说现在电视上养生节目的收视率很高,这说明老百姓的健康意识越来越强,对医疗健康的需求也越来越高。”国务院总理李克强在2016年的一次常务会议上说,“我们要发展健康医疗大数据应用,必须从老百姓迫切需求的领域入手,抓住重点、着力突破。”

政策的推进和政府部门的明确表态对中国医疗大数据的发展十分必要。实际上,正是有了这样的支持,医疗大数据在中国的发展远比预期要快。医疗机构纷纷试水,信息化企业加紧布局,医疗大数据正突破重重壁垒,在改善医疗服务、提升医疗质量、个性化健康管理等多个领域发挥作用。

发展医疗大数据迫在眉睫

随着老龄化的深入和慢病人群不断扩大,中国医疗需求不断攀升,由此引发的看病难、医疗服务质量差等一系列问题需更高效地提供医疗服务来应对。同时,过度医疗、过度耗材、医疗资源分配不合理等原因造成的资源浪费异常严重。此外,医保支付体系压力加剧,亟需有效控费和商业保险补充支持。

而医疗大数据可提升医疗服务效率,减少医疗资源浪费,提高其利用率,帮助商保公司提高保险精算能力和通过健康管理降低赔付成本。

国家层面显然对此有所认识。

李克强在上述会议上明确表示,发展健康医疗大数据产业已经“迫在眉睫”。“老百姓对健康的需求越来越高,大数据在健康医疗领域的运用也在突飞猛进。这些都倒逼我们必须加快发展规范健康医疗大数据应用的步伐。”

李克强说:“通过研制推广智能化健康医疗设备,收集、分析医学大数据资源,不仅可以为用户提供更好的医疗服务,推动医疗健康产业发展,对于攻克高难疾病等工作也有重要意义。”

在国家层面的强力推动下,2016年成为中国医疗大数据发展里程碑的一年。2016年3月,国务院发布的国民经济和社会发展“十三五”规划纲要正式提出,实施国家大数据战略。6月24日,国务院办公厅发布《关于促进和规范健康医疗大数据应用发展的指导意见》(以下简称《指导意见》),明确提出健康医疗大数据是国家重要的基础性战略资源。此后,国家卫生计生委与国家发改委、科技部、中科院等公布了多项医疗卫生领域重大科研计划。

2016年10月21日,国家卫生计生委召开健康医疗大数据中心与产业园建设国家试点工程启动推进电视电话会,部署、推进和规范健康医疗大数据的应用发展,确定福建省、江苏省及福州、厦门、南京、常州为第一批试点省市,启动第一批健康医疗大数据中心与产业园建设国家试点工程。

一系列措施直指医疗大数据发展痛点。众所周知,我国医疗数据地域、行业分割严重,亟待融合。一方面,各地医疗机构信息系统由多个信息化厂商提供,缺乏统一的建设标准指导导致接口各异;另一方面,医院部门间、医院间数据不开放,以邻为壑、难共享。目前我国95%医院的电子病历还未全院流通,仅20%的电子健康档案与电子病历互通。此外,医疗子行业间数据割裂严重。医疗服务机构数据(如电子病历、影像、放射、基因等)、药店数据、医药研发数据、商业保险数据等系统接口未打通,不能形成数据闭环。

《指导意见》强调,要消除数据壁垒,畅通部门、区域、行业之间的数据共享通道,探索社会化健康医疗数据信息互通机制。因此,随着医疗信息化建设的持续推进,数据融合是必然趋势。

解决数据存储和管理难题

2014年国家对医疗大数据做了顶层设计,国家卫生计生委发布“46312”工程,其中的“3”就是指三大数据库,分别为电子健康档案数据库、电子病历数据库和全员人口个案数据库。

人口数据库包含人口信息,数据来源于各大部门交互共享。健康档案数据库主要包含定期或不定期的健康体检记录、卫生服务过程中的各种服务记录、专题健康或疾病调查记录,数据来源于体检机构、医院和基层卫生服务中心。电子病历数据库主要包含医院诊断治疗全过程原始记录,数据来源于医院。

从三大数据库的数据来源看,医院是医疗大数据的主要来源,而院内医疗大数据主要依赖于院内信息化建设的程度。在医院,患者每天产生的数据是海量的,包括患者基本属性数据、病例数据、用药数据、药品销售数据等等,只不过医院目前缺少使数据发挥价值的方法和工具。

医院的信息化建设是使其大数据发挥价值的基础,目前大部分医院都在信息化建设方面进行投入。医院各应用信息系统中受重视程度排名前五的是:电子病历系统、临床信息系统、数字化影像存储交换系统、计算机化的医嘱录入、医院业务管理系统。

由于医院越来越重视医疗数据的价值,为了打破院内的数据孤岛,实现院内数据共享,医院越来越重视院内集成(开放)平台的建设。整合一个机构内的数据孤岛,有利于提高其数据分析的价值。将电子病历(EHR)、医保、视频、医疗影像、扫描文档和医生笔记等资料进行集成,可帮助医疗机构360度全方位地了解每位患者。

医疗数据的数量越来越庞大、种类越来越丰富,速度越来越快。医疗机构每天必须以更快的速度从多个数据源收集数量庞大的数据。为充分发挥所有数据的最大价值,医疗机构必须采用全新的方法,并部署实用的解决方案,以在数据能够发挥最大作用的时候即时提供切实可行的洞察。

但另一方面,医疗数据加速积累,对存储、管理等提出更高要求。医疗行业是数据密集型行业。IDC Digital预测截至2020年医疗数据量将达40万亿GB,是2010年的30倍。同时数据生成和共享的速度迅速增加,导致数据加速积累。

分析认为,中国医疗大数据的市场规模至少在千亿级。

医疗大数据具有高维、大容量、高通量的特性,已有的统计分析、数据挖掘方法等成熟方法都是针对低通量、低容量、结果性数据。面对医疗健康大数据的过程性的特点,以及急剧增长的维度、记录数,如何扩展现有方法,提出新的统计分析、数据挖掘模型,已成为医疗健康大数据应用的技术难点。

处理海量数据要求硬件具备卓越的性能。作为计算创新的引领者,凭借出色的成本优势,以及支持TB-PB级大数据集的分布式存储、实时处理和查询应用,英特尔为医疗行业用户对于大数据的多维度、多层次应用提供强有力的技术平台支撑。同时,英特尔大数据分析平台已经完成了从芯片硬件到数据库管理的全面优化,所以可以有效降低用户在应用软件产品化方案化过程中的工作量和总体成本。

更重要的是,英特尔在政府、电信和金融等众多行业用户中的成功应用,足以证明它已经历了实战的考验。因此,对于医疗行业用户及其面临的大数据应用挑战来说,英特尔的开放架构大数据平台,是中国本地医疗行业用户最佳的“医疗大数据解决方案”。

实际上,由于英特尔目前在数据中心领域有着绝对领先的地位,其在大数据方面有着其他机构难以想象的优势。在数据中心领域,90%以上的服务器都是基于英特尔架构的,英特尔有着很好的硬件平台基础,而英特尔能够通过软件与硬件的优化将大数据和英特尔之间无缝连接,基于平台优化方面的优势能够让英特尔在大数据项目上有着先天的优势。

医疗大数据具有高维、大容量、高通量的特性,已有的统计分析、数据挖掘等成熟方法都是针对低通量、低容量、结果性数据。面对医疗健康大数据的过程性的特点,以及急剧增长的维度、记录数,如何扩展现有方法,提出新的统计分析、数据挖掘模型,已成为医疗健康大数据应用的技术难点。

英特尔一直为用户提供一致性通用架构以及数据分析领域最全面的硬件和软件平台解决方案,以用于高性能计算和数据分析的工作负载。英特尔通过广泛的软硬件产品组合,包括涵盖至强处理器、至强融核处理器和FPGA、Omni-Path网络、3D XPoint存储等技术,以及软件算法框架及数学函数库优化,推动组织和企业更方便地统计、分析数据。

“此外,英特尔还致力于构建开放、可扩展的生态系统,并广泛联合产业和学术研究各领域合作伙伴,积极推进数据分析。” 英特尔中国战略合作与创新业务部中国区总经理李德胜表示。

英特尔为医疗行业用户对于大数据的多维度、多层次应用提供强有力的技术平台支撑。

助力医院突破大数据应用

国家鼓励医疗卫生机构推进健康医疗大数据采集、存储,加强应用支撑和运维技术保障,打通数据资源共享通道。加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库。实际上,大数据技术飞速发展,医院也越来越重视快速增长的多元化数据,因此医疗大数据应用越来越受到医疗机构欢迎。

大医院基本上都有上百个系统在线运行,这些系统可能来自几十个厂商,由于缺乏信息表达、交换、处理方面的统一标准,医院数据体量庞大,类型复杂。从医院角度来看,临床业务对于医疗质量控制、科研分析研究以及信息的共享利用需求更加迫切。当来自一线业务的迫切需求被摆在信息中心面前时,医疗大数据应用探索自然会展开。

北京大学第三医院(以下简称“北医三院”)2008年就建成了电子病历系统,8年的应用中积累了大量临床业务数据,临床对于数据应用的呼声非常高。怎样才能把这些数据利用起来呢?

临床数据大体分为结构化数据和非结构化数据。数据利用平台建设分为:数据整合、数据存储、数据分析、数据展现四个步骤。利用大数据技术实现临床数据的利用是将以往单一数据集,分析聚合成多个数据集,解决不同类型数据的融合与关联。将结果按照一定的标准统一存储,并做综合关联性分析。通过对多源异构数据进行整合,将数据标准化,建立临床数据中心、可监测的分析指标体系以及追诉体系,实现对多源异构数据的有效管理。

北医三院基于Hadoop分布式大数据技术实现分布式的数据存储,为复杂的临床数据分析构建了多个分布式数据计算节点。临床数据是整个数据中心的基础,数据展现是围绕临床事件展开的。北医三院建立了包括门诊、急诊、处方、结算、入院等60多个临床事件。以急诊的临床事件为例:一个患者来了,他要就诊、办手续、诊断、医嘱、转科等等,要对这些事件进行整合。将数据按时间轴展开,最终为用户提供运营监测、医疗质量、科研分析、重点人群等多维度展现。

英特尔能够帮助用户轻松使用Hadoop。独有的针对软硬件进行校准的路线图可加速创新,能够比其他Hadoop分发版提供更多的行业领先特性。英特尔几乎与数据中心领域的所有提供商均有着密切的合作关系,可大大简化大数据解决方案的构建流程。此外,英特尔在推进行业标准发展方面有着优异表现,能够帮助客户避免陷入孤岛困境。

在具体应用中,英特尔携手Cloudera帮助大型医院集团通过有效预测患者的住院时间合理分配资源。

近年来,美国针对住院治疗的医保报销,尤其是针对预付系统(PPS)的法律对支付流程进行了标准化处理,鼓励所有住院治疗的患者缩短住院时间。医保报销的标准化可促进医院更加高效地利用资源(如医院床位),最大程度地提高医保的收入。为了提高床位利用率,对患者的出院时间进行前期预测是十分必要的。该预测还可以在患者入院时确定其住院时间。

英特尔利用从非传统来源的数据和每家医院周边的患者的社会经济数据中获得的洞察,帮助医院集团创建了一个模型,该模型可以确定60%平均范围以外的高危患者,标记出可能会延长住院时间的因素。

医院集团借助预测模型极大提高了预测准确率,与典型的平均准确率相比,针对每种情况,患者住院总时间预测准确率提高了25%至40%。医院集团对住院时间2天以内的预测准确率达到80%。

该医院集团借助基于英特尔和Cloudera的分析提供的更准确预测结果,获得了以下收益(按年度计):近30000位患者(占患者总数的15%~20%)的住院安排得到改进;设备利用率提高5%,使得医院每年能够额外服务10000位患者;年成本节约1.2亿美元(每位患者约12000美元);节约医疗服务成本近1500万美元(相当于每位患者节约500美元)。

与美国的情况相似,中国政府部门对医疗机构控费、药占比、平均住院日的要求越来越严格。通过入院期间患者的电子病历、社会经济数据和治疗状况为其预测住院时间数据、住院费用等可以使医院更好地面对各种压力。

实践区域卫生信息平台

从2012年开始,英特尔就瞄准了医疗大数据的方向。当年,英特尔向上海市卫生局(现上海市卫生计生委)提供了为大数据存储、管理、处理和查询需求开发的Apache Hadoop软件英特尔分发版与英特尔至强解决方案。

早在20多年前,上海市卫生信息化工作就已经起步。上海对于卫生信息化的进程有着非常明确的思路,就是分三个阶段走,由医院HIS(医院信息系统)、RIS(放射信息系统)这样的“点”,到肿瘤报告系统、糖尿病管理信息系统这类连贯各个医疗机构之间的“线”,最后形成覆盖全市的区域卫生信息系统。

但在这样的一个进程中,如何管好数据、用好数据成为一大难题。事实上,2012年上海每天进入后台数据库的数据量达到1600万笔,一年多已经累积数据43亿多笔。过去传统的数据库架构显然无法满足能够处理如此海量的数据的高性能、高效率的信息系统的需求。

为应对不断增加的数据压力,上海市卫生局信息中心的健康信息搜索及智能提示系统选择使用英特尔至强E5-2640处理器和Apache Hadoop。分布式系统为从数千个医生工作站发出的数据提供了高并发处理能力。

Hadoop底层采用的是分布式文件系统(HDFS),这种系统的机制是将数据块分布存放在服务器簇群上。当整个系统容量需要扩充时,只需要在簇群上增加服务器的数量。同时文件的分布算法可以将数据块搬迁到新的服务器上,无需人工干预;而文件系统可以自动扩展以使用增加的容量。同时,所采用的分布式数据库(HBase)能将记录储存在适应能力很强的柱状数据库中,这个数据库可以简单通过增加服务器的方式来扩大容量。Map/Reduce*框架可以方便地处理进入医疗系统的各种类型的数据,包括结构化数据、半结构化数据以及非结构化数据。英特尔的各种优化利用英特尔至强处理器E5-2640提升了各种应用的效能。

通过采用弹性的平台架构,以及高效英特尔至强TM处理器,新方案帮助上海市卫生局信息中心构建的三级工作层面可以有条不紊地为12万台医生工作站提供高效便捷的信息服务,这在传统的医疗卫生系统中是不可想象的。上海市卫生局信息中心的大数据解决方案帮助医生快速获得患者的健康信息,使医疗重复检查率从80%降至30%。

单个医院的数据价值是十分有限的,为实现区域医疗资源的优化配置,必须将区域医疗大数据互通互联,目前区域医疗资源信息平台建设正处于高速增长期,亟需借助成熟的解决方案实现数据连接。英特尔在上海的成功实践,证明了其在大数据项目上的天然优势。

猜你喜欢
英特尔数据库医疗
英特尔发布第三代英特尔至强可扩展处理器
英特尔携手一汽集团,引领汽车行业全新变革
数据库
英特尔召回
京张医疗联合的成功之路
我们怎样理解医疗创新
数据库
数据库
数据库
医疗扶贫至关重要