文/本刊记者 刘文生
英特尔:掘金医疗大数据
文/本刊记者 刘文生
几乎每个医院都有这样一座沉睡的金矿,必须经过大数据工具挖掘、提炼,才能获取真金。近年来,关于如何开发这座金矿的探讨越来越多,形成一股热潮。
现实状况是,我国医疗数据地域、行业割裂严重,医疗信息化孤岛严重,各地医疗机构的信息系统由多个信息化厂商提供,缺乏统一的建设标准指导导致借口各异。各医疗服务机构之间数据(如电子病历、影像、放射、基因等)与药店、医药研发机构、商业保险机构等系统的数据接口未打通,不能形成数据闭环。
与此同时,医疗数据加速积累,对存储、管理等提出更高要求。IDC预测,到2020年,医疗数据量将达40万亿GB,是2010年的30倍。同时数据生成和共享的速度迅速增加,导致数据加速积累。
技术进步更加丰富了医疗大数据,并使存储、分析、应用成为可能。如可穿戴智能设备的普及实现大规模、实时、持续收集患者数据;生物检测技术的进步促使生物数据大爆发;IT技术进步使医疗大数据应用成为可能,数据融合、数据挖掘、图像处理识别、机器学习、自然语言处理、数据可视化、人工智能等都取得了进步。
在更宏观的层面,国家战略推进医疗机构、区域信息化及医疗大数据应用建设,促使医疗大数据产业正在加速形成。前景无限,但究竟如何打造医疗大数据生态、提升医疗大数据应用价值,还有待广泛探讨。
医疗数据产生场景多,质量参差不齐,各类数据潜在的价值不同,具体分为以下四类。
诊疗数据:来自患者在医院诊所就医过程中产生的数据,包括电子病历、传统检测项目结果(生化、免疫、PCR等)、新兴检测项目结果(基因测序等)、医生用药选择、诊疗路径记录等;影像数据:主要来自患者在医院诊所就医过程中产生的影像数据;患者数据:患者自身的、在院外产生的数据,主要采集终端是可穿戴设备和各类网上轻医疗平台;支付和医保数据:一切与付费方相关的审核/报销记录,主要包括患者支付记录、报销记录、医药流通记录等。
这样的来源决定了医疗大数据的4V特征,即大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值化(Value)。医疗大数据和其他行业大数据相比有共性也有自己的特性,主要有四个方面的特点:数据量大、结构复杂、数据须整合、涉及周期长。
第一,医疗数据的量比较大。医疗数据量在持续膨胀,量大主要是医学技术本身的持续进步,导致个体病历数据在快速膨胀。例如CT检查,扫描结果动辄就1000幅、2000幅,需要三维重建时要做零点几毫米很薄的断层扫描,所以一次扫描可能会达到500MB以上的数据量。再例如数字病理:远程医疗需要把病理切片扫描后传给对方,对方能够看全数字的病理切片,它的数据量接近20GB。还有精准医学:需要对人的全基因组测序,数据可达数十GB。个体病历的数据量在持续发展,三级医院一年的门诊量可能达到300万人次以上。未来几年,整个的数据累积可能达到PB级。
第二,医疗数据类型结构复杂。和其他行业相比,医疗研究的对象是人,由于人的复杂性和诊疗的多样性,导致医疗数据类型结构复杂。如患者用药、检验结果等结构化数据,病历、检查报告等半结构化的数据,还有大量的影像等非结构化数据,这些非结构化数据恰恰又在医疗数据里占较大比例。当对自由文本、医学影像做数据分析时,需要从中自动提取特征,就目前而言仍然存在着很大的困难。
第三,以人为中心的数据整合。人的数据横向很宽,对数据集成的要求很高。所有的医疗数据是要为患者医疗服务的,从以人为中心的医学视角出发,需要将一个人方方面面的数据整合在一起,用于医生诊断时的呈现和医疗管理。这种集成的要求和难度极高,这不仅仅是研究某一个维度的数据,而是要综合起来看这些数据才能解决医疗问题。
第四,医疗数据的周期长。从一个人的健康档案来说,从怀孕胚胎开始,到出生,再到死亡,整个过程的信息都需要关注,所以医疗数据除了横向宽以外,纵向周期还很长。比如,一名小女孩患有卵巢肿瘤,做放疗化疗之后,需要随访约20年才能知道疗效,知道对生育有无影响。实际上,有时需要掌握患者终生的数据,因此,医疗数据需要保持百年量级的长生命周期。在这么长的周期里,需要适应医学技术和信息技术的发展变化,无论是数据的管理还是处理,都面临很大的挑战。
医院大数据的利用需求可概括为四个主要方面:临床诊疗、医学研究、医院管理、技术需求。
在临床诊疗方面,可利用大数据来支持临床诊疗辅助决策,帮助改进诊断和治疗的方法。比如个性化诊疗、疾病的早期诊断、对不良事件早期预警。现在的诊断往往是等到检查结果出来,看到了实体的占位的病变,或是通过病理检验得到了诊断,才确认疾病发生了。实际上,在疾病早期,很多情况下还看不到疾病时,通过一些不是那么直接的、多个结果的融合分析,就有可能对一些疾病进行早期诊断。
大数据在临床研究方面也有很多需求,比如疾病的相关因素分析、精准医学中的基因分析、疾病的生物标记物的筛选,这些研究能更好、更深入地认识疾病,以便于改进诊断和治疗手段。这样的医学研究对大数据有迫切的需求。
在医院管理方面,绩效评价、医疗质量的监管、大型医院的流程优化等方面,大数据都已经发挥了很大作用。在医疗的管理上,因为国外医保对于非预期的再住院有惩罚措施,所以医院对怎么预防非预期的再入院非常关注。通过大量的再入院人群的分析建立一个模型,当一名患者入院后,用模型评估一下其发生再入院的风险有多高,对风险高的患者提早进行干预,可以大量减少非预期的再入院,也就意味着为医院节省了费用。
前三个是应用领域的需求,还有一类是对大数据处理手段上的技术需求。比如病例的检索、专科专病数据库的构建、病历随访以及一些数据的整合分析工具,这些是医院对大数据共性的基础性需求。到目前为止,病历数据检索缺乏面向医护人员使用的灵活检索手段。医护人员反映很多数据查不出来,复杂的条件查不了,大量有价值的数据隐含在病历文本里,如对肿瘤患者需要提取其肿瘤分期的数据。诸如此类的问题是大量存在的共性需求。
中国医学科学院肿瘤医院胸外科早在“十五”“十一五”时期即牵头开展了全国食管癌规范化诊治监察网络平台的建设工作。作为国内最早建立的肿瘤专病大数据智能化信息网络平台,联网全国82家在食管癌临床诊治方面具有较大规模和较高水平的三级甲等医院,设立12个地区级分中心,采用规范化的数据标准和网络直报平台,累计录入食管癌的手术和综合治疗病例3.26万例,为全国食管癌诊治技术和模式的规范化做出了独特贡献。
“十二五”期间,在此前食管癌临床大数据网络建设和研究成功经验的基础上,国家癌症中心/肿瘤医院承担了国家科技支撑计划项目“基于癌症监测信息网络的肿瘤规范化诊治研究”和国家高技术发展(863)计划“恶性肿瘤大数据处理分析与应用研究”的任务,开展肿瘤大数据获取、存储、处理与分析的关键技术研究,构建肿瘤大数据中心和系统平台,应用大数据技术对肿瘤治疗过程中产生的海量临床数据进行处理与分析,形成以肿瘤单病种为主题的数据集。通过构建知识库及分析模型库,为肿瘤疾病的诊治提供决策支持。
截至2016年,项目已经由行业专家协商制定拟采集的数据内容及规范,编制统一的数据字典,结合我国广泛采用的医疗信息化系统特点,确定了包括电子病历、检验检查、处方医嘱、治疗计划、随访信息等在内的20个大项、400余个小项的采集规范。
英特尔为医疗行业用户对于大数据的应用提供强有力的技术平台支持。
目前,医疗大数据的研究和应用刚刚起步,众多的研究仍然处于实验阶段,存在着挑战。根据前述医疗大数据的特性,已有的统计分析、数据挖掘方法等成熟方法都是针对低通量、低容量、结果性数据。面对医疗大数据的过程性的特点,以及急剧增长的维度、记录数,如何扩展现有方法,提出新的统计分析、数据挖掘模型,已成为医疗大数据应用的技术难点。
作为计算创新的引领者,凭借出色的成本优势,以及支持TB-PB级大数据集的分布式存储、实时处理和查询应用,英特尔为医疗行业用户对于大数据的多维度、多层次应用提供强有力的技术平台支撑。
在英特尔大数据平台的总体架构下,针对医疗信息服务的数据和处理中心构成了医疗信息系统的重要环节。该系统的技术支持和处理能力决定了前端和终端数据收集的及时性和有效性,面向最终用户和监管部门提供信息的准确性和及时性,并支持超大规模的医疗数据分析。
从医疗信息服务后台系统所连接的前后端用户和数据流向来看,平台需要解决如下四个方面的问题。
第一,后端平台架构需要支持前端大量终端实时数据的及时采集、处理、存储、分析及展现。
第二,后端平台架构需要支持大规模终端用户接入来实时查看、分析、监控和处理实时业务。
第三,后端平台架构除了能够支持大规模前后端用户的接入和数据处理能力外,还需要有很强的灵活性,可以随着业务规模的增长动态扩充平台架构的支持能力。
第四,后端平台架构需要考虑业务支持和成本投入的高效性,同时需要结合运维支持部门的能力来进行支持架构的正确选型。
在整体解决方案中,医疗信息系统的大数据业务处理软件架构起着非常重要的作用。该系统充分利用底层软硬件架构来进行数据的采集、处理、存储、分析和对最终用户的数据呈现、业务处理支持等。
英特尔认为,医疗大数据通用平台的技术选型须考虑以下因素。
一是,为支持大规模终端和用户的接入,同时考虑成本投入回报及业务动态扩展时的支持能力,采用云计算技术来构建整体后台技术架构。
二是,超大规模终端的数据实时采集和处理已经超出现有关系型数据库的处理能力,需要采用当前比较成熟的大数据处理技术。
三是,医疗信息后端大数据平台需要综合处理结构化数据、非结构图形和图像数据、数据备份和恢复等,因此需要分布式存储解决方案来满足需求各异的数据存储和处理需求。
四是,医疗信息后端大数据平台根据云平台的特点、大数据和分布式存储的需要,来考虑数据中心网络接入和整体网络架构,灵活支持云计算对弹性网络的需要。在网络设计阶段,还需要考虑不同数据中心之间的业务分担、互备、业务迁移等需求。
五是,医疗信息后端大数据平台需要通过移动互联网和传统互联网接入大规模终端、各医疗节点数据和大量终端用户,平台的安全性至关重要。在安全性方案选型时,除了需要考虑传统数据中心所必备的防入侵、防攻击、数据安全等功能外,还需要结合云计算所带来的其他安全需求。
基于上述技术选型的考虑,英特尔设计了成熟的开源大数据处理方案,采用商用和开源的分布式存储解决方案yingtee来满足医疗信息系统大数据方案要求的存储高扩展性、高可靠性和低成本,并采用软硬件相结合的商用安全解决方案来满足医疗信息系统对防入侵、防攻击、数据安全等的安全要求。
英特尔的技术和理念优势在与联想大数据的合作中体现得异常明显。通过与英特尔全新的大数据可信分析平台——TAP的合作,联想让数据变得可操作,数据被整合到众多医疗健康解决方案中。据了解,TAP专为开发者和数据科学家而设,是提供面向医疗卫生及大健康行业的理想平台。它与联想大数据分析平台架构集成之后,可以更加有效地进行数据管理、协议提取、负载分配以及计算。
医院从管理、临床到科研都涉及医疗大数据应用。大型医院都将科研放在了较高的战略地位,主要有三方面任务:基础研究;通过临床验证,将科研转化为实质性的临床诊疗技术;将这些科研成果应用加以推广。
对于医务工作者,除了要完成常规医疗工作外,还要肩负强度很高的科研任务,无论是知名大专家还是基层的普通医务工作者,临床专业、影像专业、生物样本、基因测序等都需要科研。但现状是临床科研当中的数据利用存在重重障碍,亟待打破各种无形的数据壁垒。
在传统研究模式下,无论是提出科学问题,还是针对具体问题,收集、分析研究数据都是一项耗费大量人力、财力和时间的工作,严重制约科研成果的产出效率。大数据不是替代医生进行科研,也不是替代传统统计分析人员的工作。大数据平台的目的是改变以前科研工作的方式,降低临床科研的壁垒。
临床科研是个比较繁杂的过程,如何节省中间环节让医生能够有更多时间专注于研究?如何借助目前的大数据资源让医生能够高效地获得高质量的临床数据?如何帮助医生实施数据分析?如何协助临床医生消除科研壁垒、高效利用临床数据?
实践证明,在数据维护、可行性验证、数据采集、数据清洗、数据锁定、数据分析等领域,大数据工具都可以被用来帮助医生开展临床科研工作。
用大数据来解决科研壁垒的前提是,医院信息化的进展程度以及大数据技术的成熟度。目前,国内大多数数据公司或厂商都是采用已有成熟的、开源的技术手段解决问题,整合产品。由英特尔提供的大数据平正是其中的翘楚。
目前医院信息化进入到了一个比较好的阶段,从业务系统的完善到数据中心的建立,实现了数据的高效收集,为大数据应用奠定了良好基础。此外,云存储等新技术的革新也大大降低了存储数据的成本。这为大数据工具的应用奠定了良好的基础。
首先,借助英特尔大数据平台,医院可以把临床非结构、结构化数据加工组合成可用于计算的数据粒度,让临床使用数据触手可及。其次,医院可以利用英特尔大数据技术和已有数据的特征分析、相关分析,协助临床医生进行科研问题的提出和假设,进行临床科研选题,优化目前临床科研的研究模式。爱因斯坦曾说,“发现一个问题比解决一个问题更重要”。以往大多都是临床医生依据自己的经验先提出问题再验证,这种模式结果往往不可靠。现在在数据分析的基础上发现问题,有了数据支持,课题更能持续进行下去。
再次,英特尔可以提供辅助分析工具,让数据得到及时的分析。在整个研究过程中可以基于阶段数据分析预测产出结果,实现科研数据质量的环节质控,避免到课题结束时才最终做一次统计分析的风险。
总之,随着以英特尔为代表的大数据科研平台的建设,研究数据获取方式将得到极大的改变,医学研究的很多重要环节也可以提高效率和质量。而依托大量的规范化临床数据资料,利用数据分析、数据可视化等技术,能够更加直观地展示疾病诊疗现象,从而帮助科学家提出创新的科学问题和假设。并且能够随时提供大量的数据帮助科学家去设计、完善研究方案,形成研究结论,从而提高成果产出效率。
英特尔搭建平台,面向最终用户和监管部门提供信息的准确性和及时性,并支持超大规模的医疗数据分析。