文/姜疆
医疗大数据:以“提质”促进“增效”
文/姜疆
探索提高医疗大数据的处理与分析质量,不仅对于疾病治疗、新药物研发有重要意义,还将对经济、社会、科技等多方面产生积极影响。
党的十九大报告明确指出,中国特色社会主义进入新时代,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。
当前,广大人民群众在健康方面的需求更加迫切和多元。高效利用大数据技术,充分挖掘医疗和健康大数据的价值,无论对于疾病治疗、临床实效研究、新药物研发,还是对于基础医学、公共医药卫生等,都有着至关重要的意义,不仅有利于扩大医疗资源供给、降低医疗成本、提升医疗服务运行效率,也对国家经济、社会、科技等方方面面产生积极而深远的影响。
和其他领域的大数据一样,医疗大数据的核心问题是数据的处理与分析。而如何提高医疗大数据处理的质量则是现在和未来我们面临的一项重大课题。
数据每天都在源源不断地产生,如今,全世界健康医疗数据已经达到了150EB,而且每73天就翻一倍。IDC预测,至2020年,医疗数据量将达40万亿GB,是2010年的30倍。同时,数据生成和共享的速度迅速增加,数据积累加剧。
在我国,随着经济社会发展与人民生活水平的提高,居民的就医和健康需求不断增加,同时,信息化建设持续推进,相关技术创新不断升级,医疗卫生领域积累了规模可观的“大”数据。
目前,我国医疗大数据主要由医院临床数据、公共卫生数据和移动医疗健康数据三大部分组成,各数据端口呈现出多样化且快速增长的发展趋势。
这首先要归功于我国的医疗卫生信息化建设,在近几年里得到了长足的发展。各医院从单纯以财务为中心的信息系统发展到以病人为中心的信息系统,各地相继建设了区域卫生信息平台,建设了数据中心。我国目前拥有了涵盖90余万家医疗机构的信息库,辐射到了疾病报告与健康监测等各个领域。目前全国超过20%的医院都拥有病人、电子病历为核心的一体化管理系统。
如今,医院信息系统(HIS)、电子病历系统(EMR)、影像采集与传输系统(PACS)、实验室检查信息系统(LIS)、病理系统(PS)等,甚至包括手术管理系统、耗材及物流管理系统,等等,每日产生大量的数据。
与此同时,各种医疗穿戴设备企业、基因检测机构、体检单位也都投身于医疗和健康大数据的搜集应用中来,为我国医疗和健康大数据行业的发展奠定了基础。
尤为值得一提的是可穿戴智能设备的普及。2010年我国可穿戴智能设备的市场规模仅为0.9亿元,到2015年市场规模就迅速增加到了107.9亿元,由此可见,可穿戴智能设备的普及速度极为惊人。可穿戴智能设备的普及,可以实现大规模、实时、持续收集患者数据,从而助力医疗大数据的大发展。
更为重要的是,相关信息技术的进步,不仅使健康医疗大数据的存储、分析、应用成为可能,并且进一步丰富了健康医疗大数据的内容。
支撑健康医疗大数据的IT技术的进步主要为:数据融合、数据挖掘、图像处理识别、机器学习、自然语言处理、数据可视化、人工智能等技术取得进步。例如,数据融合可将多个医疗子行业的数据整合分析以产生新的更加精确、连续、有价值的信息。
当前,大数据的快速增长已经超出了传统的信息处理能力,因此医疗大数据需要不断引入新技术、新概念,提升对运行数据的分级管理和分析能力,为管理者和临床医务人员做出准确的工作决策提供依据。
对此,来自国际方面的医学专家建言:第一,确保数据的质量、采集、和谐、处理、可视化和互操作性;第二,利用计算工具来改善数据存取,促进数据分析;第三,在决策支持上应有容易使用的、直观的设备与兼容的格式;第四,对于个人医疗,使用能够跟踪患者信息并快速提供反馈的工具;第五,制定并落实隐私保护和数据分享政策;最后,健康数据很多,但健康数据分析人员数量不足,应加强相关培训与教育。
医疗健康大数据与其他领域的大数据一样,拥有4个重要特征,即Volume(大容量)、Velocity(快速更新)、Variety(多类型)和Value(高价值)。
除了具备大数据“4个V”的特点之外,医疗大数据还有多态性、时效性、不完整性、冗余性、隐私性等特点。多态性指医师对病人的描述具有主观性而难以达到标准化;时效性指数据仅在一段时间内有用;不完整性指医疗分析对病人的状态描述有偏差和缺失;冗余性指医疗数据存在大量重复或无关的信息;隐私性指用户的医疗健康数据具有高度的隐私性,泄漏信息会造成严重后果。
谈到大数据,业界仅仅关注“4个V”是不够的,重要的是针对“4个V”后面用什么新技术解决数据的处理和分析问题。
当今之所以叫数据时代,或许是因为数据已经够多了,但是人类的分析数据能力还远远不够。美国Gartner公司的研究表明,人类有史以来90%的数据是计算机在最近两年产生的,其中只对1%的数据进行了分析。
IBM副总裁兼沃森健康首席创新科学官Shahram Ebadollahi指出,这些数据已经不能再使用传统的编程方式进行数据分析,我们必须使用更自动化的模型与方式和数据进行沟通。
Shahram Ebadollahi认为,眼下,随着人工智能已进入认知计算时代,通过机器学习等算法,可以使得计算机更加理解各类健康医疗大数据,如基因数据,理解医学影像数据等,通过不断加入的数据可以学习数据发展和结局之间的关系等,并能使用友好的界面与人进行交互。未来的医疗会以知识和数据同时作为驱动点,从而达到缩小知识转化的鸿沟,以及利用数据和算法提供出真实世界的证据。
大数据除了带来存储、管理、处理数据的挑战,也带来了发掘数据中新的价值的机遇。目前已经有多个行业已经利用大数据改善业务,例如金融业、零售业、生命科学、环境研究。在医疗和健康领域,医疗大数据的发展可以弥补和解决诸多问题(见表)。
高效利用大数据技术,充分挖掘医疗和健康大数据的价值,不仅对于疾病治疗、临床实效研究、新药物研发,等等,有着至关重要的意义,并且还将对整个国家的经济、社会、科技等方方面面产生深远的积极影响。
我国政府对健康医疗大数据的发展不断加大支持力度。2016年6月,国务院办公厅印发了《关于促进和规范健康医疗大数据应用发展的指导意见》,将健康医疗大数据应用发展纳入国家大数据战略布局,提出到2020年,初步形成健康医疗大数据产业体系等目标,并从夯实应用基础、全面深化应用、规范和推动“互联网+健康医疗”服务、加强保障体系建设等四个方面部署了十多项重点任务和重大工程。
之后,国家卫生和计划生育委员会统一牵头组织组建了以国有资本为主体的三大健康医疗大数据集团公司。
国家卫生和计划生育委员会副主任金小桃指出,健康医疗大数据是涉及到国家战略安全、群众生命安全以及隐私保护安全的重要战略性资源。健康医疗大数据以其广泛的应用性和特殊性未来将对经济发展产生重大贡献,必将成为我国国民经济的重要支柱产业。
前瞻产业研究院发布的相关报告显示,我国健康医疗大数据行业现在尚处于起步阶段。根据行业生命周期理论,未来我国健康医疗大数据行业增长空间较大,这一蓝海市场有待进一步挖掘。
从市场需求增长率来看,近几年健康医疗大数据行业市场增速超过20%,市场增速较快。随着应用领域的不断深入与增加,我国健康医疗大数据行业市场规模将会实现快速增长,预计到2020年,我国健康医疗大数据行业市场规模将突破800亿元。另一方面,从市场竞争来看,布局健康医疗大数据的企业数量不断增多,行业竞争格局初步成型。
同时,从技术变革来看,数据融合、数据挖掘、生物检测技术正在发生快速变化,健康医疗大数据行业技术更新换代速度较快。综合来看,目前我国健康医疗大数据还属于比较新颖的概念,仍有一些技术上的难题和障碍。
中国工程院王辰院士指出:开展健康医疗大数据的研究,尽快实现数据集成、管理、分析、共享和价值呈现,已经成为迫在眉睫的首要任务;开发转化大数据的内在价值,通过互联网合理共享,也成为促进优质医疗资源下沉、医学智慧辐射到基层,助推分级诊疗实现新业态的重要任务。
发现蕴含在历史数据中的从前未知的模式,可用来预测一种疾病什么时候可能会突然变得格外地危及生命。通过这些模式的计算,能够建立可以预测患者何时处于将要转为高风险状态的计算机模型。这样的模型还是初步的,还需要进一步开发和测试。
获得当前和以往的患者信息,是用数据分析来预测未来医治情况的关键要求之一。旨在发现至关重要隐含模式的健康数据分析(通过所有的噪声找准明确的信号)需要尽可能丰富的数据资源。
利用先进的数据分析可以揭示蕴含在数据中的确定模式,以用来发布危险提示信号。由于最初并不知道哪些危险信号可能出现,因此需要看到模式是否会自行出现。这就需要一个全新的数据分析能力。
数据分析是大数据的核心问题,而在数据分析之前,要经历数据的清洗、标准化、结构化和存储等环节才能达到分析的程度。
与其他医学领域的权威和专家一样,王辰院士非常强调要注重大数据处理的质量。王辰院士同时亦指出,为了更好地推动医疗大数据的发展,首先要注重数据的来源和采集的质量。
数据反映的是“事实”,但是数据又不一定是“事实”。数据的这个特点,健康医疗大数据体现得尤为显著。比如,医生在给患者诊治的时候,医生对病的“事实”认识是不一样的,并且需要记下来。而从“事实”到医生做判断,是需要一个过程的。在这个过程中,有些数据可能就丢掉了,有些数据可能是误解。既是事实,又不是事实,这就是大数据的特点。
以往,为了某种研究目标,人们去收集一些有质量控制的数据,目标是很准确的。但是到了大数据时代,情况就不一样了。数据不是由人来把控的,在不真实数据中,即便有再好的模型和算法,也算不出有价值的结果。
大数据的来源是多元的,质量是不受控制的,有些数据是拿来也不可用的,比如:不可及的碎片化数据,可及但又是错误的数据,可及、正确但是残缺、无法修补的数据。
王辰院士明确指出:数据的质量建立在源头的规范上,因此,如果要对数据做分析,来源必须可靠,同时,对数据的采集方法也要有讲究,大数据不是“紊乱”数据,要建立标准化、规范化的原则,才能使数据变得能够分析和可用。
实际上,数据的采集非常困难。医疗数据通常来自“院内”和“院外”,“院外”数据包括线上和线下采集。
“院内”是“信息孤岛”,因为怎么把院内数据打通,现在没有明确的解决方案。在“院外”方面,能用什么方法与服务去采集到数据,也还在艰难的探索当中。
业内人士表示,线上会有挂号需求、陪诊需求、问诊需求等,但是终究这样的数据采集质量,包括采集的维度,都是极为有限的。像电子的健康档案、体检报告,这样级别的数据,对于线上来说都是极为困难的。
即便是这样数据的质量,最终做健康管理质量或许是够的,但是,对于更高一层级的,比如说,做更深度的医疗服务,再往上说,作为能够提供给医生科研的依据,像这样的数据就达不到要求。
关于数据采集,业内人士表示尽管做出了框架,但是没有人往里面填数据,也没有往上上传数据。如果希望用户自发上传,但是用户有什么动力来上传他的数据呢?尝试为用户提供更多的基于数据服务来驱动他上传数据,成本非常高。所以数据采集是目前一个非常大的难点。
业内人士呼吁,应进一步推动医疗服务机构信息化建设,为医疗数据的收集提供采集入口。实施健康医疗中国云服务计划,促进“互联网+健康医疗”的创新发展,积极探索开放健康医疗数据资源的途径和机制。
医疗大数据的发展可以弥补和解决诸多问题
毫无疑问,数据的搜集必须遵循严格的规程,包括传统的数据收集方法和不断改进的统计分析方法。现实中,采集的很多数据,尤其是在线收集的数据,局限性太大,这样的数据必须按照严格的规定搜集、具有精准性,才能有价值。
行业专家指出,问题的解决方案是:综合使用所有数据分析方式,包括结合传统数据和统计方法,加入新数据输入结果和新算法。这样才会获得最精准的结果。所以,重要的是,在将传统的医疗和科研数据的存储和分析处理方法与大数据结合使用的同时,不断引入可用的新数据,并且,使受众能够广泛共享和浏览数据。
试想,如果将所有医疗与患者的数据向数以千计,甚至数百万具有创新思维的群体,以及相关人员开放,那样会呈现出巨大的经济和社会效益。可是,知易行难,不在于大家看不到数据开放共享的好处,而在于以下原因。
一方面,很多业内人士掌握专利信息数据,极具竞争力,与现有和潜在的竞争对手分享这些信息会令他们极度不安。
另一方面,健康医疗数据大多数是“能够识别公民个人身份和涉及公民个人隐私的电子信息”。这样的数据一旦开放共享,必然伴随着个人身份和隐私信息泄露的风险。大多数国家的卫生保健机构都不公开患者的健康信息,在西方国家,披露这些数据可能会触犯法律法规。
行业专家和有关人士长期呼吁推进健康医疗大数据有条件地开放共享,以提升健康医疗服务效率和质量,不断满足人民群众多层次、多样化的健康需求。
2016年6月,国务院办公厅印发的《关于促进和规范医疗大数据应用发展的指导意见》提出:到2017年底,实现国家和省级人口健康信息平台以及全国药品招标采购业务应用平台互联互通,基本形成跨部门健康医疗数据资源共享共用格局;到2020年,建成国家医疗卫生信息分级开放应用平台。
全国政协委员、复星集团董事长郭广昌建言,在确保数据安全的前提下,加快推进恶性肿瘤、高血压等领域的健康医疗大数据开放共享,以提升大数据的采集和分析挖掘能力,切实发挥大数据在有关疾病精准防治中的作用。
还有业内人士呼吁全面加快医疗大数据聚合平台的建设:应大力推进健康医疗数据集聚,加快国家人口数据库、电子健康档案、电子病历相关健康医疗服务数据整合,形成国家健康医疗大数据中心;建立国家级慢病、传染病等健康医疗专项疾病大数据中心……
可喜的是,近年来,我国医疗云平台建设步伐加快。全国各地各类医疗云平台布局全面、层次丰富,在建设主体和运营模式上也形成了政企合建、市场运营的良好局面。我国智慧医疗云平台的构建主要是以人口信息数据库、电子病历数据库和电子健康档案数据库等三大数据库为支撑,并通过平台支持公共卫生、计划生育、医疗服务、医疗保障、药品供应和综合管理等六大类业务应用,正逐步形成国家、省、地市和县的四级区域人口健康信息平台。
特别需要注意的是,没有新的数据治理方式,解决不了数据共享问题。现在是社会化的数据采集、分享方式。原有的自给自足的数据治理方式,必须采用新的数据治理方式。
中国科学院陈润生院士就指出,个人医疗健康信息的激增、医疗数据互联融合的发展趋势,对隐私安全和数据质量提出新的挑战,对医疗健康大数据进行治理必然引发医疗行业各机构的共鸣。技术的进步与发展为医疗健康大数据治理提供可能,但治理意识的培育和强化、参与主体的能动性才是实现医疗健康大数据治理的根本保障。