廖国兴
全球最大的互联网公司谷歌分别于2003年、2004年和2006年发表了三篇大数据处理的核心论文,即《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters 》以及《Bigtable: A Distributed Storage System for Structured Data》。随后,IT技术社区根据这三篇论文进行了开源实现,从而诞生了以HDFS分布式文件系统、Map Reduce模式和Hbase数据库为基石的大数据处理框架。Hadoop的出现标志着大数据时代的开始。该大数据处理框架凭借其自身的优势被许多互联网企业所采用,并逐渐在其他行业流行起来。随后大数据技术得到了前所未有的发展,涌现出了流式数据分析、机器学习、深度学习、图形图像分析处理等数据分析技术及相关产品。许多公司,尤其是互联网公司,通过对大数据技术的应用,极大地推动了业务发展。比如一些电子商务网站通过分析用户的商品浏览行为以及购买数据,精准地勾画出用户的购买偏好,从而挖掘出客户的潜在需求并且精准地为客户推荐合适的商品,大大提升了网站的营业额。再如,一些在线付费视频网站,通过分析海量的观影记录,判断其感兴趣的视频类型、价格敏感度以及依赖程度,从而向客户推荐其最有可能观看的影片,并且针对不同的客户进行差别定价,有效地提升了视频观看量,为网站带来了巨大的收入。
国家对医疗大数据的应用非常重视,2016年,国务院办公厅发布了《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》。该意见明确指出,健康医疗大数据是国家重要的基础性战略资源[1]。本文试图系统地分析将流行于互联网行业的大数据分析技术应用于健康医疗数据将会给医疗机构带来什么样的机遇,并结合国内大多数医疗机构当前的情况,分析其应用大数据分析技术时所面临的挑战。
1.1 提高诊断的质量与效率,减少诊断错误 医疗机构每天都要为成百上千的病人提供诊治服务,对于一些名气比较大的医疗机构,日接诊病人数甚至过万,医务工作者需要承受巨大的工作强度与压力。在这种情况下,诊断的质量很难得到保障,并且误诊率很有可能随着工作强度的增加而上升。此外,医务工作者在很大程度上都是凭借自己所积累的经验对病人进行诊断,不同的医务工作者由于经验上的差异,很有可能对同一个病人产生不同的诊断结果,诊断结果的偏差,很有可能影响病人的治疗效果。通过对大量确诊病例所搜集的数据(如医学影像、医生的记录、化验检验数据,以及其他数据)运用机器学习以及图像分析等大数据技术,获取与该病种相关的特征数据,从而在以后的诊断过程中,通过病人的检查数据与疾病的特征数据进行比对,提高诊断的质量与效率,减少病人等待时间以提升就诊体验, 并且可以使诊断的过程更加标准化,同时有效地减少误诊率。
1.2 精准用药,提供个性化诊疗方案 通过使用大数据,个性化的用药方案可以用于临床实践[2]。当前,各大医疗机构经过多年的运营,积累了大量的电子病历。同时国家也大力支持数据的共享,2016年6月8日,国务院常务会议讨论确定了发展和规范健康医疗大数据应用的措施,以互联网+医疗更好满足群众需求。会议确定了健康医疗数据共建共享、制定完善法律法规和标准等措施[3]。此外,社会上涌现了大量的从事生物基因相关公司,这些公司坐拥大量的基因数据。医疗机构可以通过分析大量的内部和外部的健康医疗数据,如个人病史、家族病史,并结合相关的基因数据,制定个性化的诊疗方案,实现精准诊疗与精准用药,提高治疗的精度、效率及效果。
1.3 疾病早期诊断与报警 大数据可以实现疾病早期诊断,这可以实现改善治疗和达到更好的治疗效果这一临床目标[4]。区域医疗联合体的建设,加上区域健康数据共享,使得大数据分析在区域内疾病的早期检测和预防成为可能。区域医疗联合体内的带头医疗机构可以凭借大数据分析,准确取得相关疾病早期的特征以及病情演变模式,通过将区域内的社区卫生机构将所获取的检验数据与这些特征与模式进行比对,实现早期的诊断与治疗,这对于大规模流行病预防与报警尤为重要。此外,可穿戴智能设备的普及率越来越高,这些设备可以实时收集用户的行为感官数据并上传到相关的机构。通过分析这些感官数据和基因检测数据,从而筛选出高危群体,并针对高危人群、个体易发疾病进行健康教育或提供防止疾病的协助,实现“未病”先治、轻治[5]。
1.4 复杂病种的研究与学习 对于复杂病种的研究来说,医学研究人员需要分析大量的案例与相关的文献,而这些案例与文献里面又包含了海量的检验数据、医学影像与视频数据以及基因数据,同时医学研究人员还需要研究各个因素之间的相互联系。这类工作需要一个研究团队花费大量的时间与精力,并且由于人类自身的限制,很难从海量的数据中观察出细微的差别,更不用说将所有与该病种相关的因素一一找出来。比如医学影像数据分析,由于人类视觉上的限制及图像分辨率等原因,医学研究人员很难在大量的影像中找出全部的共同点或者差异点。但是,大数据分析,确切的说是机器学习和图形图像分析等技术,可以实现人类无法实现的分析精度、速度以及广度,从而可以为医学研究人员的研究工作提供极大的帮助。
1.5 降低治疗成本 当前在医疗费用支出增加和老龄化步伐加快的背景下,医保基金正面临越来越大的支付压力。《中国医疗卫生事业发展报告2014》曾预测,2017年城镇职工基本医疗保险基金将出现当期收不抵支的现象,到2024年就将出现基金严重赤字[6]。高昂的医疗成本给国家和个人带来了沉重的负担。国外也有类似的情况,美国为了减少机构和个人在医疗方面的支出,颁布了《平价医疗法案》(Affordable Care Act, ACA),通过为美国公民提供扩大医保覆盖范围和权利,以及扩大治疗与治疗效果(而不是治疗的次数)相关的奖惩范围[7],将之前的按治疗次数付费转变为按治疗效果付费。在这种情况下,各医疗机构面临着如何降低医疗收费的压力。通过大数据技术的应用,医疗机构可以实现疾病早期防治与诊断,在疾病的初期阶段就实施相应的干预手段。而且大数据技术使精准诊断与精准治疗成为可能,通过高效费比的治疗方案与对病人用药遵从情况的监控以提高治疗的效果,同时消除过度医疗、无效医疗等情况,减少病人就诊的次数,有效地减少病人在治疗方面的支出,以及在来往医院上的交通时间及费用上的支出。
1.6 构建知识型医疗机构 美国医学会(US Institute of Medicine)的一项研究表明,每年有高达98 000名病人死于医疗事故[8],而最近的一项研究表明,在美国,因医疗事故而导致的实际死亡人数可能更高,达到440 000[9]。这些报告指出,导致这些事故的其中一个关键因素就是在诊疗过程中缺乏相关的信息。虽然大多数医疗机构都有相应的医疗信息系统支撑其日常运作,但是其所提供的信息相对简单且有限。而解决诊疗质量和病人安全的问题所需要的信息更为复杂且广泛。此外,随着医疗科技的不断发展,各种医疗相关的知识量呈指数级上升,而医务人员每天需要花大量的时间与精力来诊治病人,这使得他们无法学习最新的医学知识。通过运用机器学习算法来分析大量的类似病例,并与分析大量的医疗文献相结合,从成千上万种治疗组合方案中选取效果最佳的方案,为医务人员在整个治疗流程中的每个步骤所做的治疗决策提供支持。例如,在当前阶段,都有哪些可用的治疗方案,每个方案项需要多久才能生效,死亡率是多少,有哪些副作用,治疗的成本是多少等等。将大数据分析所获取的信息嵌入到治疗流程中的每一个步骤,使得医务人员在病人的诊治过程中得到必要的信息支持,这将大大地提升诊治效率,减少失误,同时减少医务人员学习新知识的压力。
2.1 管理层支持 对于一个机构或组织来说,大数据的应用是一个庞大的工程,需要大量资金与人员的投入。将大数据技术应用于医疗行业,不仅要涉及信息技术的规划建设与实施,也涉及到医务方面的规划和改革,如诊疗工作流程的改进,并协调好两者之间的关系,使之形成合力。这就要求高层管理者具有清晰的战略,采用自顶向下的推进方式,确保大数据战略的实施落地,并对整个过程进行严格的把控。因此,医疗机构需要在高层管理团队中设立相应的职位,统领和协调各方面的资源,同时为大数据应用的实施建立一个具有弹性和敏捷性的组织架构,保证来自不同部门的团队和人员有效地融合在一起,为大数据技术的落地共同努力。除此以外,将大数据分析的结果应用于日常的诊疗运作当中,势必会带来流程上的改变。管理层需要说服医务人员接受这种改变,并让他们相信大数据的应用不是要取代他们,而是帮助他们更好地开展诊疗工作。
2.2 数据的采集与标准化 数据是大数据分析的基础,没有数据,大数据分析就无从谈起。数据是客观事实的数据化描述,对于医疗行业来说,数据就是对某种疾病及其成因的描述。数据的质量,即数据对客观事实的准确及忠诚的描述程度,直接决定了大数据分析结果的正确性和有效性,从而决定其对诊疗效果的有用程度。这就要求医疗机构具有强大的数据采集能力,最理想的状态就是医疗机构将其内部诊疗过程的操作进行数据化,并且严格把控数据的质量,力求在源头上消除噪音数据。同时,医疗机构还需要对数据的采集进行标准化,缺少标准化的数据不仅仅在数据的传输过程出现问题,同时也影响后续的分析工作,这就要求医疗机构对诊疗流程和操作进行相应的标准化工作。此外,大数据分析还需要医疗机构具有外部数据的采集能力——来自于各种可穿戴智能设备的数据,生物基因机构的基因数据,其他医疗机构产生的诊疗数据,甚至是来自于政府公共服务的数据,如天气数据、人口数据等。
2.3 数据的安全 数据的安全尤为重要。数据的泄漏不仅仅给医疗机构的声誉带来负面的影响,同时也会打击公众将自己的健康数据分享给医疗机构的积极性。医疗保健数据具有高度的敏感性。对于医疗机构来说,这些数据是其多年来的经验与知识的沉淀;对于个人来说,这些数据涉及个人隐私。因此,确保数据的安全对医疗机构来说尤为重要。更重要的是,医疗机构构建大数据分析环境后,相对于原先仅有的生产运作型环境,系统的安全边界被大大的扩宽,随之而来的就是安全风险的增加,例如受攻击面的扩大。所以,医疗机构在实施大数据应用之后,也需要在安全方面投入相应的资源。
2.4 数据的共享与集成 随着我国医疗大数据的发展,可以预见的是,医疗机构之间,医疗机构与第三方数据公司(如生物基因公司)之间,以及医疗机构与个人之间的数据共享与交互的频率更高,数据量更大。这要求医疗机构打通数据实体之间的传输渠道,在保证数据安全的前提下提升传输的效率。与此同时,将来自不同渠道的各类数据进行高效的集成且维护数据的准确性与客观性,也为医疗机构带来的新的挑战。
2.5 数据分析平台基础的建设 大数据分析的应用需要医疗机构在IT基础设施建设方面投入大量的硬件及软件资源。大数据具有数据量大、数据种类多、数据生成和处理速度快等特点。当医疗机构提升数据的采集能力后,大量的数据从众多数据源快速地流入数据分析平台,这些数据包括检验数据、医嘱、诊断记录、医学影像和视频、可穿戴智能设备的数据及基因数据等结构化、半结构化的和非结构化的数据。这就要求所建设的基础设施平台能不仅能够有效地存取这些数据,还要求其具有快速的分析处理能力。
2.6 人员与技术 当前情况下,大部分医疗机构的IT人员还是停留在医疗信息系统以及相关IT设备的维护上,并且有部分维护的IT业务外包给第三方公司,信息技术部门的相关人员技术实力相对薄弱。大数据分析所采用的技术与传统的信息系统及IT设备维护所需的技术有很大的差别。一个完整的大数据分析技术团队涉及需要基础设施平台建设与维护人员(负责存储、网络、主机、操作系统、虚拟化等技术),数据工程师(负责数据的采集、传输、清洗、集成、数据分析软件的运维等),数据科学家(负责分析算法、建模、编程、分析、结果的解读与展示),以及来自相关部门的医学专家等。在这几类人员中,数据科学家的角色尤为重要,他是具有多学科的知识复合型人才,所覆盖的知识领域包括计算机编程、数学、统计分析以及医学等。数据科学家不仅仅是整个大数据分析团队的总架构师,而且他作为IT技术人员、医疗专家、高层管理人员以及医务人员之间桥梁,需要具有极强的沟通能力。对于医疗机构来说,如何获取与培养相应的人才,提升相应的技术水平,并且让来自不同部门的人员一起高效的协同工作,这是一个很大的挑战。
作为当前最热门的信息技术,大数据分析对医疗机构带来的机遇是非常大的。成功地实现大数据分析的应用,将医疗机构的运作从经验驱动型转变为数据(或知识)驱动型,对医疗机构的改革将产生深刻的影响。虽然大数据为医疗机构带来巨大的优势,但是我们也必须清醒地认识到,大数据分析技术的落地与应用是一项庞大的工程,需要大量技术和资源的投入,同时也面临巨大的挑战。我们必须立足于当前医疗机构的实际情况,找出切实有效的大数据落地并产生效益的途径。
参考文献
[1] 国务院办公厅.国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见(国办发〔2016〕47号)[EB/OL].(2016-06-24).CORRIGA JM.http://www.gov.cn/gongbao/content/2016/content_5088769.htm.
[2] CHAWLA NV, DAVIS DA. Bringing big data to personalized healthcare: a patient-centered framework[J]. J Gen Intern Med, 2013,28(Suppl 3):660-665.
[3] 21世纪经济报道.国务院力推医疗大数据应用,将建互联互通四级信息平台[EB/OL].(2016-06-09).http://www.gov.cn/zhengce/2016-06/09/content_5080759.htm.
[4] JEE K, KIM GH. Potentiality of big data in the medical sector: focus on how to reshape the healthcare system[J]. Healthc Inform Res, 2013,19(2):79-85.
[5] 36氪研究所.医疗大数据行业研究报告:全景数据浪潮,智能医疗曙光[R/OL].(2016-08-09).http:www.doc88.com/p-9468928682584.html.
[6] KOHN LT,CORRIGA JM.中国社会保险发展年度报告2015[R/OL].(2016-08-22). http://www.drugnet.com.cn/Home/DetailsPage/31393.
[7] NATARAJAN P,FRNZEL JC,SMALTZ,FD. Demystifying Big Data and Machine Learning for Healthcare[M].CRC Press,2017:132.
[8] KOHN LT,CORRIGA JM. To Err Is Human: Building a Safer Health System[M].National Academies press,2000.
[9] JAMES JT. A New, Evidence-Based Estimate of Patient Harms Associated with Hospital Care[J]. J Patient Saf, 2013,9:122-128.