汪陈应,李佳,邬小军
(中国人民解放军后勤学院卫勤教研室,北京市 100858)
大数据时代生物医学决策支持模型的创新
汪陈应,李佳,邬小军*
(中国人民解放军后勤学院卫勤教研室,北京市 100858)
大数据已成为生物医学行业研究的热点。笔者以生物医学中的大数据为切入点,提出并对比分析了大数据背景下三类生物医学决策支持模型,最后阐述了生物医学决策支持面临的三大挑战,即生物医学数据隐私保护与大数据共享要求高的矛盾,生物医学数据的特殊性与大数据处理能力不足的矛盾,医疗机构狭隘的数据保护与大数据平台要求的矛盾。
大数据;生物医学;决策支持
【DOI编码】10.3969/j.issn.1672-4232.2015.04.006
大数据已经成为当前各界关注的焦点[1]。通常,大数据是指无法在可容忍的时间内,用现有信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。近年来,随着基因的一代测序、二代测序、各种医学成像技术等的发展,大大加速了生物医学领域数据的产生,给生物医学领域的决策支持模型带来了新的挑战。
1.1第二代DNA测序技术产生了碱基序列大数据
第二代DNA测序技术也叫新一代测序、高通量测序,可以一次对几十万到几百万条DNA分子进行序列测定,每小时能够完成数以亿计的DNA碱基序列的测序,产生约10TB(1TB=1012B)的数据。而目前亟待解决的问题在于,测序仪产生的海量数据没有与之相适应的有效的二代测序结果分析工具和数据管理系统,这给科研人员和二代测序技术的普及造成了障碍。
1.2医学成像技术产生了医学影像大数据
随着CT成像、磁共振成像、超声成像、核医学成像等技术的发展,医院诊疗工作越来越依赖于现代化的检查检验结果,随之而来的是医学影像数据的海量增长。尤其是医学影像存储于传输系统(PACS)的发展与广泛应用,各大医院的各类医学影像数据已经向PB(1PB=1015B)级迈进。另外,医学影像数据的复杂性、异构性和保存周期长等特点,对当前的数据管理和分析系统都提出了巨大的挑战。
1.3健康管理系统产生了电子健康档案大数据
健康管理从服务对象的层次分为:面向社区的健康管理和面向个人的健康管理。与之相对应,电子健康档案也区分为社区电子健康档案和个人电子健康档案。两者的关系是:个人电子健康档案是基础,包含个人所有的健康信息;社区电子健康档案是汇总,是与区域疾病防控、区域医疗服务等相关的健康信息。首先,电子健康档案记录的是人或者一个区域长时期的健康数据,具有持续时间长、大量增长的特点;其次,由于电子健康档案采集的卫生机构和健康状况检测设备的差异,导致档案数据格式复杂,很难集成融合;第三,随着时间的推移和医学的发展,导致常规检测指标和参考标准发生变化,从而造成健康档案数据模式也不断更新完善。电子健康档案的特点对数据存储、共享、查询和分析效率都提出了更高的要求。
1.4生物医学事业快速发展产生了生物医学文献大数据
生物医学事业发展的标志是生物医学涉及的学科增多,分支也越来越多,生物医学知识也随之剧增。据统计,互联网中的信息资源超过30%是生物医学信息;全球生物医学类刊物近3万种,每年发表论文200多万篇,并以7%的速度递增。另外,生物医学信息是医学界知识更新的主要来源和重要工具。这就对生物医学信息存储和检索效率提出了较高的要求。
在总结现有理论和方法的基础上,充分考虑大数据环境所带来的管理方法创新,提出生物医学领域三类研究方法的决策支持模型,如图1。
传统的卫生统计方法是将数理统计的原理和方法应用到卫生领域,通过设计、收集、整理和分析,获得可靠结果的过程;数据挖掘方法是对大量观察到的数据进行分析,以便从中发现事先未知的联系和规律的过程;大数据研究方法旨在从海量复杂数据中抽取知识和观点。
卫生统计决策支持模型与其他两类模型的显著差异:一是数据尺度的差异。卫生统计是依据决策的精度决定样本含量,通常是几十到几百个体;而数据挖掘经常会面对MB至GB级的数据库,大数据方法处理的数据量更大,会达到TB至PB级。二是数据获取的差异。卫生统计处理的数据往往是针对特定的问题而采集的数据,在采集数据之前一般有严谨的设计,然后分析数据解决特定的问题,属于本位分析;而数据挖掘和大数据所使用的数据原本就存在的,可能是为了其他目的而采集的,是属于数据分析的次级过程。三是数据形态的差异。卫生统计处理的数据是完全结构化的数据,而数据挖掘可以处理结构化和半结构化数据,基于HL7标准的医疗文书数据挖掘就是半结构化数据;大数据方法处理的数据更是多态而且更新迅速,有结构化的表,半结构化的网页,非结构化的文字、图片、音视频等。四是数据分析的理论、方法及工具不尽相同。卫生统计基于的理论和方法是假设检验、关联性分析、回归分析等统计学方法,数据处理工具是成熟的也较为简单的电子表格、SAS、SPSS等工具;数据挖掘基于的理论和方法是聚类分析、分类分析、关联规则分析等数据挖掘与知识发现理论和方法,数据处理工具是数据库管理系统等大型数据处理软件;而大数据处理的理论和方法是自然语言处理、离群点分析、知识推理等理论和方法,数据处理的技术是云存储和云计算等新兴技术[2]。
图1 三类生物医学决策支持模型对比
除了上述差异外,大数据决策支持模型与其他两类模型还有一个显著的差异,即大数据方法通常是数据驱动型决策,而其他两类方法通常是目标驱动型决策。所谓目标驱动型决策是指决策者首先要明确决策支持的目标,即先明确“干什么”,然后研究“怎么干”,一般是通过数据采集加工与分析计算等步骤,对数据中的有效信息进行提取和分析,从而达到对态势评估,趋势预测等目的。所谓数据驱动型决策是侧重于训练机器的组织和学习能力,能够响应数据的动态变化,发现海量数据中的“离群点”,并深入推演分析“离群点”形成的背景和原因,从而最终达到监测、预警并积极处理突发事件的目标。
3.1生物医学数据隐私保护与大数据共享要求高矛盾突出
一方面,开源和高度数据共享是生物医学大数据研究的基本要求。大数据研究课题是否能够取得成功与患者参与程度有密切关系,然而随着生物医学数据的采集、加工和应用,数据泄露时有发生,进而带来医学数据隐私的泄露;另一方面,随着患者对个人隐私保护意识增强,科研人员必须告知患者大数据研究可能给他们及其后代带来的利益与风险,并尽可能找到保护患者隐私的办法,以获得患者的信任与参与。
3.2生物医学数据的特殊性与大数据处理能力不足矛盾突出
除了大数据海量、异变、多态的基本特征外,生物医学大数据还具有:一是时序性,数据会随着时间推移而不断演绎;二是异构性,由于研究对象复杂、试验人员差异、仪器设备差异,造成生物医学数据异构性非常大;三是要求高,对于作为判断患者病情发生发展重要依据的生物医学数据处理,准确性、保存周期、更新频率都提出了很高的要求。生物医学的这些特性,对大数据的收集、存储、传输、分析等处理能力都提出了挑战。
3.3医疗机构狭隘的数据保护与大数据平台要求矛盾突出
一方面,在大数据时代下,尤其是数据驱动型的生物医学决策,根本在于数据的拥有,可以说谁拥有大数据,谁就有制胜的砝码,谁就能成为大赢家[3];而另一方面,由于利益及风险等原因,生物医学科研部门及医疗机构对于各自拥有的生物医学数据都持保护态度,不愿意向社会和同行提供数据服务,各机构所积累的海量数据基本还处于“孤岛”状态,这对于形成生物医学大数据平台,提高研究效率都造成了极大的障碍。
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状及思考[J].中国科学院院刊,2012,27(6):647-657.
[2]杨帅,胡宗倩,伯晓晨,等.云计算在生物医学中的应用[J].中国科学:生命科学,2013,43(7):569-578.
[3]甘丽新,涂伟.大数据时代电子商务的机遇与挑战探讨[J].科技广场,2013,(3):137-140.
(编辑马兰)
2015-05-04
R197
B
1672-4232(2015)04-0020-03
邬小军(1967-),男,博士,副教授;研究方向:卫生勤务。