张 戈,彭亚标,欧爱华,郑起帆
(广州中医药大学第二附属医院,广东 广州 510100)
健康大数据符合大数据的四个维度Volume大量、Variety多样、Velocity快速、Value高价值[4]的特性。
医疗数据不同于常规的电商数据,数据量极大。如1张CT图像占150 M,一个病理图有5 G左右,一个人的DNA数据量占4 GB左右等,此外还有体积更大的影像类数据,一个医院每天产生的数据是极其庞大的。
医疗数据来源多元,导致其数据结构也是多样化的。既有结构化的个人诊疗信息,又有半结构化的影像、声音、多模态信息,此外部分电子病历也是半结构化的。数据的多样化导致采集困难的增加。
在当今优质医疗资源缺乏的环境下,一家三甲医院的就诊量是惊人的。如郑州某三甲医院,每天的诊疗病人超过2万人次,每年的门诊量高达800多万。
医疗健康数据是贯穿人的一生的,健康医疗大数据的价值极大。如医疗机构利用大数据进行临床监控,政府利用大数据进行疾病防控企业利用诊疗用药数据进行新药研发,个人民众利用过往数据进行疾病预警等。
根据健康大数据的含义,我们从127个数据源中分析得出322项共21小类数据,根据源、数据属性等因素,可以把健康大数据分为就诊数据、个人生物数据、医学文献数据、管理信息数据和行业管理数据6大类别。
就诊数据指患者在就诊过程中,在就诊机构产生的各项数据,共5个子类。这类数据主要包括病程记录、检验、电生理、医学影像、诊疗数据。其中,医学影像数据又分为CT、MR、DSA、ECT、PET、X线、超声、内镜数据等,诊疗数据又分为医嘱、处置、手术记录、监护数据等。
个人生物数据,主要指患者通过非医疗性质的第三方机构、第三方设备产生的数据,共6个子类。包括以基因监测为主的基因组学大数据、蛋白组学大数据[3],通过血液监测为主的各项生理指标数据、疾病预测数据,以及各类智能穿戴设备产生的健康大数据。
医学文献数据,主要指医疗行业人员撰写的学术专著、宣传科普等数据,共2个子类。包括以中医古籍为主导的古籍文献数据、以及以Medline、PubMed、维普、万方数据库为数据源的现代文献数据。
公共卫生数据主要指政府部门基于公共卫生健康监测保护而产生的数据,共4个子类。包括居民健康档案、妇幼保健数据、传染病疫情数据、环境卫生数据等。
管理信息数据主要指医疗管理部门为了保证医疗正常运转而产生的数据,共4个子类。这类数据通常包括病人管理数据、经费管理数据、药品管理数据、设备和物资管理数据等。
行业发展数据主要指医疗健康行业现状、行业发展预测数据,共2个子类。这类数据通常包括政策大数据、行业指标统计数据等。
健康医疗大数据基于采集方式和采集路径可以分为离线采集、实时采集、网络采集和其他采集。本文根据招标采购网站抓取相关数据22条,分析得出常用的采集方式。
在11家科研统计系统医院中,全部采用了离线采集方法。研究人员通过医院内部电子病历系统HIS进行抽取部分信息用于科研分析,政府通过公共平台采集各医院的死亡率、感染率等。此类数据采集面临各机构数据保护、各系统接口不一、各数据名称不标准的现状。
在7家业务系统招标的医院中,4家需要实时观测到患者的病理指标。如各种电子检测设备产生的数据。实时采集快速高效,但对网络资源及计算资源需求大,对数据稳定性要求高。
3家健康企业提出网络采集的需求,用于资源库的积累和特定问题的趋势分析。如通过爬取社交平台数据来预测流行病的发展及趋势预测、通过爬取行业信息及交易数据来预测行业发展情况。这类数据往往存在很多噪声,且数据可信等级低,不能作为精确指。
综上所述,健康医疗大数据可以分为6大类,具备大数据的4个特性,但在数据采集层面需求不一,也存在许多不足。但随着大数据采集技术的发展,高效处理和高质量数据兼得的情况逐步接近,健康医疗大数据会发挥更大的价值。