广东工业大学 沈 明 邱耀儒
近年来,随着物联网、云计算技术的高速发展,数据量的快速增长为许多行业带来严峻挑战的同时,也带来了宝贵的机遇。对于医疗行业,如何将数据应用于医疗上,来改变传统的就医形式,一直是科学家所希望解决的问题。目前各个国家都在致力于构建国家医疗数据平台,实现就医简单化、效率化的进程。医疗行业所产生的数据来自于PACS影像、B超、病例分析等业务所产生的非结构化数据。如何将这些数据整合起来进行利用,正是目前大数据应用于医疗服务上的关键问题所在。
随着存储和连接费用的降低,在因特网上使用非常大的数据库已经成为可能,再加上廉价的计算,已经使得在大数据上运行学习算法成为可能[1]对于医疗数据的存储,需要建设中心机房、健康医疗数据目录库建设和中心平台建设。关于平台的维护可以交由专门的互联网公司进行管理与维护,这样在保证数据安全的同时降低了成本。大数据的大不等于海量数据,而是海量数据加上复杂类型的数据。通过图1所示,我们可以看到大数据的4V特性,这也是医疗数据的特性。
图1 大数据的4V特性
大量的医疗数据来源医务人员的人工输入,由于在此之前没有进行统一化的标准,不同医疗机构之间所记录的医疗数据可能千差万别,于是在平台收集数据时可能得到各种各样非结构、参差不齐的数据。如表1所示,可以看到数据来源的多样性。如果一个病人在不同的医院就诊就会产生多份医疗数据,这样会造成数据的冗余,因此,需要进行实时的更新数据,完善患者个人病历资料信息。医院每天都会产生新的医疗数据,这也是大数据医疗中心最主要的数据来源,需要医院实时的向医疗中心平台共享新的医疗数据。
表1 数据来源
收集到医疗数据之后,需要将数据进行归一化整理,提取病患病历中的关键信息,去除无用信息后进行存储。通过这样的方式来减少中心平台的存储压力,同时为模型的预测进行了初步的特征筛选。平台通过对收集到的数据进行分析,训练出预测模型供各大医疗服务机构使用。医疗个人数据是一种极具特殊性及敏感的个人数据,其使用面临一系列法律和伦理问题[2]需要妥善的隐私保护。
只有解决了数据的采集与管理问题后,才能进行数据分析,充分发掘数据背后的价值。通过各个医疗服务平台的数据连通,将海量大数据有序整合,运用合适的算法进行自动分析与挖掘,才能真正的为公众提供更好的医疗服务。各个医疗机构可以根据获得的分析结果对就诊的病人进行初步的病情判断与了解,提高了患者就医效率。
大数据对于医疗卫生领域产生了巨大的推动作用,只有在技术、政策与资金的同时推进,才能构建出完整、高效的医疗服务中心平台。