张大政
(杭州慧康物联网科技有限公司,浙江 杭州 310052)
当前我们正处于一个数据爆炸性增长的“大数据”时代,大数据在各行各业中都有宽广的应用前景。在医疗健康领域,数据已经成为行业的核心资产,基于大数据的研究应用优化了医院业务流程、管理模式和决策方式,对医疗行业发展健康管理、精准医疗、智慧运营管理等有深远意义。目前,针对健康医疗大数据的研究和各类应用正在如火如荼地探索中,总体而言主要包括:临床业务、药物研发、公众健康、个性化医疗、医疗商业模式等方面。医疗卫生行业的数据量极大且结构多样化,其复杂程度早已超过了传统意义。采用更为合理的数据科学研究模型、更为高效的大数据分析技术,建立适合医疗健康领域的大数据应用平台可以产出更为准确的大数据分析结果和预测结论,同时也能更符合医疗卫生行业较高的隐私安全标准。
传统的数据分析方法在处理大数据时遇到了瓶颈。Hadoop是由业界主流的大数据分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop 上开发和运行处理海量数据的应用程序,使得医院的所有海量历史数据都可以容纳在大数据库中并进行实时的海量数据检索和计算。不但保证数据容量增加不影响性能,而且可以不宕机增加数据存储和处理节点实现线性容量扩展。
知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID 来标识,称为它们的标识符。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画他们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
医疗信息涵盖了医疗过程和医院活动的全部数据资源,包括临床医疗信息和医院管理信息。目前医学信息包括纯数据(如体征参数、化验结果)、信号(如肌电信号、脑电信号等)、图像(如B 超、CT 等医学成像设备的检测结果)、文字(如病人的身份记录、症状描述、检测和诊断结果的文字表述),以及用于科普、咨询的动画、语音和视频信息[1]。
随着公众对开放医疗数据需求的提升,以及对隐私问题的担忧,加之物联网技术、智能可穿戴设备的出现以及云服务的发展为医疗数据的安全性带来新的考验,其中最紧迫的莫过其安全性及健康数据的隐私性。具体医疗健康业务数据面临的巨大挑战在于如何对数据进行匿名化——移除个人和私有信息,但要同时保证处理后的数据对于分析仍旧足够有用。
在第二次人工智能浪潮时期,只要向计算机中输入足够多的知识,计算机就能相应地完成很多任务,但是其能力也仅限于所输入知识的范围;如果想扩充计算机的实用性及其应对例外病例的能力,则需输入海量知识,永远输不完。另外,从根本上讲,输入的符号与其所表示的意义往往脱节,对计算机而言,掌握“语义”非常困难。有一项技术——机器学习得到了稳步发展,即人工智能程序自身进行学习。机器学习常用的原理包括最近邻分类算法、朴素贝叶斯算法、决策树、支持向量机等,而其中最为著名的当属人工神经网络。ANN 是在第三次人工智能浪潮中兴起的一门集脑科学、信息科学、计算机科学于一体的高度综合的前沿、交叉学科,是一种通过模仿人类脑神经回路将生物神经网络在结构、功能等方面的理论高度抽象、概括、综合而构成的信息处理系统,是当代人工智能领域的重要分支。
深度学习是一种当前人工智能算法里取得良好效果的一类,通过模拟人类大脑分层认知结构,模拟人脑对数据进行分析。可以应用到医疗临床检测与诊断的各个环节中,从医学检测采集,到检测结果的图像处理分析,病变区域检测,辅助疾病诊断及治疗与预后的整个过程当中。各过程相辅相成。
医疗健康领域大数据应用平台的整体架构设计上,需要充分考虑数据的获取、数据的治理、数据的应用三个层面,因此整个大数据应用平台的建设必须包括平台基础层、中台软件、业务前台层三个方面。
平台基础层主要负责基础服务,这些平台组件将提供包括基础软件(数据同步采集转换与存储)、商业智能分析平台与人工智能基础软件。基础软件中的大数据实时同步转换平台是针对大数据场景下的数据采集、抽取、同步及转换业务,采用底层数据库级别的数据同步镜像技术,实时地将业务库中的数据同步到大数据库中,保证挖掘分析数据和原始业务数据一比一镜像,实现最高级别的数据质量,保证数据完整性、真实性、防范各种假数据、不一致数据等,同时可以对数据进行转换处理,将转换后的数据写入到专用的数据集市中。大数据实时存储计算平台主要针对目前数据平台中数据量太大、存储模式不合理等因素造成的电子病历数据查询、更新操作非常慢、数据监控困难、综合管理系统决策支持滞后等等问题,需要重新构建一个安全、可靠、稳定、能同时解决历史数据与实时数据读写速度快、响应效率高的大数据存储、数据质量监控、决策支持、挖掘、分析的中心实施方案。大数据实时存储计算平台应包括数据分布式存储、分布式消息队列和分布式计算等功能组件。在分布式存储方面,基于Hadoop 大数据分布式系统基础架构,实现对存储容量的线性扩展,提供符合SQL92 规范的交互功能,使得传统的数据开发人员可以通过SQL 语句对大数据平台中的数据进行业务处理。在生产环境下,存储平台可实时备份,包括异地备份,在数据故障情况下,可实现数据的快速恢复。需要对整个存储平台实现良好的性能监控和故障预警功能。在不影响现有服务的同时,可以实现导向式的硬件横向扩展。对于平台中所存储的数据文件要进行加密处理,而通过SQL 查询的数据,要实现动态数据屏蔽。通过商业智能分析平台,建立支持多维模型的数据仓库,实现对健康档案及其衍生主题数据库的深度挖掘、统计分析、综合展示,智能分析、获取数据的内在价值,更好地满足综合管理、辅助决策的需求。人工智能基础软件面向AI 模型生产的生命周期,为模型的硬件加速、硬件适配、算子优化、代码编译优化、文件系统适配建立基础,方便用户后续在人工智能中台上进行一站式构建AI 算法。
数据治理体系建设的目的是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全机构视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。通常认为,数据治理体系涵盖如下功能域:数据资源目录管理、主数据管理、元数据管理、数据质量管理、数据标准管理以及数据生命周期管理。在数据治理的过程中,需要对数据架构,管控平台,治理工具三方面进行投入,才能将数据治理工作事半功倍。
在医疗健康领域大数据应用平台的建设过程中,对于使用者来说能体现大数据应用平台的效果,因此在平台的建设过程中需要充分想明白对于数据的应用,因此需要构建一个统一的业务前台,业务前台可在中台基础上开展面向数据交换与交易、面向区域卫生、面向医院及面向居民的应用。
在医疗健康领域可以充分利用大数据应用平台开展疾病智能辅助诊断、慢病健康管理、区域卫生监管分析等应用。
在疾病智能辅助诊断方面,基于大数据应用平台,使用科学的知识抽取、推理、表示和NLP 电子病历语义分析服务等技术,对历史病历数据和文献数据进行学习,将同种疾病不同患者的就诊数据根据体征、环境因素、社会因素、经济因素等多个角度划分为不同的亚组人群,以选择适合不同亚群的检查检验类型、治疗方案等,通过大数据划分形成临床诊疗决策辅助系统。医务人员在进行临床诊断时,可以更加客观准确地诊断病情制定出周详的治疗和保健方案,进而极大地降低了临床诊断的误诊和漏诊问题帮助患者提高恢复健康的速度[2]。
在慢病健康管理方面,通过机器学习及数据挖掘技术,对海量的患者和健康体检者的常规体检大数据进行分析并建模,建立能够区分健康人和重疾患者的分析预测模型,实现对慢病患者有效地健康指导。
在区域卫生监管分析应用方面,如图1 所示:基于大数据应用平台建立医疗卫生管理监测指标体系数据模型,基于医疗卫生管理监测指标体系开展大数据挖掘分析和预警预测,指导公立医院医改业务开展。
图1 区域卫生监管分析模型
实现公立医院医疗卫生管理监测大数据挖掘分析,依据国家省市公立医院医改政策和医疗卫生管理监测指标,针对卫生资源管理、医改指标统计、医改成效监测、医药监测、医疗监测、医保监测和财务监测等重点指标数据采用大数据智能挖掘技术,进行智能挖掘分析。利用大数据挖掘技术,可以分析用户对医生的评价、用户关键词热点话题查询、对患者患病类型进行区分以及患者对医药投诉评价、患者诊后跟踪生存率统计等后台APP 信息的手机与挖掘分析。为卫计局管理者和公立医院管理中心提供医疗服务水平、质量提升和绩效考核评价,提供客观真实的依据和数据基础。
国外健康医疗大数据建设相对成熟,重点发展基于数据的服务。国外健康医疗大数据公司主要为医疗服务提供者提供平台及服务。将大量数据变为可用性数据后利用人工智能或机器学习提供辅助决策支持。由于国内医疗数字化起步较晚,在大数据应用平台建设方面处于探索与试验阶段,构建一个数据实时的、安全、可靠、稳定的大数据应用平台有利于提升医疗卫生服务效能,提升疾病防治能力,完善全民健康服务体系。