王杰 曹新志
【摘要】目的 本文旨在构建一个安全、可靠、稳定、能同时解决历史数据和实时数据读写速度快、响应效率高的医疗科研大数据挖掘平台,提高医生科研效率和能力。方法 采用大数据、知识图谱、机器学习等人工智能相关技术,通过ETL工具整合多源异构数据,形成临床科研大数据中心和数据挖掘分析平台。 结果 建设成全院级科研平台和三个临床专病数据中心。 结论 提高科研效率和能力,加速科研成果转化,提升医院的高质量发展。
【关键词】大数据;科研平台;ETL工具;数据分析
本文系2021年江苏省医院协会医院管理创新研究课题《面向挖掘的肺癌数据库及机器学习算法构建免疫检查点抑制剂相关胃肠道不良反应的预测模型研究》(课题编号: JSYGY-3-2021-483)研究成果
1 引言
随着大数据、人工智能等技术的迅速发展,医疗卫生领域已迎来“大数据时代”,正在对科研卫生领域起着积极的作用。为加强健康医疗大数据服务管理,促进“互联网+医疗健康”发展,充分发挥健康医疗大数据作为国家重要基础性战略资源的作用,2016年国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》,文中指出努力建设人民满意的医疗卫生事业,为打造健康中国提供有力支撑。2018年,《关于促进“互联网+医疗健康”发展的意见》提出了促进互联网与医疗健康深度融合发展的一系列政策措施。以上政策文件为健康医疗大数据标准、安全和服务管理制定办法,鼓励推进科研大数据应用,提升医学科研能力,进而推动智慧医疗、智慧医院的发展与建设[1]。
科研分析、数据统计已经成为临床医生日常工作中非常重要的一部分,然而,每天的临床业务占据了医生的大量时间,使得医生在科研方面投入的精力有限。以往在进行科研分析时,需要人工收集大量病例进行筛选,不仅浪费人力和时间而且会造成数据量偏少、数据不完整、结果不准确等问题,严重影响科研统计分析,为打破数据壁垒,让海量的医学数据为科研、临床决策支持所用,构建一个数据安全、可靠、高效的医疗科研大数据挖掘分析平台迫在眉睫。
2 平台总体架构
构建全院级科研数据中心,主要集成了病人的诊断、检验、检查、病理、用药以及电子病历中的入院记录、病程录、出院小结等临床数据。数据的采集、调度、监控通过数据治理平台进行管控,数据治理平台能实现可視化配置操作,支持多种数据源,如DB格式、CSV、TXT等文件接口方式[2]。
我院大数据科研平台以数据仓库为核心,实现大数据技术在临床科研领域的落地,平台的总体架构主要包括:数据层、数据存储层、接口服务层、平台应用层。首先,平台从医院业务系统中抽取出科研所需数据,继而利用计算存储层对抽取的资源进行整合、清洗、转化,构建疾病模型、知识图谱,辅助进行统计分析、数据挖掘和疾病预测等科研应用。
2.1 数据清洗 从数据源中抽取的数据不一定完全满足目的库的要求,如数据格式的不一致、数据输入错误、数据不完整等,因此有必要对抽取出的数据进行数据清洗。清洗过程需统一统计指标单位、统一统计指标周期以及统一标准的临床术语等。
2.2数据整合 根据疾病的演变和诊疗过程,参考HL7 V3 RIM模型、CCR等标准来进行灵活构建模型,同种业务类型的数据进行归类标准化汇集。整合过程统一编码、统一字典、统一数据格式,确保数据的一致性和完整性。
由于医疗机构内部的业务系统种类繁多,导致在异构系统的集成上存在很多的问题和瓶颈。平台通过CDC数据变更捕获技术,可以让用户将数据源服务器上的数据发布到不同的服务器上,并且可以确保不同地点的数据自动同步更新,使得不同的服务器用户在权限许可的范围内就可以共享同一份数据了。数据仓库的建设需要从各个不同的系统获取数据,平台通过数据库复制技术,将生产服务器上的数据发布到中间服务器上,然后由数据仓库从中间服务器上获取数据,这样就保证了数据仓库进行轮询时,不会影响生产环境的用户。
2.3 患者主索引服务 患者主索引服务(EMPI)采用特有的技术和算法,用于全院范围内患者基本信息索引的创建、搜索和维护,智能的帮助科研人员对病人信息进行有效检索,获得完整而准确的病人视图。
3 平台建设成果
截止目前大数据科研平台上已累积经过规范化处理入库患者数有290余万例,就诊记录数1000余万例,已建立起全院级科研数据中心和三个专病数据中心,切实提高了科研质量和效率。
平台已开发建成了具有“数据概览、队列发现、特征提取、数据分析、 智能搜索、随访监测、病人360”等功能模块的信息平台,科研人员通过数据概览来了解平台的医疗数据视图,每个视图均可实现列设置、列统计功能以及数据导出功能,熟悉平台底层数据框架后,即可针对科研需求进行队列定义、特征提取,最后进行数据分析,达到科学研究的目的。
3.1 队列定义 平台提供灵活方便的组合条件进行查询筛选和多维度的诊疗数据检索,可以快速地找到科研病例集,最后通过入选和排斥等集合运算实现研究人群的精确筛选。
3.2 特征提取 支持基准事件的规则设定,基准事件的时间顺序、基础信息、聚合列、计算列等多个组合条件导出数据,且可对需要导出的项目进行函数运算,支持从原始变量生成新的变量,用户对导出的数据进行自由组合,对导出的数据可移至SPSS、SAS等分析软件进行科研统计分析,并且平台支持特征数据的删除、修改、克隆以及相关数据预览等功能。
4 讨论
临床科研分析平台是我院医疗大数据在科研方面的应用落地,在系统建设的过程中,应用ETL技术、主索引管理、自然语言结构化、数据脱敏、机器学习等先进技术,为数据的深度挖掘和共享提供基础,准确、便捷、高效地服务临床科研人员,提高科研效率,促进医疗健康事业的发展。
[参考文献]
[1] 甘伟, 徐明明, 陈联忠,等. 大数据临床科研平台的设计与实现[J]. 中国数字医学, 2019, 14(2):40-43.
[2] 王持, 李超, 陈旭,等. 面向医疗临床科研的大数据平台[J]. 集成技术, 2019,8(5):86-96.