孙向东 黄晓琴 朱春伦
(宁波市卫生信息中心 宁波 315010) (华为技术有限公司 深圳 518129) (宁波市卫生局 宁波 315010)
张 科 张 辉 陈晓妍 翁可为 陆传统 唐 玲
(宁波市卫生局宁波 315010) (宁波市卫生信息中心宁波 315010) (宁波市卫生信息中心宁波 315010)
基于循证医学的海量医学数据挖掘分析方法研究*
孙向东 黄晓琴 朱春伦
(宁波市卫生信息中心 宁波 315010) (华为技术有限公司 深圳 518129) (宁波市卫生局 宁波 315010)
张 科 张 辉 陈晓妍 翁可为 陆传统 唐 玲
(宁波市卫生局宁波 315010) (宁波市卫生信息中心宁波 315010) (宁波市卫生信息中心宁波 315010)
从循证医学视角出发,以宁波市智慧健康保障体系项目为例,介绍数据挖掘方法在医学领域中的应用,在此基础上阐述医学海量数据挖掘分析步骤、研究内容、分析方法、关键技术、模型构建、平台架构与功能等。
循证医学;数据挖掘;分析模型
1.1 数据共享与交换平台建设为实施数据挖掘奠定基础
1.1.1 循证医学概念 循证医学(Evidence-based Medicine,EBM)是指遵循证据的医学,又称“实证医学”、“证据医学”,其核心思想是医疗决策应在现有最好的临床研究依据基础上作出,同时也重视结合个人的临床经验。循证医学不同于传统医学,传统医学是以经验医学为主,往往根据非实验性的临床经验、临床资料和对疾病基础知识的理解来诊治病人。而循证医学是在临床经验、资料等基础上,强调将医疗决策建立在最佳科学研究的证据基础上。
1.1.2 平台现状 宁波市智慧健康保障体系项目建设目前已经完成了数据共享与交换平台的研发,经过与8家市级医疗机构以及部分县市区(鄞州区、海曙区、江东区、江北区、奉化县)平台的对接,实现了诊疗信息和健康保健信息的采集与交换。在市级数据中心存储了全市大部分居民的健康档案和电子病历信息,在不断完善,医疗卫生的数字化信息将日益丰富。目前在市数据中心采集的信息主要包括病人的基本信息、病史、诊疗信息、检验报告、检查报告、用药史、既往史、用药记录、医嘱等临床信息,以及药品管理、医院管理等医疗信息。在大量数据后面蕴含了许多对疾病的诊断、治疗以及卫生行政决策有重大价值的信息,从这些医疗数据中挖掘出有用的信息,对了解各种疾病之间的相互关系和发展规律,疾病的防控、诊断、治疗和医学研究的发展具有重大意义,医疗卫生信息自动化和智能化应用和研究正在快速发展[1-4]。
1.1.3 构建意义 从循证医学视角出发,构建电子健康档案和电子病历信息资源整合与挖掘的宏观模型和数据分析平台,将助力医疗卫生行业全面提升,把纷繁复杂的医疗数据转变成有价值的信息,为医学科学研究、临床诊疗、卫生决策、公众服务制定提供依据,包括:(1)帮助寻找最佳药物组合及标准化治疗方法,提高诊疗效果。(2)预测慢性疾病风险,查明罹患疾病几率。(3)协助医院评估、监测和提高患者治疗的安全性。(4)优化医院资源利用[5-7]。
1.2 数据挖掘在医学领域中的应用
用数据挖掘方法发现医学数据中的规律性,可以辅助医务人员快速准确地诊断、预测、监控病情,确定最优的治疗方案。目前数据挖掘已经运用在很多医学应用领域中[1,3]。(1)疾病的临床诊断、治疗和愈后预测:医学本身具有很强实践性、统计性,这一过程往往是医师知识和经验的交织作用过程。数据挖掘可以通过对患者资料数据库中大量历史数据的处理,提炼其中大量有价值的信息,从而为临床决策服务。(2)流行病学研究和医学统计方法学:如分析影响疾病死亡率的因素、产科病人早产的3个危险因素等。(3) 医院和卫生事业管理:医院科学管理、医疗保健政策的制定、卫生资源的合理配置等。(4)药物利用分析:药物的研发和毒理学研究方面的探索和应用性研究[8]。从国内外当前研究现状来看,关于循证医学海量数据挖掘的研究已日趋成熟,无论在理论上还是具体操作上学者们者做了积极的探索,形成了大量具有重要指导性的课题成果。从循证医学本身来说,提供集成的个性化医疗服务是世界范围内的共识和目标,如何将EBM与医院信息系统资源进行整合和挖掘,构建直接面向用户服务的公共知识平台,实现循证医学资源的有效利用,仍是国内学者需要尝试和探索的难题。
2.1 明确需要解决的问题
在此阶段与医学专家进行深入交流,明确需要解决的问题,确定数据挖掘的目标和衡量其成功的标准,了解该问题目前的解决方法与存在的弊端。这个步骤是数据挖掘的基础。
2.2 数据理解
这个步骤包括数据的初步收集、对原始数据进行抽样分析、列出数据的类型(包括大小、格式、属性等)。经过这个步骤可以回答部分数据挖掘的目的,从而肯定最初的假设或对新的特征进行探求。
2.3 数据处理与数据仓库建立
这个步骤是决定数据挖掘成功与否的关键。区域卫生数据中心积累了庞大的医疗卫生数据,处理所有的原始数据不仅耗时而且对计算机资源浪费极大。清洗、抽取具有代表意义的部分数据是一种有效的简化方法,可通过以下两种途径:(1)对数据空间进行采样,此时进行的数据收集是随机的。(2)对特征空间的采样,只有具有某些特征的数据才能被选中,当大量特征存在时,这种选择也将是随机的,经过数据清洗、转换并去降噪声,与其他一些需要的外部信息共同组成数据仓库。
2.4 数据挖掘
利用数据挖掘方法来发现新的内容,包括选择数据模型、决定训练和实验过程、建立模型、评价模型品质等过程。数据挖掘不是一个单向的过程,对同一个问题可有多种不同的算法。不同的数据挖掘方法作用于同一数据库,对数据的理解可有不同的角度,每种方法合理与否都有可能。这就需要将发现结果在实际运用中反复求证,以检验其合理性。
2.5 评估及应用
首先,对发现的知识进行医学或者药学上的解释,其结论对使用者来说必须是可理解的;其次,其在医学或药学领域中具有一定应用价值,能够解决一定实际问题。
3.1 主要研究内容
3.1.1 数据挖掘需求梳理 对数据挖掘分析需求进行梳理,任何平台提供的预定义模型无法完全覆盖全部业务功能,选择就诊实时预警应用(用药禁忌、重复用药、重复检验检查)、医务人员非法执业警示、传染病趋势分析、卫生决策分析等应用需求。
3.1.2 标准规范与值域代码 在加强对已有国家、行业和地方标准贯彻实施的同时,制定宁波市统一的总体数据标准规范体系,在宁波市智慧健康保障项目数据集与值域代码梳理的基础上,补充相应的数据字典库,如药品目录、检验指标、收费明细等。根据统一的标准规范采集电子健康档案数据,实现数据共享与交换,适应循证医学医疗模式,融合国际、国家和区域性标准,建立满足各种数据挖掘需求的区域性或国家性资源整合与挖掘的平台模型。针对已经确认的需求所涉及的数据进行准备与定义,没有数据规则不可能有业务模型,数据挖掘平台提供的预定义的经过训练可重用的业务模型必须要基于真实业务数据,基于测试数据训练出的模型不能重用。
3.1.3 信息资源中心建设 健康信息深化利用的数据来源于区域居民健康协同服务平台,是来自于不同医院、公共卫生业务、社区业务数据的汇总、整合,其结构清晰,从源头上避免了数据定义、结构的不一致性,为数据仓库建立奠定基础。数据仓库根据需求利用“健康管理数据质量智能控制”保证数据的质量,利用“健康管理信息智能整合”实现多维化模型构建,形成以业务分析主题为核心、以数据分析为目的的数据集合。数据仓库的建立可以有效地管理业务数据,为数据展示、挖掘利用奠定基础。
3.1.4 数据分析和挖掘平台研制 数据分析和挖掘平台其实就是应用平台,用户可以使用该平台提供的工具组件、模型库、算法库等功能实现数据挖掘应用、OLAP多维分析应用和数据服务应用。数据挖掘平台提供数据采集、数据管理、数据应用、平台访问、平台管理5大类功能。
3.1.5 数据挖掘分析应用 (1)药物利用分析:数据来源于各家医院的医疗资源数据和诊疗业务数据,由于数据来源和性质的差异,可将药物利用分析分为两类,一类是针对医院药品库存的资源分析,另一类是针对诊疗过程中药品利用的业务分析。系统以报表、图形等直观的方式发布分析信息,以便于管理者对信息特征的快速捕捉。(2)疾病危险因素分析:疾病危险因素指机体内外环境中与疾病发生发展及死亡有联系的诱发因素,包括环境因素、个人行为因素、人类生物学因素(如家族遗传、相关体征等)、社会心理因素等,由于不同疾病的发病机理不同,其危险因素也不尽相同。按照疾病与危险因素是否已经建立关联关系,可将疾病危险因素分析分为两类:一类是对已经明确的疾病危险因素的多维分析,另一类是对指定疾病与指定危险因素之间的关联分析。(3)基于健康档案与电子病历的智能决策支持系统:临床决策支持、运营决策支持、社区卫生管理决策支持、公共卫生管理决策支持等[10]。
3.2 关键技术
3.2.1 循证医学理论 其核心思想就是充分利用客观的临床科学证据进行医学决策,从而提高医疗质量。
3.2.2 数据预处理 医学数据库中含有海量、不同来源的原始信息,其中包括大量模糊、不完整、带有噪声和冗余的信息。在数据挖掘之前,必须进行清理和过滤,以确保数据的一致性和确定性,将其变成适合挖掘的形式[11]。
3.2.3 信息融合技术 医学信息由文字、数据、波形信号、图像以及少量的语音和视频信号组成。对这些不同物理属性的医学数据,应采用不同的技术和措施进行处理,使其在属性上趋同或一致,再对处理的结果进行综合。医学信息中多源性、时序性和非时序性数据共存、数字类型和非数字型数据共存的特点,加大了信息融合的难度。
3.2.4 数据仓库 是面向主题、集成、时变、非易失的数据集合,用以支持决策制定过程。数据仓库是数据库技术的一种新应用,是一个信息提供平台,它从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,为用户提供各种手段从数据中获取信息和知识[12]。从功能结构划分,数据仓库系统至少应该包含数据获取、数据存储、数据访问3个关键部分。
3.2.5 数据挖掘 数据挖掘是人工智能、机器学习、统计学等技术高度自动化地分析原有数据,做出归纳性的推理,从中挖掘出潜在模式或者行为,以帮助决策者做出正确决策的过程。
3.2.6 快速、鲁棒的挖掘算法 医学数据库是一个涉及面广、信息量大的信息库。要在这样庞大的数据库中提取知识,需要花费比其他数据库更多的时间,因此必须考虑医学数据挖掘的效率问题。研究快速挖掘算法对于循证医学研究具有深远的影响。医学数据库的类型较多,并且是动态变化的,要求挖掘算法具有一定的容错性和鲁棒性。
3.2.7 XML Web Servies 是一种基于透明标准体系的组件化松耦合技术,其目标是实现不同系统间跨平台、跨编程语言的互操作。它是一个基于XML的可编程实体,提供一种特殊的功能元素,可通过Internet标准,如XML和HTTP等来访问分布式的操作平台,实现应用的协同工作。Web Services的定位是扩展分布式应用,适合大数据量低频率的远程数据调用。
4.1 采用数据中心模式
4.2 模块划分
模型可分为4大模块:(1)源数据模块:数据仓库的数据源,主要来源于医疗卫生机构的各种操作型信息系统数据库(如HIS、EHR、PACS、LIS、RIS等),各种医疗数据文档以及其他相关数据。(2)数据仓库管理模块:利用数据仓库管理工具、各种规范标准及元数据库、数据字典库等,通过数据建模工具完成各种异构数据及数据结构的统一、规范。(3)数据仓库:集成了标准化、规范化处理后的各种数据,可根据具体需求建立各种数据集。(4)分析应用模块:通过Web Services层完成各种分析应用(如查询工具、C/S工具、OLAP工具、数据挖掘工具等)与数据仓库的数据传输请求。本模型通过仓库管理模块将各种异构数据源集成于数据仓库,通过分析应用模块完成基于Web Services模式的终端应用,即可兼容不同时间、不同区域、不同标准、不同结构的各种源数据,避免重复建设和资源浪费,又可以通过各种个性化工具实现对电子健康档案相关资源的共享与应用,实现基础与通用的电子健康档案系统建设目标[13-14]。
4.3 数据挖掘平台技术架构(图1)
平台=工具+业务模型+数据+管理监控。(1)算法组件:存储管理维护,部署医院常用统计分析及挖掘算法,如决策树、神经网络、线性回归、贝叶斯等。(2)分析挖掘引擎:存储管理循证医学中的分析挖掘模型及自行研究的分析挖掘模型,支持模型的部署。主要功能包括模型注册、测试、查询、浏览、部署。(3)展示接口:对分析及挖掘结果提供对外展示的接口。
图1 数据挖掘平台技术架构
4.4 数据挖掘平台功能(图2)
(1)数据采集:将数据从生产库或交换库中提取、转换、加载(Extraction-Transformation-Loading, ETL)到数据挖掘平台的数据存储区,涉及功能主要包括映射管理、运行监控、调度管理、元数据管理和接口管理。(2)数据管理:对数据存储区中的数据(业务数据以及元数据)进行管理,涉及功能主要包括数据安全管理(灾备、备份恢复)、元数据管理和接口管理。(3)数据应用:对数据存储区中的数据进行业务使用和业务模型重用,涉及功能包括模型管理、算法实现、主题管理、指标体系管理和接口管理。(4)平台访问:对数据的访问方式提供组件支持,包括数据服务接口(Web Service 服务开发和JDBC数据访问接口)、统计挖掘客户端(马克威网络版)和数据应用展现。(5)平台管理:对整个平台正常运行执行安全与运行维护,涉及功能包括用户与权限管理、日志管理、安全集成功能。
图2 数据挖掘平台功能框架
数据挖掘技术使用的海量检索、人工智能和统计学方法使循证医学所使用的预后终点指标(死亡率、致残率、临床事件发生率、生存质量等)所涵盖的范围更广、更有代表性,使医疗卫生工作人员摆脱人工分析大量循证数据的烦恼,从而提高收集利用数据的效率和准确性、可靠性。数据挖掘技术在医疗卫生管理与决策中的应用范围也会越来越广并带来可观的经济和社会效益。
1 中华人民共和国卫生部.卫办发〔2009〕46号.健康档案基本架构与数据标准(试行) [S]. 2009.
2 中华人民共和国卫生部.卫办综函〔2009〕688号.电子病历基本架构与数据标准(征求意见稿)[S].2009.
3 中华人民共和国卫生部.卫办综发〔2011〕39号.基于电子病历的医院信息平台建设技术解决方案(1.0版)[S].2011.
4 中华人民共和国卫生部.卫办综发〔2009〕230号.基于健康档案的区域卫生信息平台建设技术解决方案(试行)[S]. 2009.
5 李燕.海量数据与数据挖掘技术[J]. 医学信息学杂志,2008,29(12): 23-25.
6 高艳霞.循证医学对临床决策的影响[J]. 医学信息学杂志,2007,28(2):110-112,114.
7 周新宪,刘素宾.循证医学在医院信息系统中的应用[J].医学信息学杂志,2009,(9): 34-37.
8 刘莘,王飞. 医学数据挖掘的现状分析[J]. 福建电脑,2010,(5):62.
9 沈小庆,盛炳义,方曙,等. 数据挖掘技术及其在医院药学中的应用[J].中国医院管理,2005,25(12):46-48.
10 徐刚,袁兆康. 数据挖掘及其在医学领域中的应用和展望[J]. 实用临床医学,2006,7(11):196-198.
11 韩煜.数据挖掘技术在医院信息系统中的应用[J]. 医学信息学杂志,2010,(10): 28-31
12 郑西川.临床信息学:从数据管理到循证医学支持[J]. 医学信息学杂志,2012,33(2): 34-37,43.
13 曹洪欣,徐维. 基于循证医学的电子病历资源整合与挖掘的宏观模型构建[J].图书馆理论与实践,2010,(9):43-45.
14 Chae YM, Ho SH, Cho KW, et al. Data Mining approach to Policy Analysis in a Health Insurance Domain [J]. International Med Information, 2001, 62(8): 103-111.
Research on Massive Medical Data Mining Analysis Method Based on Evidence-based Medicine
SUNXiang-dong,Ningbo
HealthInformationCenter,Ningbo315010,
China;HUANGXiao-qin,
HuaweiTechnologiesCo.,Ltd,Shenzhen518129,China;ZHUChun-lun,
NingboHealthBureau,Ningbo315010,China;
LUChuan-tong,
TANGLing,
NingboHealthInformationCenter,Ningbo315010,China;ZHANGKe,
NingboHealthBureau,Ningbo315010,China;
ZHANGHui,CHENXiao-yan,
WENGKe-wei,
NingboHealthInformationCenter,Ningbo315010,China
From the perspective of evidence-based medicine, taking the project of intelligence health insurance sysem in Ningbo as an example, the paper introduces the application of data mining method in medical field, based on the above it elaborates the analytical steps, research contents, analytical methods, key technologies, model construction, the structure and function of the platform in massive medical data mining, etc.
Evidence-based medicine; Data mining; Analysis model
2013-10-08
孙向东,硕士,副研究员,出版著作1部,发表论文17篇。
2012年宁波市科技局服务业示范项目“基于循证医学的海量数据挖掘分析平台”(项目编号:2012F1014)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2014.03.003