□ 王美艳 WANG Mei-yan 蔡建利 CAI Jian-li 刘丽娟 LIU Li-juan 姚敏 YAO Min 沈志昊 SHEN Zhi-hao 朱昊旭 ZHU Hao-xu
Medical records information is the important information of the hospital. Strengthening the utilization of medical records information can evaluate the diagnosis and treatment effect and prognosis of patients, and effectively improve the medical quality and comprehensive management level of the hospital. This paper focused on the application and practice of data mining of medical records information, analyzed the related contents of medical records information management and data mining technology, discussed the application of data mining technology in the extraction and analysis of medical record information, analyzed the influencing factors of recurrence of liver cancer patients by combining data mining of association rules, and discussed its application effect, so as to provide reference for medical record information mining and effective utilization.
随着医院就诊信息的增加,对病案信息记录和整理也提出了更高的要求,国内大多数医院均陆续开发了自己的医院信息系统(hospital information system, HIS)以满足对大量病案信息的妥善储存,然而HIS 系统仅能实现对患者病案的各类信息进行记录、储存、查阅、简单统计分析,缺少对信息数据的深度挖掘,不能对患者复杂多样的疾病就诊信息进行综合分析并为临床医师和相关管理人员提供有用的数据支持,导致该系统对病案信息的利用管理效率较低[2]。数据挖掘技术是一种可对数据进行深度挖掘与利用的有效技术,可通过对大量原始病案信息进行抽取、分析,从中提取隐含的、潜在有用的关键性信息和知识,实现医疗工作的高效处理和决策[3]。因此,本院积极引进数据挖掘技术,通过数据挖掘技术来加强病案信息管理、强化医疗质量。
医院的病案信息主要是由患者诊疗过程中获得,包括患者个人信息、与医师的谈话记录、实验室检查数据、影像图片与数据、医嘱信息等,具有种类多样、数量大、不完整性、冗余性和隐私性的特点[4]。病案信息管理,采用科学化的方法,全面收集医疗实施过程中生成的病案相关资料,并进行检查、整理、存储,以便于病案信息在管理、医疗、科研、教学等方面均得到充分的利用,发挥其重要作用。其主要的目的在于对医院患者的病历信息进行一系列的整理,保证当有病历调阅需求的时候,可准确且迅速找到对应病案,充分利用病案资源[5]。
医院病案信息管理存在的问题。随着现阶段医疗事业迅猛发展,医院管理系统中医疗信息数据也在不断增加,相关信息和数据的查找及分析过程也变得更加繁冗,查询速度和准确度远不能满足高效率的医疗工作需求。目前,医院日常运行对于信息化技术的依赖程度越来越高,然而,这种系统往往采用的是传统的数据库类型,随着数据量的持续增加,数据和信息处理过程中,为达到数据库处理速度相关要求,可能导致历史数据脱离实时处理系统,存储于备份数据库,影响实时在线查询,不能很好地为临床医务人员和管理者提供参考。同时,由于现阶段医院管理系统中存在着海量的病案数据,对于不同数据在不同事件中的作用,数据处理过程也呈现多样化特点,导致数据需求不能被及时满足。
1.数据挖掘技术的定义与特点。数据挖掘技术即通过相关算法从大量数据挖掘出所需信息,并实现对其利用的技术[6]。数据挖掘技术的有效应用,不但可直接处理海量数据信息,同时能够有效帮助实现所需数据快速准确搜寻,基于数据挖掘手段,得到数据间存在的规律,以此实现信息传递[7]。数据挖掘技术已在金融、通讯、交通、零售、医疗等各大领域中进行广泛应用。
2.数据挖掘技术的方法与流程。根据数据挖掘角度的不同,可将其大致分为:聚类、分类、回归、偏差、特征分析以及关联规则六类[8]。该六大类数据挖掘方法在病案信息管理方面均具有较好的应用价值。例如,分类分析可将某种疾病类型患者依照其地区进行分类,总结疾病是否存在地域分布规律,再进一步发掘该疾病的患病原因与地域的关系,探索疾病原因等。又比如,利用数据挖掘技术的偏差分析可对医院预约挂号的病案信息进行挖掘分析,若出现预约率与就诊率之间存在较大偏差,可分析其中原因,并采取针对性解决措施,提高就诊率。
数据挖掘流程在整个设计中发挥关键性作用,通常情况下需要经过数据选择、数据准备等六个阶段[9-10],并且在实际的应用过程中为了获得更好的挖掘效果,可重复进行其中的某些步骤,依据挖掘结果决定是否开始下一个任务。数据挖掘的主要流程见图1。
图1 数据挖掘的流程
1.医院病案信息管理系统构建。由系统结构图(图2)可知,医院病案信息系统结构被分为数据层、业务逻辑层、功能表现层,其中数据层中可完成数据访问接口管理;业务逻辑层可实现业务逻辑的相关定义;功能表现层可基于客户端js 代码等来完成UI 设计与布局,多层设计综合提高系统的稳定性以及可维护性[11]。
图2 医院病案信息系统体系结构
2.病案数据挖掘数据库设计。依本医院实际情况,数据主要来源于病案首页,病案信息主题确定过程中,主要包括如下信息:患者基本信息、诊疗相关信息(包括疾病、检查、手术信息等)、医生信息、费用信息。确定好病案信息主题以后,主要通过患者、诊疗、医生、住院费用四个事实表,并以此作为维度模型的基本表,进行粒度与维度设计,建立多维度逻辑模型,见图3。
图3 数据挖掘体系结构
数据访问设计。数据的访问设计主要依靠数据挖掘工具进行,本系统利用SQL Server2008 数据库中的集成环境Business Intelligence Development Studio 建立数据仓库模型。该数据库中,DTS 相关工具多样,可有效进行数据的抽取、清理等工作。
医学领域中,关联分析属于其中很重要的一项使用规则,关联规则挖掘的本质特点在于发现并总结各项医学数据之间存在的联系。使用关联规则分析进行医院病案信息挖掘时,首先需要寻找到关联规则中存在的频繁项集,再依照频繁项集间产生强关联规则,预测需满足最小置信度[12-13]。
1.数据准备。本次实践主要采用本院病案信息系统中肝癌病例数据3120 例,采用SQL Server 开展数据挖掘。上述病例中有2218 例未出现复发现象,而902 例后续出现复发。通过与临床医生交流以及对肝癌疾病相关知识的大量查阅,本研究选取病例性别、年龄、肿瘤部位、数目、直径、恶性级别、放化疗情况以及是否出现复发等作为病例属性,通过SQL Server 建立肝癌病例数据库表,通过数据挖掘技术寻找导致肝癌复发的属性。
2.实现关联规则的数据挖掘。选择既往数据表作为数据源,建立数据源视图与挖掘结构,以数据表为事实表建立模型,生成挖掘结果。本研究采用Microsoft 的关联规则进行数据挖掘,通过概率来直接代替置信度,利用关联规则重要性来表示两种病例属性之间有无相关关联[14]。采用算法参数设置产生相应项集,得到挖掘算法规则,依概率强度、关联重要度进行属性重要性排序,得出各个属性与肝癌复发的关联性。
本次实践通过数据挖掘得出,病患中肿瘤直径5cm 以上占比56.86%,且达最高级恶性程度,后期这些患者复发的可能性大约为63.15%;约有45.19%的患者会有2 个肿瘤,并且年龄多在60 ~69 岁范围区间内;约有59.28%的患者接受放化疗后出现再次复发,并且年龄大多都集中在60 ~69 岁之间。依据挖掘的数据结果可以得出:患者肿瘤直径越大,其发生恶性肿瘤的可能性越大,且复发风险也越大;若患者在60 ~69 岁之间,且肿瘤数目越多,接受过放化疗后复发的可能性也越大。此次应用得出的结论与目前临床上的多数研究具有一致性[15],因此可用于指导临床治疗、医院科研等工作,也证明了数据挖掘技术可被有效应用于肝癌病案信息管理中。
综上所述,数据挖掘技术可对医院大量的病案信息进行抽取、转换、分析和其他模型化处理,实现数据的充分挖掘与利用,医院应该积极引进数据挖掘技术,通过挖掘技术的应用来高效利用病案信息,加强病案信息管理,为医疗、教学、科研和医院管理提供更好的支持与服务。