关联规则在急性心肌梗死病案分析中的应用

2017-07-31 21:20
移动信息 2017年3期
关键词:项集置信度病案

张 彪

河北大学附属医院,河北 保定 071000

关联规则在急性心肌梗死病案分析中的应用

张 彪

河北大学附属医院,河北 保定 071000

目的:对急性心肌梗死的相关因素进行研究,通过运用数据挖掘算法形成关联规则。方法:收集某医院近三年的急性心肌梗死病案首页信息,包括性别、年龄、化验信息、心电信息、个人史、既往史等。运用 Java语言实现数据挖掘算法(FP-growth),得出281条关联规则,通过比较支持度、置信度、提升度三个指标获得有价值的关联规则。结论:有利于从病案大数据中挖掘出有价值的信息,为医院的病案信息的管理提供了信息思路。

急性心肌梗死;合并症;关联规则;FP-growth

1 研究背景

急性心肌梗死属于急性冠脉综合征。除心肌梗死外缺血性心脏病还包括,稳定型心绞痛、不稳定型心绞痛,心肌梗死是其中最严重的一种。其发病机理为:在冠状动粥样脉硬化的基础上,发生突然性的冠状动脉血骤减甚至中断,使相应的心肌持久性的极度供血不足从而导致心肌坏死。急性心肌梗死的一般临床表现为持久性胸痛,其位置大多在胸骨后或胸骨中上段,并伴随发热、白细胞计数和血清心肌坏死标记物增高等症状。心电图结果多显示心脏进行性改变,可发生心律失常、休克或心力衰竭等。

2 材料准备

(1)材料来源。本文采用的研究数据源来自河北大学附属医院近三年的急性心肌梗死患者的病案首页信息,内容包括住院号、年龄、性别、住院天数、主要诊断信息、其他诊断信息、既往史等信息。

(2)数据处理。在进行数据挖掘之前,要对原始数据进行预处理,主要包括数据清洗和数据规约两个步骤。数据清洗是指对原始数据中的错误数据、空值数据进行处理,保证结论的准确性;数据规约的目的是对数据源进行精简,并对数据按照一定规则进行分类,使之具有一定的特征性[1]。

3 研究方法

(1)关联规则定义。关联规则分析的目是从数据集中发现各个属性之间关联性。在现实世界中事物的发生是存在关联的,这些联系或是显而易见的常识,或是已经被科学证实了的规律,但还有很多关联性影响是隐藏的。关联规则分析的作用正是为了隐藏的关联。关联规则分析的核心就是计算不同事物同时发生的频度,得到频繁项集,再通过计算得到事物相互作用的置信度。即事物A发生时B也发生的概率。

在临床上,如果要研究疾病X是否是疾病Y的诱因,可以使用关联规则进行分析,通过在大量数据集中检索频繁项,计算当X发生时,Y也出现的概率,若概率值很大说明二者具有强关联,而且关联规则具有单向性的特点,容易发现哪个是因,哪个是果。若XY互推概率都很高,说明二者互为因果,也称共生共存。本文以急性心肌梗死为例,一组患者的数量为2770例,其合并症(如高血压,糖尿病等)约有上千种,而具体到个人,有人的合并症多,有人合并症少,本文将利用关联规则算法去发现蕴含在这些合并症信息中的一些规律。

(2)关联规则的判断指标。关联规则含两个重要的兴趣度度量:支持度(support)和置信度(confidence),它们分别反映所发现规则的有用性和确定性。

支持度s是指事务集D中包含A∪B的百分比,即

置信度c是指D中包含A的事务同时也包含B的百分比,即:

同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。在某种情况下,即使支持度和置信的两个指标都非常高,但是其产生的关联规则是明显的无用的。所以,本文有引入了一个新指标——提升度(lift)。Lift也是一种相关性度量,其定义为:项集A的出现独立于项集B的出现,若P(A∪B)= P(A)P(B)则项集A和B是依赖的和相关的,其公式为:

(3)关联规则算法的核心内容是寻找所有支持度不小于最小支持度的项集。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。FP-growth具有深度优先搜索的功能,这种搜索法利用到了项集的反单调性,即:若一个项集是非频繁的,那么它的超集也是频繁的。本文将最小支持度设定为3,即只选出至少出现 3次的项集,得出结果后筛选出提升度大于1的模式。

4 结果显示

36[高血压 3级,冠状动脉支架植入后状态,陈旧性下壁心肌梗死]->2型糖尿病0.0849 0.6149 1.0621[2型糖尿病,高血压病,冠状动脉粥样硬化型心脏病]->高脂血症0.0849 0.6148 1.06221[高血压病,冠状动脉粥样硬化型心脏病,胃炎]->高脂血症0.0624 0.1211 1.0799 [室性早搏,阵发性室性心动过速]->高血压2级 0.0597 0.8906 1.727 22[高脂血症,冠状动脉粥样硬化,高血压2级]->心功能Ⅰ级0.0671 0.5981 1.09211 [冠状动脉粥样硬化,2型糖尿病性肾病]->2型糖尿病 0.0671 0.5981 1.066

5 讨论

从编号 8的结果可以看出,患有急性心肌梗死的患者,在出现 2型糖尿病的情况下,发生冠状动脉粥样硬化型心脏的概率非常高,由id36可看出,有心肌梗死病史的患者,若同时患有 2型糖尿病,急性心肌梗死的复发概率也是非常高的,结论与文献描述一致。

综上所述,关联规则挖掘能够从海量数据中发现有价值的信息,而这些信息通过传统的统计方法往往难以发现,随着我国医疗技术的不断发展,医院信息化建设不断加强,每天都会产生大量的数据,构建医疗大数据平台有着广阔的发展前景。今后我们要更好的利用海量的电子病历信息,高效、准确地发掘出有价值的信息,更好地服务于临床。

[1]李春慧,云虹渝,何森,等.心脏增强MRI在冠状动脉造影基本正常急性心肌梗死一例中的应用及文献分析[J].华西医学,2014(10):1891-1894.

Association Rules in the Application of the Medical Record Analysis of Acute Myocardial Infarction

Zhang Biao
Hebei University Affiliated Hospital, Hebei Baoding 071000

Objective:To study the correlative factors of acute myocardial infarction (AMI), and to form association rule by using data mining algorithm. Methods:The first page of acute myocardial infarction(AMI) in a hospital was collected, including sex, age, laboratory information, ECG information, personal history and past history.By using the data mining algorithm (FP-growth) in Java language, 281association rules are obtained, and valuable association rules are obtained by comparing the three indexes of support, confidence and promotion.Conclusion This method is useful for mining valuable information from medical record data and providing information for hospital management of medical record information.

AMI; complication; association rules; FP-growth

表1

R445.2;R542.22

A

1009-6434(2017)3-0107-02

猜你喜欢
项集置信度病案
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
试析病案管理中预防病案错位发生的方法
病案信息化在病案服务利用中的应用效率分析
不确定数据频繁项集挖掘算法研究
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
校核、验证与确认在红外辐射特性测量中的应用
医院病案管理与改进策略初探