基于数据挖掘的疾病分类预测模型的构建

2019-05-24 14:13李荣华张燕黄俊黄程成莫尽友
电脑知识与技术 2019年11期
关键词:数据挖掘

李荣华 张燕 黄俊 黄程成 莫尽友

摘要:随着医院信息系统(HIS)在全国各大医院的推广和应用,会有大量和病人相关的临床数据每天在医院中记录,而这些真实的数据随着规模积累的增加,存在着对病人和医生来说潜在、有价值的信息作用也会越来越大。本文会根据医院信息系统(HIS),通过决策树算法,针对疾病诊断的影响因子进行预测分析,得出一个有效帮助诊断的分析模型,通过一段时间论证分析,该模型会在临床应用中有一定的指导作用。

关键词:数据挖掘;疾病分类;医疗大数据;决策树算法

中图分类号:TP391.5 文献标识码:A

文章编号:1009-3044(2019)011-0004-02

1 引言

在医疗行业,随着医院信息系统 (HIS) 在全国各大医院的逐步推广和应用,医院每天产生大量与患者相关的临床数据, 这些数据的规模越来越大[1],而在这些真实的数据中有很多潜在的和有价值的信息,为患者和医生。

有效利用这些真实的临床数据,寻找一些有价值的规律和信息,对于患者的治疗和医生的诊断是非常重要的。它不仅可以有效地辅助医生的诊断、决策和治疗,而且可以提高医生的工作效率,从而提高医院医疗服务的质量和竞争。个人健康数据、医疗数据、人口健康数据。在个人健康数据方面,数据源主要是传感器信息和在线信息。使用个人疾病数据可以帮助用户更容易地实现健康管理和疾病管理。处理个人饮食和运动数据可以帮助用户直观地了解他们的身体状况,并帮助他们保持健康。在医学数据方面,数据源主要是医学研究数据和电子案例数据。医生无法跟上从这些数据中发现新的医学知识并将其用于治疗病人的速度, 而医学可视化将为医生提供直观地理解新知识的机会。人口健康数据和疾病监测数据可以帮助用户了解人口的健康状况和疾病爆发状态通过可视化技术 。

总之,如何有效地利用这些真实的临床数据,并从中发现一些对病人治疗和医生诊断有价值的规律和信息十分关键,也是当前医学信息处理研究中一个亟待解决的难题。上述问题的解决不仅能有效地辅助医生诊断、决策和治疗,提高医生的工作效率,进而提高医院的医疗服务质量和竞争力。

2 相关内容简介

2.1研究背景

传统医生在诊断疾病预先通过对病人的基本情况的了解,包括病人年龄、状态及一些基本的身体数据。然后根据以往的经验对病人的病况进行分析并得出病人所患病型,然后对病人进行治疗。若根据这些医生仍然不能得出病况,或者病人在医生初步治疗后仍无明显好转,则需要让病人借助各种医学仪器及影像检验从而产生跟家准确详细的数据然后医生利用这些数据并根据自己的经验及医学知识诊断出病人的病情并开出相应的药物。在这个工作过程的中,医生的大脑就相当于一个计算机,而医生做出的判断则相当于一系列算法及数据挖掘得出的结论。然而人脑的工作效率远不能和计算机相比,且只要计算机采用的算法足够好,人脑的计算准确率也不远低于计算机处理的准确率。因此,传统医生的诊断方法在现在看来已经具有一定的局限性,若能将这些病人的数据都交由计算机处理并结合医生的医学知识得出最后的病人的病情,这样便大大增加了医生的工作效率及诊断准确率。

若医院已经建立并投入使用医疗大数据挖掘分析系统,将患者的所有数据录入大数据系统,医生在诊断疾病和给出治疗方案时,因为大数据系统的数据来自各种各样,成千上万或上百万上千万的病人,医生即可以通过决策树、K-邻近等数据挖掘分析算法,获得类似症状或疾病机理,病因以及治疗方法,医生就可以有更好更高的把握将疾病诊断和治疗。

2.2决策树算法简介

决策树算法是数据挖掘技术中一种常用的分类预测方法 .该算法以研究对象的属性为基础,根据信息论的原理,通过多次递归的方式选择信息增益量最大的属性来作为决策树的当前节点(即最佳节点),在决策树的构建中,已经使用过的属性在决策树不能再作为节点来使用,即研究对象的每个属性在决策树种当且仅当出现有一次。在构建决议计划树的进程中,递归进程有三种终止情形[2]:

当前节点对应的所有研究对象都属于同一类别。

没有剩余属性被用来进一步对当前研究对象进行分类。

对应于当前节点的属性值的研究对象数为 0。

目前建立决策树的主要算法有 ID3 、 C4.5/car 等方法。ID3 学习算法是基于信息熵的下降和熟悉度 (也称为信息不确定性) 作为选择测试的标准 。C4.5 算法是由昆兰自己提出的扩大算法[3],是对算法的改良。C4.5 算法在收到新的训练示例后更新决策树。分类回归树车是典型的二叉树,主要用于分类研究。连续变量和分类变量可以同时处理 。

2.3研究方法

2.3.1 研究过程

构建一个分类预测模型来解决实际的胸痛待诊问题。该模型由三个子模块组成:第一个子模块主要作用是收集患者的基本信息数据(包括人口学资料、临床发病症状、危险因素、既往病史)。第二个子模块是分类算法-K 近邻和决策树两种常用的数据挖掘。通过算法进行比较而得出适合与某一疾病的最优算法,从而提高模型的整体性能。通过病人在医院的医治方案、并发症、用药得到的数据来预测病人出院后会不会发生严重的不良反应。模型预测流程图如图1所示。

1) 预处理数据,如清洗、校正和缺失值填充;

2) 根据病人信息建筑决策树。添加病人检验检测数据,用LASSO(Least absolute shrinkage and selection operator, LASSO)算法筛选特征向量为接下来建模做准备[4];3) 构建了主动脉夹层分类的子模型 (包括 K 近邻、决策树两种分类算法);

4)比较两种分类算法,得到最适合主动脉夹层分类的算法模型;

5)在医院添加治疗数据后,采用 LASSO 算法对特征向量进行筛选,建立患者出院恢復状态的子模型。

2.3.1数据准备

本文所使用的数据来自医院体检系统的经验报告数据。在对疾病诊断数据进行汇总和数据泛化分析后,将疾病诊断数据进行汇总,并采用概念层次结构将低级 “原始” 数据替换为高级概念。分析处理后数据主要包含15共15种疾病诊断,总共有6131个体检报告实例,我们把每个实例的体检项目作为这些实例的属性,共有261个检查项目如表1所示。

2.3.2分类方法

根据每个属性的不同值的数量,属性按降序排列。其结果如下(每个属性的不同值数目在括号中):疾病诊断分类(17)、检查项目(261)、检查项目明细(3602)。根据排列顺序,层从上到下生成,第一个是熟悉顶层 ,最后一个属性是在底层[5]。结果分析如图2所示。最后,用户可以检查结果分层,如果需要,修改它以反映所需属性满足的连接。在这个例子中,显然不需要修改产生的分层。

对于单列属性的二进制拆分,选择最小的 gtil 作为属性列的合理划分。而选择作为节点的属性列也要根据最小的Gini指标判断,其中Gini指标是一种不等性的度量,可以用来度量任何不均匀分布,是介于0-1之间的数;下面的算法根据 Gini 指标实现二进制拆分时,选择属性项的真正子集。通过系统计算出各个属性值分布和总样本中各个属性取值分,得出相应的治疗意见,如针对本肥胖病人的治疗选择,根据训练样本中肥胖病人的检查情况,发现需要治疗的数量小于不需要治疗的数量;需要进一步检查的数量大于不应进一步检查的数量。经计算机预测的结果由总督察协助提供更合理的治疗意见 。

3 总结

3.1要解决的主要问题

3.1.1如何从大量的积累数据中得到有意义的信息

医院电子病历 EMRs (电子病历) 有更多的数据类型 ,免费文本记录从病人测试报告到电子病程[7], 这些数据构成了构建分类预测模型所需的变量。病人住院期间所积累的数据信息量大,需要从大量的积累数据中去除噪声数据[8]以及对缺失值进行适当的处理,得到有意义的信息。

3.1.2如何选择许多特征变量

由于不同的疾病对应的危险因素不同,所以不能对整体数据集应用特征变量选择方法来筛选特征向量,而是选择出具体某一种疾病的对应的重要特征来建立针对该疾病的分类模型。

对特征变量进行降维的方法有很多。其中岭回归和LASSO分析是最可用的。

3.1.2如何处理样本不均衡问题

例如,对于非创伤性胸痛疾病,主要类别是急性心肌梗死、心绞痛、主动脉夹层等。不同类别的样本量存在较大差异,数据不平衡导致模型分类预测的偏差。

针对具体疾病,如何对多种分类算法进行比较并选出合适的算法 。

数据挖掘技术中的分类算法有 K 近邻、朴素贝叶斯、支持向量机、决策树、随机森林等。每种分类算法的优缺点不同,适应的数据类型也不同。针对具体疾病,每种分类算法表现各不相同。分类猜测模子评价指数成果的优势直接影响算法的选择。

3.2结论与展望

本文根据医院HIS数据,通过决策树算法,针对疾病诊断的影响因子进行分析预测,提出一个有效的辅助诊断分析模型,经过时间论证分析,该模型在临床应用上有一定的指导作用。今后,有必要对 HIS 中包含的医学数据进行深入的研究, 并应用决议计划树剖析算法构建医学数据卷的联系关系规矩,树立了完美的数据剖析平台。

参考文献:

[1]李奋华, 赵润林. 基于数据挖掘的疾病预测模型的构建与分析[J]. 现代计算机, 2016(18):14-17.

[2] 滕皓, 赵国毅, 韩保胜. 改进决策树的研究[J]. 济南大学学报(自然科学版), 2002, 16(3):231-233.

[3] 刘承启, 黄学坚, 徐健锋,等. 基于决策树和粗糙集的高分辨率短时临近雷电预报模型[J]. 南昌大学学报(理科版), 2014(6):559-563.

[4] 赵紫奉, 李韶斌, 孔抗美. 基于決策树算法的疾病诊断分析[J]. 中国卫生信息管理杂志, 2011, 08(5):67-69.

[5] 万晓莉. 数据挖掘中的分类和预测及其在决策支持系统中的应用研究[D]. 西南交通大学, 2003.

[6] 马丽, 陈桂芬. 基于数据挖掘的决策树算法应用研究[J]. 农业网络信息, 2008(11):45-47.

[7] 郑西川, 孙宇, 陈霆,等. 基于医疗大数据分析的临床电子病历智能化研究[J]. 中国数字医学, 2016, 11(11):61-64.

[8] 马秀红, 宋建社, 董晟飞. 数据挖掘中决策树的探讨[J]. 计算机工程与应用, 2004, 40(1):185-185.

【通联编辑:闻翔军】

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议