岳 路 马凌燕 魏本征
(山东中医药大学,山东济南 250355)
目前医院都在推行信息管理系统,为患者建立电子病历,随着电子病历的普及,存储的数据量急剧增加,这些数据内部存在着各种千丝万缕的联系,如何对这些海量数据进行筛选、分析,并发现其中未知的规律是一个非常有研究价值的方向。数据挖掘就是一种用于在大规模数据中发现知识的常用技术,在对病历数据进行挖掘的过程中,最关键的问题是能否选择适用于挖掘环境的数据挖掘算法,能否建立恰当的分类模型。
肺炎是一种危害婴幼儿健康和生命安全的常见病,是导致5岁以下婴幼儿死亡的主要病因,中医对于肺炎辩证和治疗有独有的特点和手段,在小儿肺炎的中医辩证中,要搜集小儿的各种病理表现参数,这些参数在肺炎辩证中具有重要的作用。如小儿肺炎指纹,是指从虎口到食指内侧的桡侧浅静脉,由于小儿皮肤很薄,所以这条小静脉的形状、颜色、显露程度可以反应出小儿的血液运行情况和身体状况,为辩证提供有力依据,故在临床中,观察小儿指纹是一种常用的诊断手法。目前,采用数据挖掘技术对小儿肺炎指纹图像进行研究还处于探索阶段,本文以小儿肺炎中医辨证理论为基础,结合小儿肺炎指纹图像,采用决策树算法构造小儿肺炎分类模型。
决策树是一种典型的分类算法,起源于概念学习系统CLS(Concept Learning System),其方法就是利用信息论中的信息增益寻找具有最大信息量的分类字段,可以从一组无次序、无规则的事例中推理出可视的分类规则,它具有分类和测试速度快,可以选择重要的决策属性,分类准确率比较高等优点。
本文涉及到的所有数据来源于山东中医药大学附属医院儿科临床病例,共选取300例已经确诊的病儿信息作为研究对象,每例含有29个数据项。包括食指内侧的桡侧浅静脉的显露部位、显露程度、是否流畅、色泽特点、病儿的体温、咳嗽的特点、舌象、鼻咽部症状、消化道症状、睡眠状况、三凹征、是否存在气促、肺部听诊结果、面部色泽、大便特点、小便特点、变症等。
对于临床采集的数据,难免会产生不完整性、不一致性和噪声等现象。因此,必须对原始数据进行数据预处理,尽可能提高数据的质量。经过数据预处理,在临床采集表中共选取目标样本300个,其中100个样本作为训练集,其余200个作为检验集。每个样本提取与分类结果关联性较强的22个指标属性,对原始数据中每个分类变量指标数量化,对分类变量指标的可能属性赋值,例如“指纹颜色”属性用1表示“淡红隐隐”,用2表示“紫红”(见表1);小儿肺炎辨证分类空间共有7个不同取值,如表2所示。
表1 对小儿肺炎辨证有影响的指标属性
R12 口渴 无(1) 口渴(2)R13 口唇 发绀(1) 红赤(2) 干燥(3) 红润(4)R14 乏力 乏力(1) 无(2)R15 汗出 微汗(1) 多汗(2) 无汗(3)R16 消化道症状 腹胀(1) 恶心(2) 呕吐(3) 无(4)R17 饮食 正常(1) 食少纳呆(2)食欲不振(3)R18 大便 正常(1) 溏薄(2) 干结(3)R19 小便 清长(1) 黄赤(2) 正常(3)R20 舌色 淡红(1) 红(2) 淡白(3)R21 舌苔厚薄 厚(1) 薄(2) 剥脱苔(3)少苔(4)R22 舌苔颜色 白(1) 黄(2)
表2 小儿肺炎的分类
(1)选择决策树算法
本文采用的算法采取一系列局部最优决策来构造决策树。即通过将训练集相继划分成较纯的子集,以递归方式建立决策树。设Dt是与结点相关联的训练记录集,而 Y ={y1,y2 ,...,y c}是类标号,递归定义如下:
1)如果Dt中所有的记录都属于同一个类yt,则t是叶结点,用yt标记。
2)如果Dt中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),将记录划分成较小的子集,对于测试条件的每个输出,创造一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中,然后,对于每个子女结点,递归的调用该算法。
建立决策树的伪代码描述如下:
(2) 选择最佳划分的度量
设 P (i|t)表示给定结点t中属于类i的记录所占的比例。选择最佳划分的度量可以参照划分后子女结点不纯性的程度。
对某组训练模型中的结点,需计算每个属性值的Gini系数,多路划分的总Gini系数等于子女节点的不纯度量的加权平均值。如:当选择根结点为R1(鼻部症状)时,R1产生4路分支,分别是 R1=1(鼻塞),R2=2(黄涕),R3=3(白涕),R4=4(鼻孔干燥)。计算得到:
图1 小儿肺炎中医辨证分类的决策树模型
决策树模型建立后,用200个病历作为测试样本进行测试,得出小儿肺炎的辨证分类准确率为82.3%。具有较广泛的实用价值,可用于小儿肺炎中医临床辨证的辅助诊断。
[1] 叶晨洲,杨杰,狄道颖.应用数据挖掘技术从大脑胶质瘤病例中获取诊断知识.生物医学工程学杂志,2002,19(3):426-430
[2] 冯少荣,肖文俊.基于样本选取的决策树改进算法,西南交通大学学报,2009,5
[3] 龚德平,高颖,唐涛,基于数据挖掘的数字化中医诊断系统,中国医学影像技术,2003