基于C4.5分类的呼吸系统疾病危险因素定量分析方法

2016-03-21 11:40,,
中华医学图书情报杂志 2016年8期
关键词:决策树分类器人群

, ,,

随着环境污染问题日益凸显,呼吸系统疾病发病人数随之增加,意味着呼吸系统发病与暴露在环境空气污染中存在某些关联,尤其是PM10、二氧化硫(SO2)和二氧化氮(NO2)。如果环境污染问题得以控制,呼吸系统发病率也将随之降低。

目前,欧洲和北美在这一领域已开展了大量的研究[1]。欧洲空气污染与健康项目(Air Pollution andHealth: A European Approach,APHEA)研究表明

在温暖季节中,臭氧浓度每小时增加10μg/m3,这种情况会引起每天死亡人数增加0.33%,心血管疾病死亡人数增加0.45%,呼吸系统疾病死亡人数增加1.13%[2-3]。而且在北美90个大城市开展的NMMAPS(National Morbidity, Mortality, and Air Pollution Study)研究指出,前一天空气中PM10浓度每增加10μg/m3将导致日死亡率大约增加0.2%[4]。亚洲PAPA(Public Health and Air Pollution in Asia)项目研究表明,采用时间序列方法研究上海2001-2004年4年中室外空气污染与死亡率的关系[5]。环境污染在不同人群中的影响存在差异性,因此本文的重点是分析在特定人群中引发呼吸系统疾病的危险因素。

在不同的人群中,定量分析各自对应的呼吸系统疾病危险因素和进行重要因素选择,有利于提升分类准确率。因此本文基于C4.5分类方法分析特定人群的呼吸系统疾病发生的危险因素,其结果可以应用于预防和控制呼吸系统疾病发生。

1 数据来源

本文的数据来自于2009年1月1日至2011年12月31日北京3家大型综合医院的135 008例急诊、诊呼吸系统疾病数据,包括患者就诊日期,患者性别、年龄、就诊科室、诊断结果及对应的ICD编码等(表1)。

门诊数据资源(均为急诊门诊的呼吸系统疾病数据)中有76 359例男性数据(占56.56%),58 649例女性数据(占43.44%)。按照性别和年龄划分的疾病数据资源如表2所示。

表1 门诊数据实例

表2 按性别和年龄划分的急诊门诊呼吸系统疾病数据资源

从2009年1月1日到2011年12月31日的环境监测数据来自北京环境监测中心,共采集1 095天,主要包括空气污染物和气象指标两部分。其中已监测的空气污染物包括二氧化氮(NO2)、二氧化硫(SO2)、PM10,气象指标包括24小时平均温度、相对湿度、风速、气压、日照时长和降水量等(表3)。

表3 环境数据实例

2 方法

本文中的危险因素是指从不同人群的众多因素中发现引发呼吸系统疾病的重要危险因素。利用急诊门诊数据和环境记录数据,确定一种危险因素定量分析方法,采用数据挖掘方法构建算法模型。首先在数据预处理阶段将急诊门诊数据分成两类(一类是急性上呼吸道感染,另一类是流感、肺炎、慢性下呼吸道疾病等),并采用SMOTE(Synthetic Minority Over-sampling Technique)方法解决数据不平衡问题[6-8],然后将按照性别和年龄全体人群分成9组,再采用C4.5分类算法构建危险因素定量分析模型。整个过程主要包括数据预处理、解决数据不平衡问题、人群划分和危险因素定量分析四部分。

2.1 数据预处理

2.1.1 数据清洗

由于在门诊数据中存在空缺值、噪声和语义不一致等问题,可能会对实验结果带来一些不利影响。本文首先通过填充空缺值、识别孤立点、降噪、纠正不一致数据等逐一进行处理,然后去除重复数据和空缺值过多的因素,最终得到30维135 008条数据资源。这些数据包含疾病情况、患者自身情况(如性别、年龄)和环境因素(如二氧化氮、二氧化硫、PM10、24小时平均气温、日最高气温、日最低气温、相对湿度、风速、日最高风速、日最低风速、气压、日平均气压、日最高气压、日最低气压、日照时长、降水量和季节等)。

2.1.2 数据分类

根据患者病情,采用ICD-10编码对呼吸系统疾病的诊断结果进行编码,如急性上呼吸道感染(J00-J06)、流感和肺炎(J09-J18)、慢性下呼吸道疾病(J40-J47)等[9]。依据呼吸道系统疾病病理及诊断结果,把本文中急性上呼吸道感染(J00-J06)定义为类型I[10],占整个数据量的87.74%;流感和肺炎(J09-J18)(占5.99%)、慢性下呼吸道疾病(J40-J47)(占4.12%)和其他疾病定义为类型II,共占12.26%。类型I和类型II的比例为7.16:1。因此,类型I类型II间存在数据不平衡问题。

2.2 数据平衡

为了解决数据不平衡问题,本文采用SMOTE采样方法[6-8]。SMOTE方法是一种改进的采样方法,通过对少数类样本的人工合成,来提高少数类样本所占的比例,从而降低数据集中过度倾斜的问题。文中通过SMOTE方法增加少数类的样本量,提升分类器的性能,消除或减少少数类的不平衡问题。

比较采用SMOTE方法前后分类器的性能详见表4。从表4可以看出,采用SMOTE方法之后分类器的性能普遍提升,类型I与类型II的比例基本接近1:1。

表4 采用SMOTE 前后分类器性能对比

注:AUC :ROC曲线下面积,可以直观的评价分类器好坏,介于0.1~1之间,值越大越好

2.3 人群划分

为了在不同人群中定量分析危险因素,本文根据性别和年龄将全体人群分成8个子组。并根据C4.5算法原理,距离决策树根节点越近的因素对急性呼吸系统疾病的影响越大。全体人群决策树的上半部分如图1所示,在决策树中年龄和性别距离根节点最近,且年龄在49岁、11岁和68岁几个节点处被分开[11-12]。因此我们按性别和年龄将全体人群划分成8个子组,具体包括年龄>49岁、≤49岁、男性>49岁、女性>49岁、11<男性≤49岁、11<女性≤49岁、男性≤11岁和女性≤11岁,连同全体人群在一起共9组。

图1 全体人群决策树的上半部分

2.4 危险因素定量分析

在每组人群中发现的危险因素原理图如图2所示,主要包括C4.5模型训练、危险因素作用程度 (如公式1)计算、作用程度分析3个步骤。

图2 危险因素定量分析的原理图

2.4.1 C4.5 模型训练

由于C4.5算法用信息增益率来选择重要因素,且在决策树构造过程中对只有几个元素的节点采取剪枝处理,避免出现过拟合,同时提升分类准确率。因此文中采用C4.5决策树算法训练分类器模型,利用十折交叉法验证分类器。以>49岁组为例,首先通过训练集数据训练C4.5模型,再用十折交叉法验证,同时分析分类器模型的性能,得到决策树。利用 Weka 3.5.8软件训练分类器模型,训练参数分别为置信因子0.25,每个节点至少有两个子节点。类似地,利用全体人群和其他7组子人群分别训练各自的分类器模型,各组C4.5分类器模型的性能如表5所示。

表5 各组C4.5模型的性能

2.4.2 因素作用程度计算

通过全体人群和8个子组人群分别训练得到各自决策树,根据决策树前4层结构分别计算各个危险因素的作用程度,具体计算公式如公式(1)所示。

其中,L 是某一危险因素位于决策树第L层,n是该危险因素在第L层出现次数。

2.4.3 作用程度分析

分别对各组人群危险因素的作用程度进行统计分析发现,共有年龄(age)、性别(gender)、二氧化硫(SO2)、二氧化氮(NO2)、PM10、风速(wind speed)、降水量(rainfall)、湿度(humidity)、温度(temperature)、气压(air pressure)、光照时长(sunshine)、季节(season)等12个危险因素出现在9个决策树的前4层,具体分析结果在结果部分展示。

3 结果

3.1 危险因素作用程度

各组人群危险因素引发急性呼吸系统疾病的作用程度如图3-图5所示。

图3 年龄>49人群环境危险因素作用程度对比结果

图4 11<年龄≤49人群环境危险因素作用程度对比结果

图5 年龄≤11人群环境危险因素作用程度对比结果

结合图3-图5对不同人群中环境危险因素作用程度进行分析,得到如下结果。一是NO2、PM10和SO2对11<年龄≤49男性的影响要大于11<年龄≤49女性;在11<年龄≤49人群中,NO2和PM10对男性的影响明显大于女性,这两种污染物对女性的影响很小;SO2对男性的影响是女性的2倍;日照时长对11<年龄≤49女性的影响较大,而对11<年龄≤49男性基本没有影响;气压对11<年龄≤49女性的影响是11<年龄≤49男性的3倍(图4)。二是SO2对 >49岁女性的影响远大于>49岁男性,>49岁男性比>49岁女性更易受NO2和PM10影响 (图3)。三是日照时长对≤11岁女孩的影响要远大于≤11岁男孩,但≤11岁男孩比≤11岁女孩更易受NO2的影响(图5)。四是年龄≤49岁人群比>49岁老年人更容易受空气污染的影响,尤其是NO2和SO2;NO2对≤49岁人群中的作用程度是>49岁老年人的5倍多;湿度和温度对>49岁老年人的作用程度比≤49岁要大,但≤49岁人群的影响很小。

3.2 对比分析

为了评价本文中所用分析方法的有效性,采用元分析方法开展对比实验,元分析方法是该研究领域通常采用的方法[13-15]。同样利用Weka 3.5.8训练元分析模型。以全体人群为例,通过元分析模型得到年龄、NO2和降水量是位于前3位引发呼吸系统疾病的危险因素,与C4.5模型前3位危险因素一致。但是该模型的准确率比C4.5模型低12.70%,如表5和表6所示,且ROC曲线下面积AUC值比C4.5模型要小。构建其他子人群的元分析模型,各模型性能如表6所示。

表6 各人群元分析模型的性能表

4 讨论

本文定量分析了引发呼吸系统疾病的危险因素,该方法结合不同人群的特征分别给出各自的危险因素,以及这些危险因素对呼吸系统疾病影响程度的排序,并在因素之间进行了定量对比分析,结果可应用于挖掘空气污染与呼吸系统疾病发生之间的关联关系,有助于临床医生了解暴露于空气污染环境与呼吸系统疾病就诊情况的关系,以制定在不同的环境条件下相应的接诊应对措施。

本文采用基于C4.5决策树的计算方法,以生成决策树的形式展示分类规则,直观易于理解,且算法准确率较高。与元分析方法对比分析发现9组人群C4.5模型的准确率都有提升(如表3和表4所示)。但C4.5方法在构造决策树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的计算效率较低。同时本文中按性别和年龄细化人群的方法,对不同人群进行有针对性的定量分析。之前相关研究中普遍使用元分析[16]、时间序列方法[17-18]和病历交叉方法[19-20],如APHENA(Air Pollution and Health: A Combined European and North American Approach)研究中应用元回归方法和多城市的时间序列方法研究空气污染对公众健康的影响[2,21];Ling Tong采用时间序列分析方法研究空气污染与心血管疾病发病率的关系[22];Valerie B Haley基于时间分层的病历交叉方法估计PM2.5的短期影响对美国纽约地区心血管疾病住院人数的影响[23]。

Francesca Dominici等人研究了北美地区空气中PM10对全人群呼吸系统疾病死亡率的影响[4],Kan H等人研究了上海地区空气污染与全人群中死亡率的关系[5],本文群在按年龄和性别划分在人群的基础上,进一步细化了污染物因素对呼吸系统疾病的影响。

由于从2013年1月1日起,环保部正式将PM2.5列入空气监测指标中,本文暂未能获取2009-2011年间PM2.5监测数据,文中未涉及PM2.5的分析。又因急诊患者多由短期暴露在空气污染中引发疾病,本文暂不考虑长期暴露于污染物对慢性病患者的影响,因此空气污染物累积的长期影响在本文中没有涉及。患者自身吸烟史、慢性病史等在急诊门诊中尚未采集,也是本文不足之处。

本文定量分析了不同人群发生呼吸系统疾病的危险因素,但这些危险因素的敏感区间尚未知,如何发现敏感区间是下一步研究的重点。

猜你喜欢
决策树分类器人群
糖尿病早预防、早控制
决策树和随机森林方法在管理决策中的应用
我走进人群
财富焦虑人群
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于层次化分类器的遥感图像飞机目标检测