基于疾病与环境科学数据的跨领域关联分析及应用

2017-03-21 08:45,,
中华医学图书情报杂志 2017年7期
关键词:项集颗粒物发病率

,,

环境健康是医学领域研究发展的一个重点交叉领域,环境对健康产生的影响近年来已受到国家重视,环境健康研究积极持续开展是实现“健康中国2030”的重要保障,尤其一些区域性高发疾病与该地区环境状况密不可分。

本文以美国环境和健康领域开放科学数据为例,研究一般空气污染物、细颗粒物、气象条件、有毒物质等环境因素与肺癌、哮喘等疾病的关联关系,同时结合实际应用场景可视化展示环境与疾病科学数据关联分析结果,帮助公众了解环境条件变化容易引发某些疾病,有助于提升公众的疾病预防意识,为复杂环境条件下疾病的预防控制提供理论依据,对我国环境与健康关联关系的研究提供借鉴,也是实现“健康中国2030”的重要保障。

1 数据资源

本文采用来自美国疾病控制与预防中心网站[1]、美国国家环境保护署网站[2]开放获取的科学数据。数据资源分为疾病数据和空气污染数据两部分,疾病数据主要涉及呼吸系统疾病(如哮喘、肺癌等)、慢性病(如糖尿病)等,空气污染数据包括一般空气污染物气体、细颗粒物与有毒物质,此外还有气象数据。其中1999-2013年美国肺癌发病率数据,包括美国全国及其各州的全种族肺癌发病率、白种人肺癌发病率、黑种人肺癌发病率、西班牙裔肺癌发病率,其中2013年数据如表1所示。

表1 2013年美国肺癌发病率数据实例(每10万人)

从美国国家环境保护署网站获取1990-2016年美国环境数据,分别包括各州按年度、按月份、按天记录的一般污染物气体(如臭氧Ozone、二氧化硫SO2、一氧化碳CO、二氧化氮NO2)、细颗粒物(如PM2.5、PM10)、气象指标(风速、温度、大气压等)、有毒物质(有毒空气污染物、挥发性有机污染物、氮氧化合物等)。

2016年数据如表2所示。

表2 2016年美国空气污染物数据实例

2 方法

利用美国呼吸系统疾病数据、慢性病数据和环境记录科学数据等资源,采用空气污染与疾病科学数据关联分析与应用。首先对开放获取得到的美国疾病和环境数据进行数据预处理,其次把两个领域的数据资源整合到一起,再对整合后数据资源进行关联分析,以及结果的应用场景分析。整个过程主要包括数据资源预处理、数据资源整合、数据关联分析和应用。

2.1 数据资源预处理

由于分别通过美国疾病控制与预防中心网站、美国国家环境保护署网站开放获取得到疾病数据和环境数据资源,存在数据存储格式多样、空缺值、数据单位不一致等问题,会给数据资源整合及关联分析等带来一些不便。因此首先对不同存储格式的数据文件进行格式转化,统一存储格式。然后针对环境数据中的空缺值采用均值法,进行空缺值弥补;同时针对疾病数据资源中确实缺失的空缺值,进行去除空缺值处理。环境数据中针对同一环境指标单位不统一的问题,进行不同单位之间换算,转换成统一单位。

2.2 数据资源整合

疾病数据资源和环境数据资源是来自两个领域的资源,需要对其进行跨领域数据资源整合。首先按照区域把某一地区的疾病数据和该地区的环境数据对应整合起来,再按时间(年、月、日)把该地区对应时间内疾病情况进行整合,最终形成时间、地区、疾病情况、空气污染物、细颗粒物、气象条件、有毒物质等维度的整合数据资源集。

2.3 数据关联分析与应用

对整合后的数据资源进行关联分析,首先采用C4.5分类算法从空气污染物、细颗粒物、气象条件、有毒物质等多种危险因素中寻找对疾病发生影响较大的因素[3-4],进而利用关联分析方法构建这些危险因素分别与疾病发生之间的关联关系,再把这些关联关系进行可视化形式展示,最后结合关联结果进行分析,同时研究成果在中国工程科技知识中心医药卫生知识服务系统中得以应用。

本文利用关联分析发现隐藏在整合后的环境与疾病数据集中众多危险因素与疾病发生之间的联系。关联关系的挖掘主要包括两步:一是找出所有的频繁项集,这些项集的每一个频繁出现的次数至少与最小支持计数一样;二是由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度[5]。

Apriori算法是一种常用的频繁项集挖掘算法。本文采用Apriori算法,使用逐层搜索的迭代方法,其中k项集用于探索(k+1)项集[5]。首先,通过遍历扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记为L1。然后,使用L1找出频繁2项集的集合L2,使用L2找出L3,如此下去,直到不能再找到频繁k项集。找到每个Lk需要一次数据库的完整扫描。由找出的频繁项集产生强关联规则,强关联规则满足最小支持度和最小置信度,置信度计算公式如式(1)。

(1)

用项集的支持度计数表示置信度,其中suppport_count(A∪B)是包含项集A∪B的数目,suppport_count(A)是包含项集A的数目。由于关联规则是由频繁项集产生的,所以每个规则都自动地满足最小支持度,本文使用Weka 3.5.8软件,设置最小支持度阈值为60%,最小置信度阈值为70%,生成的频繁项集(如{PM2.5}、{PM2.5,PM10}、{PM10,NO2,SO2}等)和它们的支持度可预先存放在散列表中,便于它们被快速访问,具体关联关系展示见下文。

3 关联分析结果

本文针对一般污染物气体、细颗粒物、气象因素、有毒物质等环境因素与肺癌、哮喘等疾病开展关联分析,同时把分析结果应用到项目实践中。

3.1 1999-2013年美国各州肺癌发病率与环境关联关系

通过分别对1999-2013年美国各个州肺癌发病率与空气污染物、细颗粒物、气象指标、有毒物质等进行关联分析,得到如下结果。

关联规则前件{PM2.5,PM10}、{PM2.5,SO2}、{PM2.5,SO2,NO2}、{PM10,Ozone, CO},可以推导出后件{肺癌},置信度分别为93%、81%、84%、79%,可以看出一般污染物气体(Ozone、SO2、CO、NO2)和细颗粒物(PM2.5、PM10)对肺癌发病率影响较大,且随着空气污染物浓度和细颗粒物浓度变大,肺癌发病率也随之增加,尤其是细颗粒物浓度对肺癌发病率的影响更加明显,如图1所示。

从总体趋势上看2013年美国各个州的PM2.5浓度从低到高递增,肺癌发病率随之升高(但不排除个别州的PM2.5浓度高而肺癌发病率偏低的情况出现)。与一般污染物气体和细颗粒物相比,风速、温度、大气压等气象指标对各州肺癌发病率的影响不太明显。

图1 2013年美国各州肺癌发病率与PM2.5浓度关联关系

3.2 1995-2010年美国加利福尼亚州哮喘患病率与环境关联关系

对1995-2010年美国加利福尼亚州哮喘病患病率与空气污染物、细颗粒物、气象指标、有毒物质等进行关联分析,可以看出以下3点。

1995-2010年加州哮喘病患病率总体呈现缓慢上升趋势,而在这16年间,臭氧浓度基本稳定,二氧化硫、一氧化碳、二氧化氮浓度呈现下降趋势明显,尤其是2000年以后二氧化硫、一氧化碳、二氧化氮等一般污染物气体浓度下降显著,所以1995-2010年加州哮喘病患病率增加与一般污染物气体关联不太大。

1995-2010年间细颗粒物对加州哮喘病患病率增加有影响,尤其是PM2.5对患病影响明显。如图2所示,1995-2010年加州PM2.5浓度呈上升趋势,尤其1997-1999年PM2.5浓度上升明显,期间哮喘病患病率也在增加;2006-2008年PM2.5浓度逐年上升,哮喘病患病率也在增加;2000-2004年间哮喘患病率逐年增加,可能与1997-1999年PM2.5浓度快速上升引发患病的时滞性有关。

1995-2010年气象指标(风速、温度、大气压等)和有毒物质与加州哮喘病患病率关联不太明显。

图2 1995-2010年美国加州哮喘患病率与PM2.5关联关系

3.3 可视化展示

本文基于美国疾病控制与预防中心和美国国家环境保护署的开放科学数据,开展环境与疾病关联分析,同时利用MyEclipse软件实现分析结果的可视化展示,并把涉及的一般空气污染物气体、细颗粒物、气象因素、有毒物质与疾病之间的关联分析结果已应用到中国工程科技知识中心医药卫生知识服务系统中环境健康板块,其中2013年美国各州肺癌发病率分布、2013年美国各州NO2浓度排序分别如图3、图4所示。

图3 2013年美国各州肺癌发病率分布

图4 2013年美国各州NO2浓度排序

4 讨论与结论

本文基于美国开放科学数据,整合处理空气污染物、细颗粒物、气象因素、有毒物质等环境条件与肺癌、哮喘等疾病的跨领域数据资源,研究环境与疾病之间的关联关系,并结合实际应用场景可视化展示关联分析结果,利于增进公众对环境条件变化易引发某些疾病的了解,有助于公众提升疾病预防的意识。为我国环境健康领域研究有序开展提供借鉴,为实现“健康中国2030”的提供重要保障。近年北美和欧洲在环境健康领域都已开展了大量的研究[6-8]。美国国家疾控中心已成立专门机构长期开展环境健康研究,对环境与高发疾病的影响进行深入挖掘。欧洲空气污染与健康项目(Air Pollution and Health:A European Approach)研究温暖季节里,臭氧浓度增加与每天新增死亡人数的关系[9],以及与心血管疾病、呼吸系统疾病死亡人数增加之间的关系[10]。Brooke A.在美国亚特兰大、达拉斯、圣路易斯等多个城市中,研究环境空气污染引起急诊门诊哮喘病就诊量的变化,发现年龄是哮喘发病的敏感因素,在学龄儿童中更加明显[11]。近年来我国也逐渐关注地域、气象、环境等与疾病的关联影响[12-14]。殷永文等人研究上海市雾霾期间PM2.5、PM10污染与呼吸科、儿科呼吸科日均门诊人数的相关性,发现PM10日均浓度每增加50μg/m3,呼吸科、儿科呼吸科日均门诊人数分别增加3%和0.5%;PM2.5日均浓度每增加34μg/m3,呼吸科、儿科呼吸科日均门诊人数分别增加3.2%和1.9%,而且PM2.5、PM10污染对门诊人数影响的滞后累积效应大于当日效应[15]。安爱萍等人对近年来我国大气环境现状对人体健康影响进行了综述,涉及大气污染物对身体健康的急、慢性作用、气象要素变化诱发心脑血管疾病、呼吸系统疾病与免疫系统功能的影响[16]。

与之前研究不同,本文采用基于Apriori算法的关联分析方法,不仅从众多污染物中提取与疾病关联关系明显的污染物,且实现了结果的可视化展示,有利于加深公众对环境健康问题更直观的理解。

由于本文利用开放数据开展关联分析,暂没有获取到患者的既往病史、家族史、是否吸烟等信息,是目前研究的不足。同时本文侧重在已有数据基础上,研究分析以往时间段内环境对疾病的影响,但如果利用已有数据预测未来疾病发生的趋势,将利于医院等卫生医疗机构有序应对环境变化引起的病患增加,进而合理安排布局医疗资源,因此如何预测未来疾病的发病趋势是仍然需要不断研究的方向。

猜你喜欢
项集颗粒物发病率
道路空气颗粒物污染与骑行流的相关性研究
多晒太阳或可降低结直肠癌发病率
ARIMA模型在肺癌发病率预测中的应用
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
不确定数据中的代表频繁项集近似挖掘
宫内节育器与宫颈糜烂发病率的临床研究
大连港职工甲状腺结节发病率调查
多层介质阻挡放电处理柴油机尾气颗粒物
关于环境领域英文符号PM2.5 中文名称的建议