降惠 尹振保 武丽娟 崔永梅 魏晋
摘 要: 探讨长治市手足口病(HFMD)与气象因素的关联关系。 利用Apriori关联规则算法挖掘不同气象因素组合引发手足口病的频繁程度。长治市手足口病的周高发、中等发病率与前一周的平均水汽压、气温具有显著相关性。而周低发病率与前一周的气温(最低、平均)、降水量存在显著相关性。长治市手足口病周发病率与气象因素存在一定的关联性,应根据气象条件进行流行风险评估,及时采取相应的防控措施。
关键词: 手足口病; 气象因素; 关联规则分析
文章编号: 2095-2163(2021)07-0124-05中图分类号:TP399文献标志码: A
Application of Apriori algorithm in the analysis of
the relationship between hand-foot-mouth disease and meteorological factors
JIANG Hui1, YIN Zhenbao2, WU Lijuan1, CUI Yongmei3, WEI Jin1
(1 Department of Computer Teaching, Changzhi Medical College, Changzhi Shanxi 046000, China;
2 Changzhi Meteorological Bureau, Changzhi Shanxi 046000, China;
3 Changzhi City Center for Disease Control and Prevention, Changzhi Shanxi 046000, China)
【Abstract】To investigate the correlation between HFMD and meteorological factors in Changzhi city, the Apriori association rule algorithm is used to mine the frequency of HFMD caused by different meteorological factors. The high and moderate incidence of HFMD is significantly correlated with the mean vapor pressure and temperature in the previous week.But the low weekly incidence is correlated with temperature (lowest,mean) and the rainfall in the previous week. There is a certain correlation between the weekly incidence of HFMD and meteorological factors in Changzhi City. Epidemic risk assessment should be carried out according to meteorological conditions, and corresponding prevention and control measures should be taken in time.
【Key words】hand-foot-mouth disease(HFMD); meteorological factor; association rule analysis
0 引 言
在全球气候变化的背景下,气象因素导致的健康效应备受关注[1]。许多传染病的流行都与气象因素有关[2]。手足口病(hand,foot and mouth disease,HFMD)是由肠道病毒感染引起的一种常见传染病[3]。国内外大量研究表明,气象因素会影响手足口病流行[4-5]。近年来,许多流行病学、统计学专家学者致力于研究手足口病与气象因素的关系,但传统统计分析只能揭示手足口病对气象因素的依赖程度,而关联规则分析作为数据挖掘中的一项重要技术,可以通过检验各种气象因素组合引发手足口病的频繁程度[6],得到定量表达手足口病随气象因素变化的情况,有效简化数据处理过程。因此,本文尝试采用关联规则分析法探索气象因素对手足口病的流行影响,为预防手足口病提供借鉴和参考。
1 数据来源与预处理
1.1 研究区域概况
长治市位于山西省东南部,辖4区8县(包括潞州区、屯留区、潞城区、上党区、长子县、壶关县、平顺县、黎城县、沁县、武乡县、襄垣县、沁源县),人口347.8万人,属暖温带半湿润大陆性季风气候区。
1.2 数据来源
本研究以12个县区的周数据作为研究单元,时间跨度為2009~2018年。研究中涉及手足口病数据、气象数据和人口数据三类数据。手足口病数据来自于“国家疾病监测信息管理系统”。因2018年长治市行政区划调整,将2009~2017城区与郊区手足口病周发病数合并为潞州区发病数。气象数据来源于长治市气象台(11个国家级地面气象观测站),共采集到十年来11个县区9种气象因素(定时风速、相对湿度、降水量、最高气温、平均气温、最低气温、日照时数、平均气压与平均水汽压)的周数据。潞州区因无国家级气象观测站,气象数据根据屯留区、潞城区、上党区数据取均值进行统计分析。人口数据来自于2010~2019年山西统计年鉴。
1.3 数据预处理
研究中,考虑到手足口病潜伏期为2~10天,因此选取周发病率与前一周的9项气象因素建立二维关系表。其中,含有的缺失值和异常值采用行删除法或替换法处理[7]。对于有较大缺失值的观测样本采用减少样本量,即行删除法处理。因研究中涉及的数据均为数值型,所以对于样本中存在的个别缺失值和异常值,使用前后一周数据的均值进行替换。经过清洗,最终确定用于研究的数据为63 300个。
2 关联规则分析
2.1 关联规则与Apriori算法
关联规则反映一个事物(或属性)的出现对其他事物(或属性)的出现有多大的影响。关联规则分析是从大型关系数据库或事务数据库的海量数据中发现并提取频繁出现的或人们感兴趣的知识,是一种无监督学习的数据挖掘方法[8]。
在关联规则分析中,一条样本记录称为一个事务。样本的属性称为项,多个属性组成的集合称为项集,k个属性组成的集合称为k-项集。对于事务数据库中的一条记录,如果同时具有互不相交的2个子项集A和B,则项集A和B是关联的,即A->B。A称为前项,B称为后项。关联规则分析可以从大量数据项集中发现频繁出现的模式和关联性。但得出的关联规则并不能直接使用,还需要根据置信度、支持度和提升度指标进行评估,从而得出具有一定参考价值的关联规则[9]。支持度是指项集A、B同时出现的频率,主要体现关联规则的重要性,置信度是项集A发生前提下B发生的频率,主要体现关联规则的准确性[10]。提升度是項集A发生前提下B发生的概率与B总体发生的概率之比。在关联规则分析中,最小支持度表示挖掘出的关联规则必须满足数据项频度的最小支持阈值,其取值影响着生成频繁项集的数量[11]。最小置信度体现关联规则的最低可靠性,其取值影响着生成强关联规则的数量[12]。
目前,常用的关联规则算法有Apriori、FP-Tree、Eclat和灰色关联算法。其中,Apriori是最经典、也是最常用的挖掘频繁项集的算法。Apriori算法采用逐次迭代的方法,通过反复扫描事务数据库,连接产生所有的频繁项集,然后根据预先设定的支持度、置信度和提升度参数,利用剪枝的方法得到感兴趣的强关联规则。本研究拟采用Rstudio软件,借助arules和arulesViz程序包中的相关函数实现Apriori关联规则分析。
2.2 数据离散化
在构建关联规则模型时,为缩小数据的覆盖范围,使数据更适应模型,匹配Apriori关联规则建模的格式要求,分析中首先对各数据项进行离散化分组。为保证每组中样本量的一致性,本研究利用arules包中的discretize()函数,将每个属性值分组数预设为7[13],按照等深分组的方法,识别出相应的阈值区间,各数据项具体分组情况见表1。数据离散化后,将其导入到Rstudio中,并将其转换为“transcations”格式,建立事务数据库。
2.3 不同程度手足口病周发病率与气象因素的关联规则分析
在事务数据库中,每个样本记录包含10个属性,即:手足口病发病率与9种气象因素值。为了分析不同程度手足口病周发病率与气象因素的关联关系,分析中将前一周9种气象因素值作为9-项集A,手足口病周发病率作为项集B。对于任意一条记录,如果同时具有项集A和B,则项集A和B是关联的,即A->B。
2.3.1 手足口病高发病率与气象因素的关联规则分析
本研究中将最小支持度和置信度分别设定为0.011、0.55,共生成关联规则7 385条。为了求出频繁项集中手足口病高发病率与气象因素之间的关联关系,研究中将气象因素设置为前件,将手足口病高发病率HFMD5设置为后件。高发病率与气象因素的强关联规则见表2。当提升度(lift)>=3.5时,共得到3条强关联规则。
表2结果显示,手足口病的高发病率主要有2种气象特征:
(1)前一周平均水汽压为VapPres5,最低气温为LTemp6,特别是平均气温为MTemp6时。
(2)前一周平均水汽压为VapPres5,最高气温为HTemp7。
高发病率与气象因素的强关联规则如图1所示。由表2与图1可以看出,手足口病的高发与平均水汽压、气温具有显著的相关性,结果与国内相关报道一致[4]。
2.3.2 手足口病中等发病率与气象因素的关联规则分析
为了探讨手足口病中等发病率与气象因素的关联关系,将中高发病率HFMD4、中发病率HFMD3、中低发病率HFMD2作为后件,将气象因素作为前件,将最小支持度、置信度分别设置为0.02和0.2,共生成关联规则3 404条。中等发病率与气象因素的强关联规则见表3。当提升度(lift)>=2时,生成5条强关联规则。在生成的强关联规则中,后件均为HFMD4,说明中高发病率与气象因素的关联性更强。
中等发病率与气象因素的强关联规则如图2所示。由表3和图2可以看出,HFMD中等程度的发病率与前一周平均水汽压、气温(最高、最低、平均)均具有显著的相关性,当前一周平均水汽压、气温(最高、最低、平均)位于最高区间时,会造成手足口病中等程度的流行。
2.3.3 手足口病低发病率与气象因素的关联规则分析
为了探讨手足口病低发病率时的气象特征,研究中将气象因素设置为前件,将HFMD1设置为后件,最小支持度和置信度分别设定为0.1、0.8,共生成关联规则25条。低发病率与气象因素的强关联规则见表4。当提升度(lift)>=1.9时,得到3条强关联规则。
低发病率与气象因素的强关联规则如图3所示。由表4与图3可以看出,手足口病的低发与最低气温、平均气温、降水量存在显著的相关关系,当最低气温、平均气温、降水量位于最低区间时,手足口病的发病率较低。
3 结束语
目前,关联规则分析在医学领域的应用主要集中于中医用药规律分析、慢性病患病因素分析、上呼吸道疾病与气象因素相关性分析等。本研究采用Apriori关联算法分析了长治市2009~2018年各县(区)手足口病与气象因素的关联性。
研究结果显示,不同程度的手足口病发病率与各气象因素的关系存在一定的差异。手足口病的高发、中等发病率与前一周平均水汽压、气温(最高、最低、平均)存在显著的相关性。高发病率有2种气象特征:
(1)平均水汽压为中等([9.08 hpa,12.65 hpa)),最低、平均气温为次高([13.08 ℃-16.73 ℃)、[18.65 ℃-21.87 ℃))。
(2)平均水汽压为中等([9.08hpa,12.65hpa)),最高气温为最高(高于28.15 ℃)。
这可能有2方面的原因:一是湿热的气象环境,适合肠道病毒的繁殖与快速传播,二是适宜的气象环境下,易感人群室外活动频率增加,感染几率增大。当平均水汽压、气温满足这2个条件时,HFMD下周暴发的可能性最大,在这个时期应加大防控知识宣传力度;提醒家长少带孩子到拥挤的公共场所,不喝生水,不吃不卫生食品;加强食品和卫生监测;增加幼儿园、学校、青少年活动中心、文体中心等聚集场所的卫生清洁与消毒频次。
手足口病的低发与气温(最低、平均)、降水量存在相关性。当降水量最少、平均气温最低時,环境干燥寒冷,大部分病毒干冷而死,发病率低。
综上所述,本研究利用Apriori关联规则算法,通过反复扫描2009~2018年长治市手足口病周发病率与前一周9种气象因素建立的事务数据库,得出了频繁出现的项集,最后根据提前设置的最小置信度等参数得出强关联规则。研究结果与国内外文献报道一致[4,14-15]。但研究中以周作为时间尺度,可能不能精准地反映气象因素对手足口病的流行效应。今后,有待选择日作为研究单元,分析气象因素对不同滞后天数手足口病的流行影响,研究结果可能会更准确。此外,手足口病的发病可能受人口密度、经济条件等多种因素的影响,下一步应综合考虑这些因素,为手足口病的预防控制提供更为准确的参考依据。
参考文献
[1]吴衍嘉,孙杨青,陆芳芳,等. 日光照射时间对2015-2018年深圳宝安区儿童手足口病的影响[J]. 现代预防医学,2021,48(6):1029-1033,1049.
[2]阚海东,姜宜萱,陈仁杰. 气象因素与人群健康研究的前沿进展[J]. 山东大学学报(医学版),2018,56(8):7-13.
[3]国家卫生健康委员会. 手足口病诊疗指南(2018年版)[J].中国病毒病杂志,2018,8(5) :347 -352.
[4]DUAN Chunxiao, ZHANG Xuefeng, JIN Hui,et al.Meteorlogical factors and its association with hand,foot and mouth disease in Southeast and East Asia area:a meta-analysis[J].Epidemiology and Infection,2018,147(50):1-18.
[5]NGUYEN H X, CHU G, NGUYEN H L T, et al.Temporal and spatial analysis of hand,foot,and mouth disease in relation to climate factors:A study in the Mekong Delta region,Vietnam[J]. Science of the Total Environment,2017,581/582:766-772.
[6]王哲,李琳,王凯,等. 基于关联规则分析的慢阻肺就诊人数与气象空气条件关系研究[J]. 中国数字医学,2018,13(4):2-4,47.
[7]张良均,云伟标,王路,等. R语言数据分析与挖掘实战[M]. 北京:机械工业出版社,2021.
[8]张良均,谢佳标,杨坦,等. R语言与数据挖掘[M]. 北京:机械工业出版社,2017.
[9]郭慧敏. 基于关联分析的中老年体检数据的挖掘[J]. 软件工程,2021,24(5):7-9.
[10]陈梦蝶. 数据驱动的慢性疾病风险因素关联分析及再入院预测研究[D]. 成都:电子科技大学,2020.
[11]李宇斐. 基于关联规则的电子病历数据挖掘应用研究-以糖尿病及其并发症为例[D]. 武汉:华中科技大学,2017.
[12]李毛琳. 空气质量与慢病关联模型研究[D]. 荆州:长江大学,2018.
[13]翟广宇,王式功,董继元,等. 兰州市上呼吸道疾病与气象条件和空气质量的关联规则分析[J]. 兰州大学学报(自然科学版),2014,50(1):66-70.
[14]杨雅斯,卢雅陵,方莅媛,等. 气象因素对四川省手足口病发病率的影响及预测模型构建[J]. 四川大学学报(医学版),2021,51(5):685-690.
[15]张翠平,张勇,刘辉,等. 安阳地区2008-2019年手足口病发病与气象因素的相关性分析[J]. 医学理论与实践,2021,34(8):1415-1417.
基金项目: 山西省高等学校科技创新项目(2019L0682)。
作者简介: 降 惠(1983-),女,硕士,副教授,主要研究方向:医学数据挖掘。
收稿日期: 2021-04-18