基于环境气象因素影响的异常就诊量预测

2018-06-01 18:11于广军熊贇彭思佳阮璐
大数据 2018年3期
关键词:传染科分类器气温

于广军,熊贇,彭思佳,阮璐

1. 上海市儿童医院,上海 200040;

2. 上海交通大学医学院,上海 200025;

3. 复旦大学计算机科学技术学院,上海 200433;

4. 上海市数据科学重点实验室,上海 200433;

5. 复旦大学化学系,上海 200433

1 引言

环境气象被认为是影响人类健康的因素之一,某些疾病的发生与恶化通常具有明显的周期性气候特征[1,2]。如春季气温回升,细菌滋生,小儿麻疹、风疹、水痘、手足口病等病高发;秋冬季气温下降,肺结核、哮喘、肺炎、流行性感冒等疾病较为严重。另外,空气污染物颗粒,如NOx、NO2、CO、O3、SO2、PM2.5、PM10等,都有可能导致相关疾病发生率升高[3,4]。

就医人数作为疾病发生率的一种表现,易于统计,分析不同科室就医人数与气候变化的关系,为就医人数建立预测模型和公共卫生部门做出决策提供支持[5],同时可以为人们选择就医时段提供参考。当前,反映气候状况的气温、空气环境的相应指标数据可以被准确全面地记录和整理。因为涉及隐私,对特定疾病发病情况的收集相对困难,而特定科室的就医人数也可以在一定程度上反映疾病的发生情况。

利用大数据技术从医疗相关数据中发现潜在的关系与模式,帮助医院和公共卫生部门做出决策已经受到关注。例如,2009年,Google公司借助大数据技术从用户的搜索行为中预测了甲型H1N1流感的爆发,比美国疾病控制与预防中心先一步发出预警[6];一些研究根据用户在Twitter上的文章构建了流感样病例率的预测模型,取得了较准确的结果[7]。这表明大数据可以帮助预测疾病(尤其是流行病)的爆发趋势,然而,这一领域的研究存在以下问题。

(1)数据的隐私保护

不管是用户的搜索行为、社交网络的言论,还是医院或实验室的医疗数据,都涉及用户隐私,如何在保护隐私的前提下对数据进行分析与挖掘是一大挑战。

(2)数据的规模

数据是大数据分析技术的基础,在需要用户授权的情况下,目前往往只能收集到少量的用户行为数据,无法得到具有普遍性的结论。

(3)就诊量的波动性

特定科室的就医人数聚合了多种疾病的发病率信息,就医人数与气候指标间未必存在直接相关性,如何给出合理的预测预警是需要考虑的问题。

不同于现有的研究,本文利用反映气候状况的气温、空气环境的相应指标数据对就诊量进行预测,数据准确且规模大;通过对特定科室的就医人数进行预测,间接预测了特定类型疾病的发生发展情况,避免了对涉及隐私的病人发病情况的收集;并且侧重于预测就医人数的突发,建立就医人数突发的预警模型。

2 基于环境气象因素的就诊量预测模型

环境气象因素与一些特定疾病的发生息息相关,尤其是流行病和小儿疾病。当前,反映气候状况的气温、空气环境的相应指标数据可以被准确全面地记录和整理。因此,通过环境气象因素来对就诊量进行预测,是一个合理的选择。本文用到的环境因素包括两类:气温和大气污染物。气温因素包括3个指标:最高气温、最低气温和平均气温;大气污染指标包括PM2.5、SO2、NO2、CO。

由于环境因素并不是就诊量变化的唯一因素,因此直接对就诊量的数值进行预测是不合适的。本文试图对就医人数的异常情况建模,即预测就诊量的环比变化情况。比如,预测当天的就医人数相对前几天是平稳的还是突变的。因此,预测模型是一个分类模型。笔者选择随机森林[8]作为分类器。

将气温因素和污染物因素及医院传染科平均就医人数作为模型的特征,建立就医人数与环境特征间的随机森林分类器,实现对就医突变情况预测。具体如下。

选择温度、PM2.5、SO2、NO2、CO指标和平均就医人数作为模型的特征,并假定各特征之间相互独立。变量Tt=<Tmin,t,Tmax,t,Tmean,t>表示日期t当天的最高气温、最低气温和平均气温。考虑就医人数与温度的时滞效应,选择预测日期前N天(不含当日)的温度变化作为特征,分别计算N天平均温度天内最大温差Dev(TN),其中:

对PM2.5、SO2、NO2、CO指标做同样的处理,形成污染物的特征,表示N天内PM2.5的平均值。表示经过标准化后的前N天的平均就医人数(不含当日)。因此模型的特征集表示为:

对就医人数的异常情况建模,异常情况是指环比变化情况。模型的目标变量应该反映预测当天的就医人数的突变情况,假定阈值当G>α时,判定就医人数突增,当G<β时,判定就医人数突减,即当标准化后的就医人数偏离超过均值的α或β倍标准差时判定为就医人数突增或突减,见表1。

表1 判定就医异常情况

其中,将L(Y)作为标签,特征集F中,的取值为连续变量,L为类别标签。

本文在训练样本集上构造了10棵决策树组合的随机森林分类器。

3 实验分析

(1)数据集

模型涉及多源数据集,包括大气污染物监测数据、气温数据和就医人数的数据,下面以某市为例进行说明。

● 大气污染物监测数据来源于国家气象中心,包括该市2013年1月1日—2014年11月30日的大气SO2、NO2、CO、PM2.5污染物浓度。

● 气温数据为国家气象信息中心提供的2013年1月1日—2014年11月30日该市气象站每日常规连续监测数据,包括最高气温、最低气温和平均气温。

● 就医数据是2013年1月1日—2014年11月30日该市某儿童医院传染科科室就医人数每日变化数据。

上述3个数据集描述性统计结果见表2。

(2)环境气象与就诊人数趋势相关性分析

图1为该市PM2.5浓度的日平均值,为每日连续监测数据,可见浓度在冬季(2013年12月—2014年2月)达到当年最高值,春季次之,夏季(2014年9月—2014年10月)最低。污染物取值大于零,对污染物水平取对数发现,其对数取值满足正态分布。图2、图3、图4是该市大气污染因子SO2、NO2、CO的连续分布图,类似的,污染物在冬季(2013年12月—2014年2月)达到当年最高值,春季次之,夏季(2014年9月—2014年10月)最低。

表2 描述性统计结果

如图5所示,该市日气温变化具有明显的时间规律性,高峰值出现在夏季的8月,低峰值出现在冬季的1月。

传染科就诊人数变化趋势如图6所示,具有明显的周期性,其高峰值出现在初夏(6月—7月),8月—9月为次低谷,低峰值出现在深冬(1月—2月)。初夏之际,气温骤升,适合细菌繁殖,因此传染科的就诊量最高。而在1月—2月,气温是一年中最低的,不利于细菌的繁殖,就诊量也就相对较低。

(3)实验结果

实验以该市2013年1月1日—2014年11月30日气温数据,PM2.5、SO2、NO2、CO大气污染浓度和该市儿童医院传染科日就诊人数为基础,构造上述特征和标签,对就医人数进行了前文所述的标准化处理,并且根据标准化后的就医人数最多及最少的20%界定。实验采用随机森林作为分类器,以十折交叉验证的方式分别计算分类器在突增、突减以及正常情况下的预测准确率。为评估就诊人数随环境变化的时滞效应,研究延迟天数N从1到7变化时,各情况下的准确率和召回率,具体情况见表3。

图1 2013年1月1日—2014年11月30日某市PM2.5浓度随时间变化的趋势

图2 2013年1月1日—2014年11月30日某市SO2浓度随时间变化的趋势

实验结果表明,在N较小(N=1或N=2)时,分类的准确率都不高,表明环境的变化无法在短时间内立刻影响到就医人数。随着N的增大,分类效果逐渐提升,并在延迟4日时效果最好,此后随时间的增加,分类效果递减。这表明环境因素对传染科就诊人数的影响时滞在4日左右,延迟如果过大,则环境因素的影响变弱。实验结果表明分类模型可取N=4来获取最好的分类效果。

表3 随机森林分类器预测准确率及召回率随延迟变化

图3 2013年1月1日—2014年11月30日某市NO2浓度随时间变化的趋势

图4 2013年1月1日—2014年11月30日某市CO浓度随时间变化的趋势

图5 2013年1月1日—2014年11月30日某市气温随时间变化的趋势

在延迟设定为4日(N=4)时,就医人数突增预测的准确率为92.8%,召回率为83.5%;就医人数突减预测的准确率为87.4%,召回率为92.4%;就医人数没有明确波动的情况预测准确率为80.5%,召回率为78.1%。总体上看,分类器对正常情况的预测表现一般,这是因为就医人数受多种因素影响,其他变量的变化也会导致就医人数发生异常变化,使得结果不属于正常情况。可以将其他因素加入分类器中,提高对正常情况的预测效果。分类器对突增和突减情况的预测要明显好于对正常情况的预测,具有较高的准确率和召回率,说明从环境因素预测就诊量的异常波动是有效的。

随机森林的分类结果通过K个决策树结果的投票来决定,提升了单个决策树的分类精度,防止了过拟合的出现,是一种比较可靠的分类方法。为了评估随机森林分类效果,本文挑选了6种常用的分类算法(高斯朴素贝叶斯、SVM、K近邻、决策树、XGBoost、逻辑回归)进行分类试验,并与随机森林分算法进行对比。结果见表4。

实验表明各种分类算法在不同情况下各有优劣。高斯朴素贝叶斯方法在突增召回率上表现不错,但是准确率过低,且对正常情况的预测效果很差,说明过多地将正常情况判定为了异常情况;SVM和XGBoost在突增上的表现和随机森林接近,但在突减上表现略差。K近邻在各项指标上的表现都较差。决策树的召回率比较好,但准确率低。逻辑回归算法在正常情况下的召回率太低。总体来说,随机森林的表现要优于其他算法。

表4 各种分类算法进行分类试验的结果

4 结束语

本文研究分析了分类模型在某儿童医院传染科就诊人数突变的应用。抽取待预测日期前一段时间内气温、污染物浓度以及就医人数整体水平作为分类模型的特征,利用随机森林模型预测就医人数的异常情况,具有较高的准确率和召回率。对就医人数的预测可以辅助医院合理安排医疗人员,亦可为公众合理安排就医时间提供帮助。由于科室就医人数聚合了不同疾病患者的就医信息,而不同疾病与外界环境的关系不尽相同,科室就医人数与环境因素间的相关性在一定程度上被弱化了。为判明特定疾病与环境因素间的关系需要收集更精准的数据,这是未来要完成的工作。

[1]KOUTRAS A, SAKELLAKIS M,MAKATSORIS T, et al. Seasonal variability in the incidence of carcinomatous meningitis[J]. Journal of Neurosurgery,2015, 122(3): 543-546.

图6 2013年1月1日—2014年11月30日某市儿童医院传染科就诊人数变化趋势

[2]HONG J S, KANG H C. Seasonal variation in case fatality rate in Korean patients with acute myocardial infarction using the 1997-2006 Korean National Health Insurance Claims Database[J]. Acta Cardiologica, 2014, 69(5): 513-521.

[3]LEE S L, WONG W H S, LAU Y L.Association between air pollution and asthma admission among children in Hong Kong[J]. Clinical & Experimental Allergy,2006, 36(9): 1138-1146.

[4]LE T G, NGO L, MEHTA S, et al. Effects of short-term exposure to air pollution on hospital admissions of young children for acute lower respiratory infections in Ho Chi Minh City, Vietnam[J]. Research Report(Health Effects Institute), 2012, 12(4):174-181.

[5]SOYIRI I N, REIDPATH D D, SARRAN C.Forecasting asthma-related hospital admissions in London using negative binomial models[J]. Chronic Respiratory Disease, 2013, 10(2): 85-94.

[6]DAVIDSON M W, HAIM D A, RADIN J M. Using networks to combine “big data” and traditional surveillance to improve influenza predictions[J]. Scientific Reports, 2015(5): 8154.

[7]LAMPOS V, BIE T D, CRISTIANINI N.Flu detector: tracking epidemics on twitter[C]// European Conference on Machine Learning and Knowledge Discovery in Databases, September 20-24,2010, Barcelona, Spain. Heidelberg:Springer Press, 2010: 599-602.

[8]BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

猜你喜欢
传染科分类器气温
基于FY-3D和FY-4A的气温时空融合
深冬气温多变 蔬菜管理要随机应变
传染科护士的工作压力及心理健康状态的调查探讨
优质护理服务在传染科患者护理中的应用效果
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
安全教育在传染科护理管理中的应用分析
与气温成反比的东西
传染科医护人员心理健康状况及影响因素探讨
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别